Japanese Orthographic Variants Classified by Type


©2001-2008 The CJK Dictionary Institute, Inc.

Version: 1.0


The CJK Dictionary Institute maintains a comprehensive database of Japanese orthographic variants. For a detailed description, see Jack Halpern's whitepaper The Challenges of Intelligent Japanese Searching. The tables below are samples of orthographic variants, classified by type, which refers to precise linguistic criteria for defining the type of variation. The Type symbols are explained in Table 0. Follow the urls for a detailed description of each type.

To use this data for testing, there is a text version available at joasamp2.txt, classified by reading. We have also prepared a series of sentences, available at joatest1.txt, which are particularly effective for testing this data. To get a better understanding of the linguistic issues, please refer to the whitepaper while studying the tables below, as well as study another set of tables, available at joasamp2.htm, in which the data is classified by reading (rather than by type as it is here).

The POS codes are explained in jappos.htm. The ID_Num and ID_Let are important since they group the lexemes by etymological and conceptual groups.

It is important to note that the duplication of the same lexeme in different tables is intentional, since they can play multiple roles depending on the type of orthographic variation. For example, 還える is an okurigana variant in relation to 還る, but a kun homophone in relation 帰る. In implementing orthographic normalization it is important to consider this and to provide the option to turn specific features (based on type) on and off.


Index to This Document
  1. Cross-script variants
  2. Okurigana variants
  3. Kanji variants
  4. Phonetic substitutes
  5. Katakana variants
  6. Hiragana variants
  7. Kun homophones


Table 0: Explanation of Symbols
SymbolJapanese English URL
S文字種Cross-script variants full details
O送り仮名Okurigana variants full details
I異体字Kanji variants full details
P書き換え漢字Phonetic substitutes full details
K片仮名表記Katakana variants full details
J平仮名表記Hiragana variants full details
H同訓異字Kun homophones full details
N異表記に該当しないNot orthographic  


ID_NumID_LetLexemePOSReading
S: Cross-script Variants
0011000 a かえる NC カエル
0011000 b NC カエル
0011000 c NC カエル
0011000 d カエル NC カエル
0012000 a かえる V1 カエル
0012000 b 換える V1 カエル
0012000 c 替える V1 カエル
0012000 d 代える V1 カエル
0012000 e 変える V1 カエル
0013000 a かえる V5 カエル
0013000 b 還える V5 カエル
0013000 c 還る V5 カエル
0013000 d 帰る V5 カエル
0013000 e 返る V5 カエル
0021000 a とり NC トリ
0021000 b NC トリ
0021000 c NC トリ
0021000 d NC トリ
0021000 e トリ NC トリ
0022000 a とり NC トリ
0022000 b NC トリ
0022000 c 取り NC トリ
0031000 a とりあえず D トリアエズ
0031000 b 取りあえず D トリアエズ
0031000 c 取り敢えず D トリアエズ
0031000 d 取り敢ず D トリアエズ
0031000 e 取敢えず D トリアエズ
0031000 f 取敢ず D トリアエズ
0041000 a たばこ NC タバコ
0041000 b 煙草 NC タバコ
0041000 c 烟草 NC タバコ
0041000 d NC タバコ
0041000 e タバコ NC タバコ
0061000 a 麺麭 NC パン
0061000 b パン NC パン
0062000 a ぱん D パン
0062000 b パン D パン
0071000 a 合いびき NC アイビキ
0071000 b 合い挽き NC アイビキ
0071000 c 合い挽 NC アイビキ
0071000 d 合挽き NC アイビキ
0071000 e 合挽 NC アイビキ
0071000 f 合びき NC アイビキ
0081000 a 青かび NC アオカビ
0081000 b 青カビ NC アオカビ
0081000 c 青黴 NC アオカビ
0081000 d アオカビ NC アオカビ
0091000 a あき缶 NC アキカン
0091000 b あき罐 NC アキカン
0091000 c あきカン NC アキカン
0091000 d 空きかん NC アキカン
0091000 e 空き缶 NC アキカン
0091000 f 空き罐 NC アキカン
0091000 g 空き鑵 NC アキカン
0091000 h 空きカン NC アキカン
0091000 i 空缶 NC アキカン
0091000 j 空罐 NC アキカン
0091000 k 空鑵 NC アキカン
0101000 a アルファー線 NC アルファーセン
0101000 b アルファ線 NC アルファセン
0101000 c α線 NC アルファセン
0111000 a 安全かみそり NC アンゼンカミソリ
0111000 b 安全剃刀 NC アンゼンカミソリ
0111000 c 安全カミソリ NC アンゼンカミソリ
0161000 a NU アンペア
0161000 b アンペア NU アンペア
0351000 a あっぱれ AN アッパレ
0351000 b 天晴 AN アッパレ
0351000 c 天晴れ AN アッパレ
0351000 d AN アッパレ
0381000 a 当たりはずれ NC アタリハズレ
0381000 b 当たり外れ NC アタリハズレ
0381000 c 当り外れ NC アタリハズレ
0381000 d 当外 NC アタリハズレ
0381000 e 当外れ NC アタリハズレ
0401000 a いう V5 イウ
0401000 b 謂う V5 イウ
0401000 c 云う V5 イウ
0401000 d 言う V5 イウ
0411000 a NC イオウ
0411000 b イオウ NC イオウ
0411000 c 硫黄 NC イオウ
0421000 a うなずく V5 ウナズク
0421000 b うなづく V5 ウナヅク
0421000 c 首肯く V5 ウナズク
0421000 d 頷く V5 ウナズク
0431000 a うむ V5 ウム
0431000 b 生む V5 ウム
0431000 c 産む V5 ウム
0432000 a うむ V5 ウム
0432000 b 膿む V5 ウム
0432000 c 熟む V5 ウム
0433000 a うむ V5 ウム
0433000 b 倦む V5 ウム
0434000 a うむ V5 ウム
0434000 b 績む V5 ウム
0451000 a オープン VN オープン
0451000 b OPEN VN オープン
0461000 a おおきい AJ オオキイ
0461000 b おうきい AJ オウキイ
0461000 c 大きい AJ オオキイ
0471000 a おおぜい NC オオゼイ
0471000 b 大勢 NC オオゼイ
0471000 c 大ぜい NC オオゼイ
0501000 a 書きあらわす V5 カキアラワス
0501000 b 書き表わす V5 カキアラワス
0501000 c 書き表す V5 カキアラワス
0501000 d 書表わす V5 カキアラワス
0501000 e 書表す V5 カキアラワス
0501000 f 書きあらわす V5 カキアラワス
0501000 g 書き著わす V5 カキアラワス
0501000 h 書き著す V5 カキアラワス
0501000 i 書著わす V5 カキアラワス
0501000 j 書著す V5 カキアラワス
0501000 k 描きあらわす V5 カキアラワス
0501000 l 描き表わす V5 カキアラワス
0501000 m 描き表す V5 カキアラワス
0501000 n 描表わす V5 カキアラワス
0501000 o 描表す V5 カキアラワス
0511000 a qr NU クオーター
0511000 b クォーター NU クォーター
0511000 c クォータ NU クォータ
0531000 a ここ NC ココ
0531000 b こゝ NC ココ
0531000 c 此処 NR ココ
0531000 d 此所 NR ココ
0541000 a こんにちは I コンニチハ
0541000 b こんにちわ NC コンニチワ
0541000 c 今日は I コンニチハ
0541000 d 今日わ I コンニチハ
0581000 a さす V5 サス
0581000 b 刺す V5 サス
0581000 c 注す V5 サス
0581000 d 点す V5 サス
0581000 e 指す V5 サス
0581000 f 挿す V5 サス
0581000 g 插す V5 サス
0581000 h 差す V5 サス
0581000 i 射す V5 サス
0581000 j 鎖す V5 サス
0601000 a すい星 NC スイセイ
0601000 b 彗星 NC スイセイ
0611000 a たまご NC タマゴ
0611000 b NC タマゴ
0611000 c 玉子 NC タマゴ
0631000 a ちぢむ V5 チヂム
0631000 b ちじむ V5 チジム
0631000 c 縮む V5 チヂム
0641000 a つづく V5 ツヅク
0641000 b つずく V5 ツズク
0641000 c 続く V5 ツヅク
0651000 a とおり NC トオリ
0651000 b とうり NC トオリ
0651000 c 通り NC トオリ
0651000 d NC トオリ
0671000 a におい NC ニオイ
0671000 b にほひ NC ニオイ
0671000 c 匂い NC ニオイ
0671000 d NC ニオイ
0671000 e 臭い NC ニオイ
0671000 f NC ニオイ
0681000 a にわとり NC ニワトリ
0681000 b NC ニワトリ
0681000 c ニワトリ NC ニワトリ
0691000 a ねこ NC ネコ
0691000 b NC ネコ
0691000 c ネコ NC ネコ
0721000 a はなぢ NC ハナヂ
0721000 b はなじ NC ハナヂ
0721000 c 鼻血 NC ハナヂ
0731000 a 皮膚 NC ヒフ
0731000 b 皮フ NC ヒフ
0731000 c ヒフ NC ヒフ
0741000 a ぴかぴか D ピカピカ
0741000 b ピカピカ D ピカピカ
0821000 a ワイシャツ NC ワイシャツ
0821000 b Yシャツ NC ワイシャツ
0841000 a kg NU キログラム
0841000 b キログラム NU キログラム
0841000 c NU キログラム
0851000 a 東京いき NC トウキョウイキ
0851000 b 東京ゆき NC トウキョウユキ
0851000 c 東京行き NC トウキョウイキ
0851000 d 東京行 NC トウキョウイキ
0851000 e 東京往き NC トウキョウイキ
0851000 f 東京往 NC トウキョウイキ
0861000 a しるす V5 シルス
0861000 b 記す V5 シルス
0861000 c 誌す V5 シルス
0861000 d 識す V5 シルス
0861000 e 印す V5 シルス
0861000 f 標す V5 シルス
0871000 a 青紫蘇 NC アオジソ
0871000 b 青じそ NC アオジソ
0871000 c 青ジソ NC アオジソ
0881000 a あける V1 アケル
0881000 b 空ける V1 アケル
0881000 c 開ける V1 アケル
0881000 d 明ける V1 アケル
0891000 a 売りきれ NC ウリキレ
0891000 b 売り切れ NC ウリキレ
0891000 c 売きれ NC ウリキレ
0891000 d 売切れ NC ウリキレ
0891000 e 売切 NC ウリキレ
0901000 a 塩ざけ NC シオザケ
0901000 b 塩鮭 NC シオザケ
0901000 c 塩ザケ NC シオザケ
0911000 a 昼ごはん NC ヒルゴハン
0911000 b 昼ご飯 NC ヒルゴハン
0911000 c 昼御飯 NC ヒルゴハン
0921000 a べんとう箱 NC ベントウバコ
0921000 b 弁当箱 NC ベントウバコ
0921000 c 辨当箱 NC ベントウバコ
0931000 a 混ぜごはん NC マゼゴハン
0931000 b 混ぜ御飯 NC マゼゴハン
0931000 c 混御飯 NC マゼゴハン
0941000 a 三つぞろい NC ミツゾロイ
0941000 b 三つ揃い NC ミツゾロイ
0941000 c 三つ揃 NC ミツゾロイ
0941000 d 三揃い NC ミツゾロイ
0941000 e 三揃 NC ミツゾロイ
0951000 a めいっぱい D メイッパイ
0951000 b 目いっぱい D メイッパイ
0951000 c 目一杯 D メイッパイ
0961000 a 申しわけない AJ モウシワケナイ
0961000 b 申しわけ無い AJ モウシワケナイ
0961000 c 申し訳無い AJ モウシワケナイ
0961000 d 申し訳ない AJ モウシワケナイ
0961000 e 申訳ない AJ モウシワケナイ
0961000 f 申訳無い AJ モウシワケナイ
0971000 a ありがとう I アリガトウ
0971000 b 有り難う I アリガトウ
0971000 c 有難う I アリガトウ
0981000 a この度 NC コノタビ
0981000 b 此のたび NC コノタビ
0981000 c 此の度 NC コノタビ
0981000 d 此度 NC コノタビ



ID_NumID_LetLexemePOSReading
O: Okurigana Variants
0013000 b 還える V5 カエル
0013000 c 還る V5 カエル
0022000 b NC トリ
0022000 c 取り NC トリ
0031000 b 取りあえず D トリアエズ
0031000 c 取り敢えず D トリアエズ
0031000 d 取り敢ず D トリアエズ
0031000 e 取敢えず D トリアエズ
0031000 f 取敢ず D トリアエズ
0051000 a 取り扱い NC トリアツカイ
0051000 b 取扱い NC トリアツカイ
0051000 c 取扱 NC トリアツカイ
0071000 a 合いびき NC アイビキ
0071000 b 合い挽き NC アイビキ
0071000 c 合い挽 NC アイビキ
0071000 d 合挽き NC アイビキ
0071000 e 合挽 NC アイビキ
0071000 f 合びき NC アイビキ
0072000 a 合い引き VN アイビキ
0072000 b 合引き VN アイビキ
0072000 c 合引 VN アイビキ
0072000 d 相引き VN アイビキ
0072000 e 相引 VN アイビキ
0073000 a 逢い引き VN アイビキ
0073000 b 逢引き VN アイビキ
0073000 c 逢引 VN アイビキ
0073000 d 媾曵き VN アイビキ
0073000 e 媾曵 VN アイビキ
0091000 e 空き缶 NC アキカン
0091000 f 空き罐 NC アキカン
0091000 g 空き鑵 NC アキカン
0091000 i 空缶 NC アキカン
0091000 j 空罐 NC アキカン
0091000 k 空鑵 NC アキカン
0351000 b 天晴 AN アッパレ
0351000 c 天晴れ AN アッパレ
0381000 a 当たりはずれ NC アタリハズレ
0381000 b 当たり外れ NC アタリハズレ
0381000 c 当り外れ NC アタリハズレ
0381000 d 当外 NC アタリハズレ
0381000 e 当外れ NC アタリハズレ
0501000 b 書き表わす V5 カキアラワス
0501000 c 書き表す V5 カキアラワス
0501000 d 書表わす V5 カキアラワス
0501000 e 書表す V5 カキアラワス
0501000 g 書き著わす V5 カキアラワス
0501000 h 書き著す V5 カキアラワス
0501000 i 書著わす V5 カキアラワス
0501000 j 書著す V5 カキアラワス
0501000 l 描き表わす V5 カキアラワス
0501000 m 描き表す V5 カキアラワス
0501000 n 描表わす V5 カキアラワス
0501000 o 描表す V5 カキアラワス
0651000 c 通り NC トオリ
0651000 d NC トオリ
0671000 c 匂い NC ニオイ
0671000 d NC ニオイ
0671000 e 臭い NC ニオイ
0671000 f NC ニオイ
0851000 c 東京行き NC トウキョウイキ
0851000 d 東京行 NC トウキョウイキ
0851000 e 東京往き NC トウキョウイキ
0851000 f 東京往 NC トウキョウイキ
0891000 a 売りきれ NC ウリキレ
0891000 b 売り切れ NC ウリキレ
0891000 c 売きれ NC ウリキレ
0891000 d 売切れ NC ウリキレ
0891000 e 売切 NC ウリキレ
0931000 b 混ぜ御飯 NC マゼゴハン
0931000 c 混御飯 NC マゼゴハン
0941000 a 三つぞろい NC ミツゾロイ
0941000 b 三つ揃い NC ミツゾロイ
0941000 c 三つ揃 NC ミツゾロイ
0941000 d 三揃い NC ミツゾロイ
0941000 e 三揃 NC ミツゾロイ
0961000 c 申し訳無い AJ モウシワケナイ
0961000 d 申し訳ない AJ モウシワケナイ
0961000 e 申訳ない AJ モウシワケナイ
0961000 f 申訳無い AJ モウシワケナイ
0971000 b 有り難う I アリガトウ
0971000 c 有難う I アリガトウ
0981000 c 此の度 NC コノタビ
0981000 d 此度 NC コノタビ



ID_NumID_LetLexemePOSReading
I: Kanji Variants
0041000 b 煙草 NC タバコ
0041000 c 烟草 NC タバコ
0073000 e 媾曵 VN アイビキ
0073000 f 媾曳 VN アイビキ
0091000 a あき缶 NC アキカン
0091000 b あき罐 NC アキカン
0091000 e 空き缶 NC アキカン
0091000 f 空き罐 NC アキカン
0091000 i 空缶 NC アキカン
0091000 j 空罐 NC アキカン
0481000 a 大巾 AN オオハバ
0481000 b 大幅 AN オオハバ
0561000 a NU サイ
0561000 b NU サイ
0571000 a 斉藤 ZZ サイトウ
0571000 b 斎藤 ZZ サイトウ
0571000 c 齋藤 ZZ サイトウ
0581000 f 挿す V5 サス
0581000 g 插す V5 サス
0661000 a 中島 ZZ ナカジマ
0661000 b 中嶋 ZZ ナカジマ
0711000 a 発達 VN ハッタツ
0711000 b 發達 VN ハッタツ
0751000 a 風刺 VN フウシ
0751000 b 諷刺 VN フウシ
0831000 a 渡辺 ZZ ワタナベ
0831000 b 渡邊 ZZ ワタナベ
0831000 c 渡邉 ZZ ワタナベ
0921000 b 弁当箱 NC ベントウバコ
0921000 c 辨当箱 NC ベントウバコ



ID_NumID_LetLexemePOSReading
P: Phonetic Substitutes
0021000 b NC トリ
0021000 c NC トリ
0021000 d NC トリ
0023000 a 肚裏 NC トリ
0023000 b 肚裡 NC トリ
0041000 b 煙草 NC タバコ
0041000 c 烟草 NC タバコ
0041000 d NC タバコ
0072000 a 合い引き VN アイビキ
0072000 b 合引き VN アイビキ
0072000 c 合引 VN アイビキ
0072000 d 相引き VN アイビキ
0072000 e 相引 VN アイビキ
0073000 a 逢い引き VN アイビキ
0073000 b 逢引き VN アイビキ
0073000 c 逢引 VN アイビキ
0073000 d 媾曵き VN アイビキ
0073000 e 媾曵 VN アイビキ
0073000 f 媾曳 VN アイビキ
0091000 e 空き缶 NC アキカン
0091000 f 空き罐 NC アキカン
0091000 g 空き鑵 NC アキカン
0091000 i 空缶 NC アキカン
0091000 j 空罐 NC アキカン
0091000 k 空鑵 NC アキカン
0351000 b 天晴 AN アッパレ
0351000 c 天晴れ AN アッパレ
0351000 d AN アッパレ
0421000 c 首肯く V5 ウナズク
0421000 d 頷く V5 ウナズク
0531000 c 此処 NR ココ
0531000 d 此所 NR ココ
0581000 c 注す V5 サス
0581000 d 点す V5 サス
0581000 h 差す V5 サス
0581000 i 射す V5 サス
0611000 b NC タマゴ
0611000 c 玉子 NC タマゴ
0701000 a 発酵 VN ハッコウ
0701000 b 醗酵 VN ハッコウ
0771000 a 妄想 VN モウソウ
0771000 b 盲想 VN モウソウ
0801000 a 乱用 VN ランヨウ
0801000 b 濫用 VN ランヨウ
0811000 a 連係 VN レンケイ
0811000 b 連繋 VN レンケイ
0811000 c 聯繋 VN レンケイ
0831000 a 渡辺 ZZ ワタナベ
0831000 b 渡邊 ZZ ワタナベ
0831000 c 渡邉 ZZ ワタナベ
0831000 d 渡部 ZZ ワタナベ



ID_NumID_LetLexemePOSReading
K: Katakana Variants
0101000 a アルファー線 NC アルファーセン
0101000 b アルファ線 NC アルファセン
0121000 a アンダーウェア NC アンダーウェア
0121000 b アンダーウェアー NC アンダーウェアー
0121000 c アンダーウエア NC アンダーウエア
0131000 a アンチョヴィ NC アンチョヴィ
0131000 b アンチョヴィー NC アンチョヴィー
0131000 c アンチョビ NC アンチョビ
0131000 d アンチョビー NC アンチョビー
0141000 a アンチック NC アンチック
0141000 b アンチーク NC アンチーク
0141000 c アンティック NC アンティック
0141000 d アンティーク NC アンティーク
0151000 a アンチックファッション NC アンチックファッション
0151000 b アンチークファッション NC アンチークファッション
0151000 c アンティーク・ファッション NC アンティークファッション
0151000 d アンティークファッション NC アンティークファッション
0171000 a アンリーズナブル AN アンリーズナブル
0171000 b アンリーゾナブル AN アンリーゾナブル
0361000 a アイシャドー NC アイシャドー
0361000 b アイシャドウ NC アイシャドウ
0371000 a アイスキューブ NC アイスキューブ
0371000 b アイス・キューブ NC アイスキューブ
0391000 a イェルサレム ZZ イェルサレム
0391000 b エルサレム ZZ エルサレム
0441000 a バイオリン NC バイオリン
0441000 b ヴァイオリン NC ヴァイオリン
0491000 a オンライン NC オンライン
0491000 b オン・ライン NC オンライン
0511000 b クォーター NU クォーター
0511000 c クォータ NU クォータ
0551000 a コンピューター NC コンピューター
0551000 b コンピュータ NC コンピュータ
0591000 a ディーゼル NC ディーゼル
0591000 b ジーゼル NC ジーゼル
0591000 c ヂーゼル NC ヂーゼル
0621000 a チーム NC チーム
0621000 b ティーム NC ティーム
0761000 a メード NC メード
0761000 b メイド NC メイド
0791000 a ユーザー NC ユーザー
0791000 b ユーザ NC ユーザ



ID_NumID_LetLexemePOSReading
J: Hiragana Variants
0421000 a うなずく V5 ウナズク
0421000 b うなづく V5 ウナヅク
0461000 a おおきい AJ オオキイ
0461000 b おうきい AJ オウキイ
0521000 a こう D コウ
0521000 b かう D コウ
0521000 c かふ D コウ
0531000 a ここ NC ココ
0531000 b こゝ NC ココ
0541000 a こんにちは I コンニチハ
0541000 b こんにちわ NC コンニチワ
0541000 c 今日は I コンニチハ
0541000 d 今日わ I コンニチハ
0631000 a ちぢむ V5 チヂム
0631000 b ちじむ V5 チジム
0641000 a つづく V5 ツヅク
0641000 b つずく V5 ツズク
0651000 a とおり NC トオリ
0651000 b とうり NC トオリ
0671000 a におい NC ニオイ
0671000 b にほひ NC ニオイ
0721000 a はなぢ NC ハナヂ
0721000 b はなじ NC ハナヂ
0781000 a 用いる V1 モチイル
0781000 b 用ゐる V1 モチイル
0851000 a 東京いき NC トウキョウイキ
0851000 b 東京ゆき NC トウキョウユキ



ID_NumID_LetLexemePOSReading
H: Kun Homophones
0012000 b 換える V1 カエル
0012000 c 替える V1 カエル
0012000 d 代える V1 カエル
0012000 e 変える V1 カエル
0013000 c 還る V5 カエル
0013000 d 帰る V5 カエル
0013000 e 返る V5 カエル
0072000 a 合い引き VN アイビキ
0072000 c 合引 VN アイビキ
0072000 e 相引 VN アイビキ
0073000 b 逢引き VN アイビキ
0073000 d 媾曵き VN アイビキ
0431000 b 生む V5 ウム
0431000 c 産む V5 ウム
0432000 b 膿む V5 ウム
0432000 c 熟む V5 ウム
0501000 b 書き表わす V5 カキアラワス
0501000 g 書き著わす V5 カキアラワス
0501000 l 描き表わす V5 カキアラワス
0581000 b 刺す V5 サス
0581000 c 注す V5 サス
0581000 d 点す V5 サス
0581000 e 指す V5 サス
0581000 f 挿す V5 サス
0581000 h 差す V5 サス
0581000 i 射す V5 サス
0581000 j 鎖す V5 サス
0671000 c 匂い NC ニオイ
0671000 e 臭い NC ニオイ
0811000 a 連係 VN レンケイ
0811000 b 連繋 VN レンケイ
0811000 d 連携 VN レンケイ
0851000 c 東京行き NC トウキョウイキ
0851000 e 東京往き NC トウキョウイキ
0861000 b 記す V5 シルス
0861000 c 誌す V5 シルス
0861000 d 識す V5 シルス
0861000 e 印す V5 シルス
0861000 f 標す V5 シルス
0881000 b 空ける V1 アケル
0881000 c 開ける V1 アケル
0881000 d 明ける V1 アケル