包括的な日本人名異表記データベース

Comprehensive Database of Japanese Name Variants

English Page


©2006-2010 The CJK Dictionary Institute, Inc.




1. 人名の異表記に伴う難点

世界の人名とその異表記の数(例えば、「ジュンイチロウ」をアルファベットで綴ると100通り以上ある)を合わせると数十億あるであろう。地名の場合、それ自体の数は多くても、異表記の多さは人名ほどではない。固有名詞と異表記の識別は、計算言語学上困難な課題の一つである。NER(Named Entity Recognition、固有名認識)は計算言語学の分野で注目を集めており、多くのITアプリケーションに於て重要な役割を担っている。

この技術を強化すべく、日中韓辭典研究所では数百万の固有名詞、特に日本語中国語の固有名詞を多数収録した包括的なデータベースを保有している。本稿では日本人名の異表記に関する問題を述べると共に、日本人名異表記のデータ資源のサンプルを紹介する。The Role of Lexical Resources in CJK NLP Applications(「日中韓各語の自然言語処理における語彙資源の役割」)及び Named Entity Contextual Clues(「固有名詞認識用接辞」)も参照されたい。

2. 適用可能分野

人名及びその多数の異体を認識、処理、正規化することで、下記のような用途に有効活用できる。

    1. 金融機関でのマネーロンダリング対策。
    2. テロリストや犯罪者の名前の異表記と思われるものを識別する等の安全対策。
    3. 検索エンジンによるクエリ処理。
    4. 出入国管理システム。
    5. 機械翻訳の精度向上。
    6. 固有名・情報抽出。
    7. 日中韓各語の分節処理及び形態素分析。

上記のような用途には、大規模な人名異表記のデータベースは非常に有用である。当研究所では中国(主要方言を含む)、日本韓国アラビア語系、スペイン語系の人名を様々なローマ字表記法でデータベース化しており、主要なローマ字表記全ては言うに及ばず、あまり使用されない表記法も含めた人名とその異表記は数百万項目に及ぶ。

3. 日本人名異表記に関する困難

日本の人名の数は膨大である。当研究所のデータベース(japnamej.htm 参照)にはおよそ40万の名、及び15万ほどの姓が収録されているが、これに多数あるローマ字の異表記を合わせると、総計数百万通りの人名の表記があることになる。

日本語のローマ字表記には確立された方式がいくつかあるが、その他にも良く使われる表記法があり、同一語の中に複数の表記法が混在している場合さえある。当研究所のデータベースには、表1のように主要な表記法とそうでないものを合わせて収録してある(各表記法についてはリンクを参照)。例として名字の「大津」(おおづ)及び「山口」(やまぐち)を示す。


表1. 日本語のローマ字表記法
表記法
表記例 説明
ヘボン式 Ōzu 最も広く使用されている表記法で、表2のような異表記がある。
訓令式 Ôzu 日本政府が正式に採用している方式であり、ISO3602に承認。
日本式 Ôdu 訓令式に先立って使用されていた表記法であるが、現在でも使用されている。
ワープロ式 Ouzu 一般に普及しているワープロ入力用の綴りに基づく。
英語式 Ozu ヘボン式に基づき一番普及している英語綴り式の表記で、長音は省略されている。
ドイツ語式 Jamagutschi ドイツ語に基づく表記法。
ロマンス語式 Yamagutchi ロマンス諸語に基づく表記法。
各種異体
Oozu
Ohzu
Oodu
Oudu
Ohdu
Odu
ヘボン式の異形等、各表記法の異体。

当研究所の人名異表記データベースは、前述のローマ字表記法全てとその混合型表記を網羅しており、項目数も数百万を数える。以下に異表記の例を挙げ、何故これほど多数の異表記法が存在するのかも簡単に説明する。下記の例以外にも Eleanor Jordan 氏による JSL system や修正ヘボン式とほぼ同一の ALA-LC system 等があるが、下記見本では省略した。

4. ヘボン式ローマ字の異体

英語を基にした ヘボン式ローマ字 は、牧師のジェームズ・カーティス・ヘボンにより考案され、ヘボン編集による1867年出版の『和英語林集成』に初出した。ヘボン式は、今日最も広く使用されている事実上の標準表記法であり、日本政府でも本来公の方式である 訓令式 の代わりに使用されている。

一般に信じられているのとは異なり、実際にはヘボン式は一種類ではなく、多数の異体が存在する。標準とも言うべきヘボン式は正しくは「修正ヘボン式」と呼ばれ、以下に示す異体も修正ヘボン式と同等かそれ以上に使われていると言ってよい。「修正ヘボン式」は時に「改定ヘボン式」(一部の辞書や言語学者が用いる場合があるが、修正ヘボン式ほど普及していない)と呼ばれることもあるため、注意が必要である。


表2. ヘボン式ローマ字の異体
漢字 読み 英語式 修正
ヘボン式
改定
ヘボン式
ヘボン式原形 パスポート式 ワープロ式 ヘボン式異体
佐藤 さとう Sato Satō Satoo Satō Satoh, Sato Satou Satô
大津 おおづ Ozu Ōzu Oozu Ōzu Ohzu, Ozu Oozu Ôzu
井生 いおう Io Ioo Ioh, Io Iou
伊大地 いおおじ Ioji Iōji Iōji Iōji Iohji, Ioji Iooji Iôji
天満屋 てんまんや Tenman'ya, Tenmanya Tenman'ya, Tenmanya, Tenman-ya Tenman'ya, Ten̄man̄ya Tenman'ya Tenman'ya, Tenmanya, Tenman-ya Tenmanya
山陰房 さんいんぼう San'inbo, Saninbo San'inbō, Saninbō, San-inbō San'inboo, Saninboo, San̄in̄boo San'imbō, Sanimbō San'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imbo Saninbou San'inbô, Saninbô, San-inbô, San'imbô, Sanimbô, San-imbô
本間 ほんま Honma Honma Honma, Hon̄ma Homma Homma Honma
淳一郎 じゅんいちろう Jun'ichiro, Junichiro Jun'ichirō, Junichirō, Jun-ichirō Jun'ichiroo, Junichiroo, Jun̄ichiroo Jun'ichirō, Junichirō Jun'ichiroh, Junichiroh, Jun-ichiroh, Jun'ichiro, Junichiro, Jun-ichiro Junichirou Jun'ichirô, Junichirô, Jun-ichirô
山口 やまぐち Yamaguchi Yamaguchi Yamaguchi Yamaguchi Yamaguchi Yamaguchi
愛子 あいこ Aiko Aiko Aiko Aiko Aiko Aiko

5. 多過ぎるローマ字表記法

表3は、人名を標準、非標準の様々な表記法で示したものである。主要な3方式(ヘボン式、訓令式、日本式)については、表内の各列に正式な表記のみを記す。ヘボン式の異体等、上記3方式の異体がある場合は「各種異体」の列に、混合型表記は「混合式」の列に記す。ワープロ式は異体が数多くあるが、個別の列でなく「各種異体」の欄に示すものとする。

表2、3からわかる通り、異表記は次のような場合に起こり得る。

  1. 長母音の表記、特に /o:/ を ō、o、ô、ou、ohで表記する場合。
  2. 「ン」を /b/、/p/、/m/ の前で n の代わりに m で表記する場合。
  3. 「ン」が母音又は ヤ行音 の前にある時にアポストロフィーが省略される、又はハイフンで代用される場合。
  4. 「ジャ」 を ja、zya、jya と書くように、一部の子音の表記が複数通りある場合。

実際のところはそれぞれの表記法に何らかの異表記があり、人名を表記するのに複数の方式を混用することは珍しくない。例えば、Juniti という表記は改定ヘボン式の Jun(じゅん)と訓令式の iti(いち)を組み合わせたものである。ここではこのような組み合わせを混合型表記ということにする。


表3. 日本語のローマ字表記法
漢字 読み 英語式 ヘボン式 訓令式 日本式 各種異体 混合式 ドイツ語式 ラテン式
佐藤 さとう Sato Satō Satô Satô Satoo, Satou, Satoh


青塚 あおづか Aozuka Aozuka Aozuka Aoduka Aozuca Aoduca

愛子 あいこ Aiko Aiko Aiko Aiko Aico


生越 いくごし Ikugoshi Ikugoshi Ikugosi Ikugosi Icugosi Icugoshi Ikugoschi Ikugochi
大津 おおづ Ozu Ōzu Ôzu Ôdu Oozu, Ouzu, Ohzu, Oodu, Oudu, Ohdu, Odu Ōdu

井生 いおう Io Ioo, Iou, Ioh


伊大地 いおおじ Ioji Iōji Iôzi Iôzi Iōzi, Ioozi, Iouzi, Iohzi, Iozi, Iooji, Iouji, Iohji, Iôji


橋本 はしもと Hashimoto Hashimoto Hasimoto Hasimoto

Haschimoto Hachimoto
青柳塘 あおやぎとう Aoyagito Aoyagitō Aoyagitô Aoyagitô Aoyagitoo, Aoyagitou, Aoyagitoh
Aojagito
天満屋 てんまんや Tenman'ya Tenman'ya Tenman'ya Tenman'ya Temman'ya, Temmanya, Temman-ya, Tenmanya, Tenman-ya
Tenman'ja, Tenmanja, Tenman-ja
靑山 あおやま Aoyama Aoyama Aoyama Aoyama

Aojama
赤口 あかぐち Akaguchi Akaguchi Akaguti Akaguti Acaguci Akaguci, Acaguchi, Acaguti Akagutschi Akagutchi
山口 やまぐち Yamaguchi Yamaguchi Yamaguti Yamaguti Yamaguci
Jamagutschi Yamagutchi
裕子 ゆうこ Yuko Yūko Yûko Yûko Yûco, Yūco, Yuuco, Yuco, Yuuko
Juko
相越 あいこし Aikoshi Aikoshi Aikosi Aikosi Aicosi Aicoshi Aikoschi Aikochi
吉田 よしだ Yoshida Yoshida Yosida Yosida

Joschida Yochida
正月 しょうげつ Shogetsu Shōgetsu Syôgetu Syôgetu Syōgetu, Syoogetu, Syougetu, Syohgetu, Syogetu, Shoogetsu, Shougetsu, Shohgetsu, Shôgetsu Shōgetu, Shoogetu, Shougetu, Shohgetu, Shogetu, Shôgetu, Syôgetsu, Syōgetsu, Syoogetsu, Syougetsu, Syohgetsu, Syogetsu Schogetsu Chogetsu
山陰房 さんいんぼう San'inbo San'inbō San'inbô San'inbô Saninbô, San-inbô, Saninbō, San-inbō, San'inboo, Saninboo, San-inboo, San'inbou, Saninbou, San-inbou, San'inboh, Saninboh, San-inboh, Saninbo, San-inbo, San'imbō, Sanimbō, San-imbō, San'imboo, Sanimboo, San-imboo, San'imbou, Sanimbou, San-imbou, San'imboh, Sanimboh, San-imboh, San'imbo, Sanimbo, San-imbo, San'imbô, Sanimbô, San-imbô


四本松 しほんまつ Shihonmatsu Shihonmatsu Sihonmatu Sihonmatu Shihommatsu Shihonmatu, Shihommatu, Sihonmatsu, Sihommatsu, Sihommatu Schihonmatsu Chihonmatsu
佳子 よしこ Yoshiko Yoshiko Yosiko Yosiko Yosico Yoshico Joschiko Yochiko

6. 膨大な数の異表記

上述のように、日本人名の異表記が多数存在する背景には、アポストロフィーの有無、長母音や一部の子音の表し方等、様々な要因が絡み合っている。仮に複数の要因が単一の人名中に同時にある場合、同じ名前のローマ字表記の数は一気に膨れ上がることになる。たった一つの名前でも、多数ある表記の異体を組み合わせれば数百通りの表記が出来上がってしまうわけである。

例として小泉純一郎前総理大臣の名を挙げると、標準的な修正ヘボン式で Jun'ichirō Koizumi となるが、「純一郎」 のローマ字表記は下表のように169通りが考えられる。表4ではこの169通りの異表記を大まかにランク付けしてあり、このうち多くの表記は広く頻繁に使用されているものである。これら異表記が各表記法の規則や考え得る綴り字の組み合わせに則って生成されている一方、ある特定の場面やコーパスではほとんど、或いは全く見られない異表記が含まれているのも確かである。しかし、そのような異表記も別な場面やコーパスにおいて出現する可能性は十分にあり、人名異表記の認識に最大限役立てるべく、他の異表記と同様にデータベースに収録してある。


表4. 「純一郎」の異表記
LS_ID 種別
ローマ字表記 ランク
LS038 VARIANT Junichiro A
LS001 ENG Jun'ichiro A
LS039 VARIANT Jun-ichiro A
LS041 VARIANT Junichirô A
LS093 HYBRID Juniciro A
LS002 HEPBURN Jun'ichirō A
LS059 VARIANT Jun-ichirō A
LS033 VARIANT Junichirou B
LS032 VARIANT Jun'ichirou B
LS034 VARIANT Jun-ichirou B
LS058 VARIANT Junichirō B
LS147 HYBRID Jyunichiro B
LS069 HYBRID Junitirou B
LS075 HYBRID Junitiro C
LS055 VARIANT Zyun'itiro C
LS057 VARIANT Zyun-itiro C
LS030 VARIANT Junichiroo C
LS036 VARIANT Junichiroh C
LS141 HYBRID Jyunichirou C
LS035 VARIANT Jun'ichiroh C
LS037 VARIANT Jun-ichiroh C
LS046 VARIANT Zyun'itiroo C
LS048 VARIANT Zyun-itiroo C
LS146 HYBRID Jyun'ichiro C
LS148 HYBRID Jyun-ichiro C
LS144 HYBRID Jyunichiroh C
LS029 VARIANT Jun'ichiroo C
LS031 VARIANT Jun-ichiroo C
LS159 HYBRID Jyunitirou C
LS050 VARIANT Zyunitirou C
LS165 HYBRID Jyunitiro C
LS072 HYBRID Junitiroh C
LS047 VARIANT Zyunitiroo D
LS049 VARIANT Zyun'itirou D
LS051 VARIANT Zyun-itirou D
LS056 VARIANT Zyunitiro D
LS111 HYBRID Zyunichiro D
LS009 LATIN Junitchiro D
LS092 HYBRID Jun'iciro D
LS094 HYBRID Jun-iciro D
LS043 VARIANT Zyun'itirō D
LS045 VARIANT Zyun-itirō D
LS110 HYBRID Zyun'ichiro D
LS112 HYBRID Zyun-ichiro D
LS143 HYBRID Jyun'ichiroh D
LS145 HYBRID Jyun-ichiroh D
LS162 HYBRID Jyunitiroh D
LS104 HYBRID Zyun'ichirou D
LS105 HYBRID Zyunichirou D
LS106 HYBRID Zyun-ichirou D
LS140 HYBRID Jyun'ichirou D
LS142 HYBRID Jyun-ichirou D
LS053 VARIANT Zyunitiroh D
LS074 HYBRID Jun'itiro D
LS076 HYBRID Jun-itiro D
LS003 KUNREI Zyun'itirô E
LS004 NIPPON Zyun'itirô E
LS005 GERMANIC Jun'itschiro E
LS006 GERMANIC Junitschiro E
LS007 GERMANIC Jun-itschiro E
LS008 LATIN Jun'itchiro E
LS010 LATIN Jun-itchiro E
LS011 VARIANT Jyun'icirô E
LS012 VARIANT Jyunicirô E
LS013 VARIANT Jyun-icirô E
LS014 VARIANT Jyun'icirō E
LS015 VARIANT Jyunicirō E
LS016 VARIANT Jyun-icirō E
LS017 VARIANT Jyun'iciroo E
LS018 VARIANT Jyuniciroo E
LS019 VARIANT Jyun-iciroo E
LS020 VARIANT Jyun'icirou E
LS021 VARIANT Jyunicirou E
LS022 VARIANT Jyun-icirou E
LS023 VARIANT Jyun'iciroh E
LS024 VARIANT Jyuniciroh E
LS025 VARIANT Jyun-iciroh E
LS026 VARIANT Jyun'iciro E
LS027 VARIANT Jyuniciro E
LS028 VARIANT Jyun-iciro E
LS040 VARIANT Jun'ichirô E
LS042 VARIANT Jun-ichirô E
LS044 VARIANT Zyunitirō E
LS052 VARIANT Zyun'itiroh E
LS054 VARIANT Zyun-itiroh E
LS060 VARIANT Zyunitirô E
LS061 VARIANT Zyun-itirô E
LS062 HYBRID Jun'itirō E
LS063 HYBRID Junitirō E
LS064 HYBRID Jun-itirō E
LS065 HYBRID Jun'itiroo E
LS066 HYBRID Junitiroo E
LS067 HYBRID Jun-itiroo E
LS068 HYBRID Jun'itirou E
LS070 HYBRID Jun-itirou E
LS071 HYBRID Jun'itiroh E
LS073 HYBRID Jun-itiroh E
LS077 HYBRID Jun'itirô E
LS078 HYBRID Junitirô E
LS079 HYBRID Jun-itirô E
LS080 HYBRID Jun'icirō E
LS081 HYBRID Junicirō E
LS082 HYBRID Jun-icirō E
LS083 HYBRID Jun'iciroo E
LS084 HYBRID Juniciroo E
LS085 HYBRID Jun-iciroo E
LS086 HYBRID Jun'icirou E
LS087 HYBRID Junicirou E
LS088 HYBRID Jun-icirou E
LS089 HYBRID Jun'iciroh E
LS090 HYBRID Juniciroh E
LS091 HYBRID Jun-iciroh E
LS095 HYBRID Jun'icirô E
LS096 HYBRID Junicirô E
LS097 HYBRID Jun-icirô E
LS098 HYBRID Zyun'ichirō E
LS099 HYBRID Zyunichirō E
LS100 HYBRID Zyun-ichirō E
LS101 HYBRID Zyun'ichiroo E
LS102 HYBRID Zyunichiroo E
LS103 HYBRID Zyun-ichiroo E
LS107 HYBRID Zyun'ichiroh E
LS108 HYBRID Zyunichiroh E
LS109 HYBRID Zyun-ichiroh E
LS113 HYBRID Zyun'ichirô E
LS114 HYBRID Zyunichirô E
LS115 HYBRID Zyun-ichirô E
LS116 HYBRID Zyun'icirō E
LS117 HYBRID Zyunicirō E
LS118 HYBRID Zyun-icirō E
LS119 HYBRID Zyun'iciroo E
LS120 HYBRID Zyuniciroo E
LS121 HYBRID Zyun-iciroo E
LS122 HYBRID Zyun'icirou E
LS123 HYBRID Zyunicirou E
LS124 HYBRID Zyun-icirou E
LS125 HYBRID Zyun'iciroh E
LS126 HYBRID Zyuniciroh E
LS127 HYBRID Zyun-iciroh E
LS128 HYBRID Zyun'iciro E
LS129 HYBRID Zyuniciro E
LS130 HYBRID Zyun-iciro E
LS131 HYBRID Zyun'icirô E
LS132 HYBRID Zyunicirô E
LS133 HYBRID Zyun-icirô E
LS134 HYBRID Jyun'ichirō E
LS135 HYBRID Jyunichirō E
LS136 HYBRID Jyun-ichirō E
LS137 HYBRID Jyun'ichiroo E
LS138 HYBRID Jyunichiroo E
LS139 HYBRID Jyun-ichiroo E
LS149 HYBRID Jyun'ichirô E
LS150 HYBRID Jyunichirô E
LS151 HYBRID Jyun-ichirô E
LS152 HYBRID Jyun'itirō E
LS153 HYBRID Jyunitirō E
LS154 HYBRID Jyun-itirō E
LS155 HYBRID Jyun'itiroo E
LS156 HYBRID Jyunitiroo E
LS157 HYBRID Jyun-itiroo E
LS158 HYBRID Jyun'itirou E
LS160 HYBRID Jyun-itirou E
LS161 HYBRID Jyun'itiroh E
LS163 HYBRID Jyun-itiroh E
LS164 HYBRID Jyun'itiro E
LS166 HYBRID Jyun-itiro E
LS167 HYBRID Jyun'itirô E
LS168 HYBRID Jyunitirô E
LS169 HYBRID Jyun-itirô E