CJK Dictionary Publishing Society (CDPS)

UCSUMARY.TXT Revised: April 21, 1996

THE WORLD'S FIRST UNICODE CHARACTER DICTIONARY


世界初のユニコード字典

by Jack Halpern, Editor in Chief


SORRY: I know this is hard to read. Give me a little time till I fix it.
Martin Dürst, Editorial Adviser CJK Dictionary Publishing Society (CDPS) 日中韓字典刊行会
Though the Asian countries that use Han characters share a common script, they do not share a common encoding standard, nor do they have a dictionary for that standard. The publication of the Dictionary of Unified CJK Characters, the world's first character dictionary based on Unicode, marks a significant event in the history of character dictionary lexicography, and promises to serve as an effective means to promote a universal character set standard in the 21st century.

1. Why Unicode?
Eight countries in East Asia use Han characters in their national scripts. The standards for encoding these characters were originally created locally, resulting in incompatible character sets implemented on incompatible platforms. This has been a source of frustration and technical barriers in the free interchange of information in East Asia.
These diverse character sets were unified in a scheme known as Han Unification in line with the general principles of a unified encoding standard known as Unicode/ISO 10646. While on the one hand this standard unifies the diverse glyph forms, at the same time it strictly maintains the distinctions found in the original national standards by assigning separate codepoints to each character in the original Chinese, Taiwanese, Japanese and Korean standards.
Unicode is the wave of the future. The Han character portion of Unicode, with a total of 20,902 characters, was published as Unicode Version 1.1 in 1992. Thereafter it was merged with the international standard known as ISO 10646, which was officially promulgated in May 1993. Japan and China have already adopted Unicode as their national standards, known as JIS X 0221 and GB 13000 respectively, while Korea and Taiwan will soon follow suit.
Interest in Unicode/ISO 10646 is increasing around the world, since it promises to serve as a universal character set and encoding scheme that will standardize and streamline the interchange and processing of multilingual information. Numerous Unicode-compliant applications are already available, and many more are under development.

2. The CJK Dictionary Publishing Society (CDPS)
The CJK Dictionary Publishing Society (CDPS) (日中韓字典刊行会) was established in September 1995. The aim of the society is to promote research on and the implementation of Unicode and to help educate the public about its benefits. We are a private group, not dominated by industry or government, but are in contact with the government agencies concerned with Unicode matters. Our members include representatives from font vendors and publishers as well kanji researchers and Unicode authorities such as Dr. Ken Lunde and Dr. Martin D・st.

3. The World's First Unicode Dictionary
Line Labo Co., Ltd., a Tokyo-based company specializing in Windows DTP, has taken the initiative to produce the world's first Unicode dictionary, which will be published by Toho Book Publishing Co., Ltd. (株式会社東方書店).
The dictionary is designed to promote the general understanding and use of Unicode and to become an invaluable resource for both programmers and general users. Scheduled for publication in 1996, this dictionary is much more than an extension of a national character standard dictionary.
Toshiaki Maeda of Line Labo is the coordinator and production manager for the project. Jack Halpern, Editor in Chief of the Kanji Dictionary Publishing Society, is the chief editor. We are fortunate to have Dr. Ken Lunde as our Editorial Consultant, and an international team of advisers consisting of world-renowned authorities on Unicode and CJK information processing.
The work of design and editing, including data collection and cross-checking, was greatly facilitated by the use of the Internet. The Internet served both as a source of data and as a medium of communication.

4. Vital Statistics Title English: DICTIONARY OF UNIFIED CJK CHARACTERS (provisional) -- for the Unicode TM Standard -- Japanese: 日中韓統合漢字字典 --Unicode TM 規格対応-- (仮称) Publisher: Toho Book Publishing Co., Ltd. (株式会社東方書店) Chief Editor: JACK HALPERN, Research Fellow, Showa Women's University   (Japan/Israel)   Editor in Chief of Kanji Integrated Tools Project   Kanji Dictionary Publishing Society Editorial: Dr. KEN LUNDE, Project Manager, CJK Type Development   Consultant Adobe Systems Incorporated (USA) Advisers: Dr.sc. MARTIN DワRST, Senior Research Associate   Department of Computer Science, University of Zurich   (Switzerland) CHRISTIAN WITTERN M.A. Ph.D. candidate   East Asian Department, Göttingen University (Germany)   Consultant, International Research Institute for Zen Buddhism,   Hanazono University, Kyoto Prof. JAMES BREEN, Head, Department of Digital Systems   Monash University (Australia) Asst. Prof. KOICHI YASUOKA, Kyoto University Data Processing   Center (Japan) Dr. A. CHARLES MULLER, Assistant Professor of East Asian   Philosophy and Religion, Toyo Gakuen University (Japan) Producer: TOSHIAKI MAEDA, Planning and Production   Line Labo Co., Ltd., Tokyo Book Designer: HITOSHI SUZUKI Target Users: Computer users, government and administrative agencies,   universities, software developer's, etc., especially in Japan Specifications: Approx. 1000 pages. Double-column pages with 32 entries per   column. Page size: A5 (21cm high by 14.8 cm wide)

5. Overview
This dictionary brings together in a convenient handbook format the major national and corporate character set codes of the CJK characters defined by ISO/IEC 10646. Each character is given mappings to the principal national and regional standards as well as references to the Morohashi and Kangxi dictionaries, readings in Japanese, Mandarin, and Korean, and variant information.
It also include an extensive introduction to character encoding as well as various appendices and indices for readings and codes of national standards.

6. Front Matter
The front matter includes an in-depth introduction to Unicode and a full description of the dictionary's features. Han Unification, which is crucial for understanding the CJK part of Unicode, is discussed in detail, and the data sources and compilation through an international collaborative effort are documented. The preface is in Japanese, English, traditional and simplified Chinese, and Korean. Everything else is in Japanese and English.

7. Main Part 7.1 Main Entry
The main part of the dictionary list all the 20,902 Unicode Han characters with detailed information for each character. The entries are arranged by their traditional radicals, as they are in the Unicode standard. To facilitate rapid lookup, the outer page margins contain radical guides.
Once a character is found, either by codepoint, by form, or via an appendix, the reader obtains the following information:
- The Unicode code value
- The radical and the stroke count of the non-radical element
- A large glyph image of the character
- Mappings to the principal national and regional standards
- Location of the character in the Morohashi and Kangxi dictionaries
- Readings for Japanese (on and kun,) Chinese (Mandarin), and Korean
- A cross reference to variant forms (allographs)
Since Japan is the primary target of the first edition, the mappings to the Japanese standards are given in the following four forms: Kuten, JIS, Shift-JIS and EUC. Various classification symbols identify subsets such as Joッyoッ Kanji, Jinmeiyoッ Kanji, and others.

7.2 Font Selection
Finding a reasonable solution for selecting glyphs based on our priorities was particularly difficult. A basic requirement for this edition, whose primary target is Japan, was to use a Japanese glyph variant where applicable. In order of priority, the T (Taiwan), K (Korean), and G (China) columns of ISO 10646 were considered next, because T or K are frequently close to the glyph shape historically used in Japan. Several font vendors were contacted with these specifications; Dynalab, Inc. (Taiwan/Japan), was selected because they were able to adjust to our specifications and provide a complete font of acceptable quality.

7.3 Variant Information
The variant information for each character lists related character variants, with both a representative glyph and the code. For the understanding of the history, meaning, and use of Han characters, as well as the general rules of Han Unification and their consequences for each character, this variant information is extremely useful.

8. Appendices and Indices
Immediately following the main part, the Han character part of the compatibility section is documented. Most appendices are indices to the main part that refer to a Unicode codepoint from a national or regional standard code or from readings. One appendix is provided for locating the Unicode codepoint from each of:
- Japanese row/column, JIS, SJIS, and Japanese EUC codes
- Chinese GB codes, Taiwanese Big Five and CNS codes, Korean KS codes
- Japanese, Chinese, and Korean readings

9. Data Sources
The data originates from both public and private sources: data provided by the members of the editorial committee as well as data obtained from other sources. For all types of data, as many sources as possible were used, and extensive cross-checking was applied to ensure accuracy and integrity.
The editorial committee collaborated very closely both in designing the features and the layout of the dictionary and on collecting and cross-checking the data. Below is a description of the main data sources and technical expertise of the principal contributors.

Jack Halpern:
Reading data for frequent Japanese characters and some Chinese reading and variant data, from his well-known New-Japanese English Character Dictionary (Kenkyusha/NTC); extensive experience in dictionary compilation and publication.

Jim Breen:
Reading data, especially Japanese, for the Japanese character standards from his publicly available data collection. Editing and validation of Morohashi index numbers.

Ken Lunde:
Glyph variant data and Korean compatibility zone data from his book and his on-line documentation on East Asian character standards, experience with CJK character standards and font packaging and printing.

A. Charles Muller:
Contribution and editing of Korean readings based on his private data; advice on Korean.

Christian Wittern:
Chinese reading and conversion data from his publicly available Unicode Han-character properties database; software development for SGML-based coding of large texts.

Koichi Yasuoka:
Extraordinary collection of variant data; mapping and Chinese reading data and dictionary numbers.

Martin J. D・st:
Production of Korean readings from the structure of the Korean standards, programming experience with Unicode, knowledge of kanji and font design.


In addition to the contributions by the members of the editorial committee, various other sources were used, especially:
Unicode, Inc.: Conversion tables to national/regional standards.
Taligent, Inc.: Readings in all necessary languages used mainly for cross-checking.
Anonymous (but perfectly legal) data source: Kangxi numbers.

================================================================= 世界初のユニコード字典 THE WORLD'S FIRST UNICODE CHARACTER DICTIONARY 1996年4月11日

文責 編 集 長 春遍雀來(ハルペン・ジャック)
  編集顧問 テュールスト・マーチン・ヤコブ

日中韓字典刊行会(CDPS) CJK Dictionary Publishing Society

 アジアの人びとにとって漢字は、共通の文字体系としては存在していたが、標準化された文字コード規格とその字典はなかった。『日中韓統合漢字字典』は、世界初のユニコード漢字字典であり、漢字字典の編纂の歴史に重要な里程標を記す画期的な出来事であり、21世紀へ向けた普遍的な文字セットの普及を大いに促すものである。

1. なぜユニコードか 漢字は漢字文化圏の8か国で文字として使用されている。漢字の符号化の規格は各国で別々に制定された結果、異なったプラットフォームと互換性のない文字セットを生んだのである。これは漢字文化圏での自由な情報交換にとって障壁となり不満のもととなっている。 この多様な漢字文字は、一意の符号化というユニコード/ISO 10646の基本原理にもとづいて実字形の相違は検討のうえ統合すると共に、各国の元の規格で区別されていた文字は統合しないという原則によって符号がふられた。こうして、C(中国、台湾)、J(日本)、K(韓国)統合漢字が整理されたのである。 ユニコードは未来の波である。ユニコードの漢字部分は合計で20,902字からなり、1992年にVer.1.1が発表され、その後 ISO 10646 の開発と合流し、1993年5月には ISO 10646-1として制定された。この国際規格は日本ではJIS X 0221として、中国ではGB 13000としてそれぞれ国内規格に採用され、韓国と台湾でも間もなく採用される予定である。 ユニコード/ISO 10646への関心は世界中で高まっている。というのは、ユニコードは普遍的な文字セット・符号化方式としての役割を果たすことが約束されており、その結果、多言語処理における標準化や簡素化が推し進められるからである。ユニコードに対応した多くのアプリケーション・ソフトが既に利用可能であり、更に多くのソフトが現在開発中である。

2. 日中韓字典刊行会 (CDPS)  日中韓字典刊行会 (CDPS) は1995年9月に設立された。本会の目的はユニコードの研究と実装を推進し、その使用からもたらされる利益を広く一般に広めることである。  本会は民間の任意団体であり企業や政府の管理下にある団体ではない。しかし、ユニコードに関係する政府団体とは連携している。本会の構成員には代表的フォント・メーカーや出版社を代表する者や漢字研究者、ユニコードの権威者が含まれている。その中には小林劍博士 (Dr. Ken Lunde) とテュールスト・マーチン・ヤコブ博士 (Dr. Martin J. D・st) がいる。

3. 世界初のユニコード字典  ライン・ラボは、東京に本社を置くウインドウズDTPを専門分野とする企業であり、今回、世界初のユニコード字典を作り出すための主導的役割を果たした。出版は東方書店より行われる。  字典の対象は、専門のプログラマーと一般の読者の両方を想定しており、そのどちらにとってもユニコードの一般的理解とその利用を助ける必携の字典となる。出版は1996年中に行われ、内容的には、本字典は単なる国家文字規格コードブックの拡張を遥かに超えるものである。  本事業の企画・制作はライン・ラボの前田年昭が担当した。本字典の編集長は漢英字典刊行会の編集長・春遍雀來である。幸いにも本会の編集顧問として小林劍博士 (Dr. Ken Lunde) を迎えることができた。またユニコードと漢字データ処理の上に世界の著名な権威者から成り立っている国際的な顧問チームを持ったことは幸運であった。  データ収集を含めて字典の設計と校訂の作業は、インターネットの活用により大いに助けられた。インターネットはデータの出典として、また情報交換と討議の道具として大いに役立った。

4. 統計資料 英語書名: DICTIONARY OF UNIFIED CJK CHARACTERS (provisional) - for the Unicode(tm) Standard - 日本語書名: 日中韓統合漢字字典 -Unicode(tm)規格対応- (仮称) 出版社: 株式会社東方書店 編集長: 春遍雀來 (Jack Halpern)  漢英字典刊行会発展教材編集長、昭和女子大学研究員  (日本・イスラエル) 編集顧問: 小林劍 言語学博士 (Ken Lunde)  CJK フォント開発プロジェクト・マネージャー  アドビ・システムズ・インコーポレーテッド(米国) 顧問: テュールスト・マーチン・ヤコブ 理学博士 (東大) (Martin J. D・st)  チューリッヒ大学情報科学科 主任助手 (スイス) クリスティアン・ウィッテアン 博士課程 (Christian Wittern)  ゲッティンゲン大学文学部 東洋学科 (ドイツ)  花園大学国際禪學研究所顧問 ジム・ブリーン 教授 (James Breen)  デジタル・システムズ学部部長モナシュ大学 (豪州) 安岡孝一 (助手) (YASUOKA Koichi)  京都大学大型計算機センター研究開発部助手 (日本) A.チャールズ・ミュラー 文学博士 (A. Charles Muller)  東洋学園大学助教授 東洋哲学 (日本) 企画・制作: 前田年昭 (MAEDA Toshiaki) 有限会社ライン・ラボ デザイン: 鈴木一誌 (SUZUKI Hitoshi) 対象読者: 特に日本国内を対象とし、コンピュータ・ユーザ、政府・行政機関、 大学、ソフトウエア開発者ほか 体裁: 約1000ページ、二段組、各ページに32の見出し字 版型: A5(高さ21cm、幅14.8cm)

5. 概観  本字典は簡便なハンドブック型式で、ISO/IEC 10646で定義された統合漢字の主要国家・企業文字セットコードを網羅している。各文字は各国の主な規格 (JIS、GB、CNS/Big5、KS) と関連付けられ、諸橋大漢和辞典や康煕字典の参照番号、日本語、現代中国語と韓国語の読みや異体字情報が含まれている。  また読みやそれぞれの規格の文字コードからの逆引き索引に加え、文字符号化に関する詳細な紹介が含まれている。

6. 前付け  前付けにはユニコード規格の紹介とこの字典の特徴についての詳しい説明が載せられている。漢字統合はユニコードの統合漢字部分を理解するために非常に重要であり、詳細に解説されている。また各資料の出典や国際協力を通しての編纂についても記述されている。序文は日本語、英語、中国語(繁体字、簡体字)そして韓国語で書かれている。その他の部分は日本語と英語で書かれている。

7. 本文 7.1主な見出し項目  字典の本体はユニコード漢字20,902全てを網羅し、各字には詳細情報が掲げられている。ユニコード規格と同様に見出し字は従来の部首順に配列されている。また素早く検索できるように欄外には部首情報が配列されている。  検索符号位置、字形又は索引により見出しを検索すると、各見出し字の項目には次の情報が列挙されている。 * ユニコードの番号 * 部首と部首部外の画数 * 大きな見出し字 * 現存の国家・地域規格の対応コード * 諸橋大漢和辞典と康煕字典での参照番号 * 日本語の音訓、標準中国語の読み、韓国語の読み * 異体字の相互参照情報  今回の版では日本を主要な対象としたため、日本のコードは次の4つの形態で掲載されている。区点、JIS、シフトJISとEUC。各種の記号により常用漢字、人名漢字などの部分集合が判別できる。

7.2フォントの選択  この版においては、日本の読者が主な対象となるため、以下のような私たちの基準を満たす字形を探すことは困難な作業であった。日本語版に要求される基本的な条件は、まず日本の規格にその字がある場合は日本の字形を採用することである。漢字が日本の規格にない場合は、ISO 10646のT(台湾)、K(韓国)とG(中国)順に字形を採用した。というのはTまたはKは、しばしば日本で歴史的に使われた字形に近いからである。このような仕様を提案しフォントメーカーの数社に接触した結果、ダイナラブ社(台湾・日本)のものを採用した。それはこの仕様に従ったフォントの改造と全ての字形に対して品質の高いフォントの供給が可能であったからである。

7.3異体字情報  各字に対して異体字がその字形とコードと共に列挙されている。それは漢字の歴史的変遷、字義及び用法、また漢字統合の一般原則と各字間の影響を理解するためには、異体字が極めて価値ある有効な手段だからである。

8. 付録と索引  本文の直後に互換漢字の領域を付けた。付録の大部分は国家・地域規格や読みからのユニコード符号位置の照合である。付録からユニコード符号位置は次の情報により検索可能である。 * 日本語の区点、JIS、シフトJIS及びEUCコード * 中国のGBコード、台湾の Big5コードとCNSコード、韓国のKSコード * 日本語・中国語・韓国語の読み

9. データの出典  データの出典は公表されたものと個人的なものがあり、編集委員会の会員から提供されたものとその他より提供あるいは入手したものがある。あらゆる種類のデータが多くの出典から集められた。集められたデータに対してはデータの正確さを増すため広範囲の相互比較と検証が行われた。  編集の委員は字典の設計やレイアウトについて、またデータの収集と相互比較のため注意深く共同作業を行った。共同作業のなかで各人が提供した主なデータ及び主な専門的な技術、経験は次のとおりである。

春遍雀來 (Jack Halpern) :  日本語で使用頻度が高い字に対する読み情報と一部の中国語の読み情報及び異体字情報。よく知られている漢字字典と字典編纂と出版の分野での膨大な経験。

ジム・ブリーン (Jim Breen) :  自ら作成し、公開しているデータを使用しての日本語文字規格の分析。特に日本語の読み情報。康煕辞典番号の整理・提供。

小林 劍 (Ken Lunde) :  字形情報と韓国の互換領域情報を著書と漢字文化圏文字規格に関する電子文書から使用。また日中漢文字規格、フォントの合成及び印刷に対する豊富な経験。

A.チャールズ・ミュラー (Charles Muller) :  私的データに基づいた韓国語の読み情報の編集と提供。韓国語上の助言。

クリスティアン・ウィッテアン (Christian Wittern) :  中国語の読み情報と公表されたユニコード漢字属性データベースを使用してのデータ変換作業とその提供。大量テキストの SGML化のためのソフトウェア開発。

安岡孝一 (Koichi Yasuoka) :  膨大な異体字情報、コード対応、中国語読み及び字典参照番号。

テュールスト・マーチン・ヤコブ (Martin J. D・st)  韓国規格からの韓国語読み情報の作成。ユニコードプログラムの作成経験及び漢字とフォントの設計に関する専門知識。

 編集委員会の委員の貢献に加えて主に次に示した出典のデータが使用された。

 UNICODE Inc. : 国家/地域規格との対応表。  Taligent Inc. : 掲載された全ての言語の読み情報が主に相互比較のために用いられた。  匿名のデータ(ただし完全に合法的なもの) : 康煕字典番号 =================================================================