情報処理学会 試行標準 IPSJ-TS 0007:2003


符号化文字基本集合 - 日本コア漢字

Basic Subset of Coded Character Sets - Japanese Core Ideographs



序文

この学会試行標準(IPSJ-TS)は,社団法人情報処理学会 情報規格調査会の学会試行標準委員会作業グループ5(WG5)において2003年度までに行われた調査研究をもとに,特に重要と判断される技術情報をまとめ,学会試行標準(IPSJ-TS)として公表するものである。


1. 適用範囲

この学会試行標準は, 我が国の日常的な社会生活において, 効率的に漢字を使いこなすために必要な漢字集合を規定する。

この漢字集合は, 既に制定・公表されているJIS X 0208, IPSJ-TS 0005などに基づき, 新聞, 辞書などの使用漢字頻度調査を参考にして, 機能度を考慮して選定されている。


2. 引用規定

次に示す規格などは, この規定に引用されることによって, この規定の一部を構成する。これらの規格などは, その最新版を適用する。

IPSJ-TS 0005:2002 符号化文字基本集合, 2002-03

JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化文字集合, 1997-01


3. 定義

この学会試行標準(IPSJ-TS)は, IPSJ-TS 0005における定義を適用する。


4. 要素の選定

4.1 選定に用いた資料

漢字集合の要素の選定に用いた資料を次に示す。

[1] 朝日新聞1993年分記事使用漢字頻度調査 (横山・笹原・ほか編, 新聞メディアの漢字, 三省堂, 1998)
総字数 24,896,411, 異なり字数 4,488

[2] 大辞林 (第2版, 三省堂, 1995)
総字数 4,595,109, 異なり字数 5,534

[3] 毎日新聞2000年分記事使用漢字頻度調査 (学会試行標準委員会 WG5, 2003-03)
総字数 21,843,957, 異なり字数 4,426

[4] JIS X 0213, 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合, 2000-01

[5] 表外漢字字体表 (国語審議会, 2000-12)
印刷標準字体1,022字及び簡易慣用字体22字

[6] 大辞林における使用JIS外漢字リスト

4.2 選定

次に示す4.2.1の集合と4.2.2の集合との和集合に対して, 4.2.3の調整を施した4,593字を符号化文字基本集合 - 日本コア漢字とする。具体的な選定手続きについては, 解説3.1を参照されたい。

4.2.1 JIS X 0208の漢字の部分集合

JIS X 0208の漢字6,355字から採用した次の4,567字の集合。

 a) [1],[2],[3]のすべてに含まれる3,739字

 b) a)以外で, [1],[2],[3]の中の二つに共通する高頻度の670字

 c) a), b)以外で, [1][3]とに含まれる130字

 d) a), b), c)以外で, 人名及び地名の記述に必要な28字。

4.2.2 JIS X 0208の漢字ではない次の集合

JIS X 0208の漢字ではない次の28字。

 a) [6]に含まれる見出し字の15字

 b) [4]に含まれる, 人名及び地名の記述に必要な13字

4.2.3 字形の調整

4.2.1の集合と4.2.2の集合との和集合を構成する4,595字に対して, [5]を参照して次の字形の調整を施す。

 a) 5字形(解説表3.4参照)について, 他の字形で置換する。

 b) 2字形(解説表3.4参照)については, この和集合に含まれる別の字形で置き換える。つまり2字削減とする。


5. 文字の配列

漢字集合の要素は, 001から連番で康煕字典の順序に配列する。各要素は, [連番], UCS符号位置, 字形の三つ組みによって記述される。


6. 符号化文字基本集合 - 日本コア漢字

符号化文字基本集合 - 日本コア漢字を表6.1に示す。

表6.1 符号化文字基本集合 - 日本コア漢字の内容