この学会試行標準(IPSJ-TS)は,社団法人情報処理学会 情報規格調査会の学会試行標準委員会作業グループ5(WG5)において2003年度までに行われた調査研究をもとに,特に重要と判断される技術情報をまとめ,学会試行標準(IPSJ-TS)として公表するものである。
この学会試行標準は, 我が国の日常的な社会生活において, 効率的に漢字を使いこなすために必要な漢字集合を規定する。
この漢字集合は, 既に制定・公表されているJIS X 0208, IPSJ-TS 0005などに基づき, 新聞, 辞書などの使用漢字頻度調査を参考にして, 機能度を考慮して選定されている。
次に示す規格などは, この規定に引用されることによって, この規定の一部を構成する。これらの規格などは, その最新版を適用する。
IPSJ-TS 0005:2002 符号化文字基本集合, 2002-03
JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化文字集合, 1997-01
この学会試行標準(IPSJ-TS)は, IPSJ-TS 0005における定義を適用する。
漢字集合の要素の選定に用いた資料を次に示す。
次に示す4.2.1の集合と4.2.2の集合との和集合に対して, 4.2.3の調整を施した4,593字を符号化文字基本集合 - 日本コア漢字とする。具体的な選定手続きについては, 解説3.1を参照されたい。
JIS X 0208の漢字6,355字から採用した次の4,567字の集合。
a) [1],[2],[3]のすべてに含まれる3,739字
b) a)以外で, [1],[2],[3]の中の二つに共通する高頻度の670字
c) a), b)以外で, [1]と[3]とに含まれる130字
d) a), b), c)以外で, 人名及び地名の記述に必要な28字。
JIS X 0208の漢字ではない次の28字。
a) [6]に含まれる見出し字の15字
b) [4]に含まれる, 人名及び地名の記述に必要な13字
4.2.1の集合と4.2.2の集合との和集合を構成する4,595字に対して, [5]を参照して次の字形の調整を施す。
a) 5字形(解説表3.4参照)について, 他の字形で置換する。
b) 2字形(解説表3.4参照)については, この和集合に含まれる別の字形で置き換える。つまり2字削減とする。
漢字集合の要素は, 001から連番で康煕字典の順序に配列する。各要素は, [連番], UCS符号位置, 字形の三つ組みによって記述される。
符号化文字基本集合 - 日本コア漢字を表6.1に示す。