情報処理学会 試行標準 IPSJ-TS 0008:2007


大規模漢字集合の異体字構造

The Variant Structure in the Large Kanji Characters Set



序文

この学会試行標準(IPSJ-TS)は,漢字を扱う研究機関及び教育機関における異体字を考慮した情報処理を可能にすることを目的として,ISO/IEC 10646:2003国際符号化文字集合に収録される漢字集合に含まれる多くの異体字関係を,その種類及び特徴に応じて構造的に表現するための新たな調査研究を行い,定めたものである。


1. 適用範囲

この学会試行標準は,学会試行標準として発表された符号化文字基本集合(IPSJ-TS 0005:2002)及び符号化文字基本集合 - 日本コア漢字(IPSJ-TS 0007:2004)を中心に,ISO/IEC 10646などの大規模な文字集合における異体字を関係付けるために,異体字の対応関係を整理して個々に関係テーブルを作成し,それに基づいて異体字関係を構造化する。“代表字”,“異体字(常用,非常用)”の概念を明確化し,さらに大きな符号化文字集合の取り扱いに応用可能にするために枠組みを作成する。


2. 引用規定

次に示す規格は,この学会試行標準に引用されることによって,この規定の一部を構成する。

ISO/IEC 10646:2003 Information technology - Universal Multiple-Octet Coded Character Set (UCS)

備考 JIS X 0221 (現在改正策定中)が,この国際規格に対応している。

備考 この学会試行標準におけるISO/IEC 10646:2003という記述は,ISO/IEC 10646:2003/Amd.1:2005及びISO/IEC 10646:2003/Amd.2:2006を含む。


3. 定義

3.1 異体字 (Kanji variants)

ある漢字に対して関係をもつ,異なる符号位置をもつ漢字を異体字と呼ぶ。関係には次の3種類がある。

3.2 異体字関係 (relation among Kanji variants)

異体字の種類を示す。ある漢字とある漢字が,複数の異なる異体字関係をもつこともある。

3.3 通仮字 (replaced character with the same pronounciation)

古典文献において同音別義である漢字の音を借りて表記した文字。

3.4 代表字 (representative character),別字形 (alternative character shape)

ある言語環境で,標準的に使われるものを代表字と呼び,その他のものを別字形と呼ぶ。この関係は,固定的なものではなく,ある国,地域で代表字であるものが,他の国,地域では別字形として扱われることも多い。

3.5 見出し字 (entry character)

表において,一番左に配置される漢字。表ではすべての符号位置を見出し字とし,符号順に配列することによって,調べたい漢字の符号位置から目的の情報を得ることができる。


4. 異体字関係の選定

異体字関係の選定は,次の手順による。

4.1 対象となる漢字符号位置

ISO/IEC 10646:2003におけるCJK統合漢字ブロック(CJK Unified Ideographs)のすべての符号位置,及びCJK互換漢字ブロックの中で日本国内の規格との対応関係をもつ符号位置の集合を対象とする。具体的な符号位置を表4.1に示す。CJK統合漢字に含まれる“漢文用記号(KANBUN)”ブロックについては対象としない。

表4.1 対象となる符号位置集合
開始UCS符号位置終了UCS符号位置符号数ブロック名称
U+4E00U+9FA520902CJK Unified Ideographs
U+3400 U+4DB5 6582 CJK Unified Ideographs Extension A
U+20000 U+2A6D6 42711 CJK Unified Ideographs Extension B
U+F900 U+FA0B 9 CJK Compatibility Ideographs※1
U+FA0E U+FA2D 32 CJK Compatibility Ideographs※2
U+FA30 U+FA6A 59 CJK Compatibility Ideographs

※1 この領域は基本的にKS C 5601-1987との互換のための符号であるが,その内JIS X 0213:2004においてISO/IEC 10646:2003との対応関係が規定されている9符号位置を対象とする。

※2 内12符号位置は,実際にはCJK Unified Ideographs-2001として規定されている。

4.2 異体字関係の選定に用いた資料

異体字関係の選定に用いた16種類の資料を表4.2に示す。

表4.2 異体字関係選定資料
番号資料名
[1]JIS X 0208:1997及びJIS漢字字典(日本規格協会, 1997年)
[2]JIS X 0212:1995
[3]JIS X 0213:2004
[4]ISO/IEC 10646:2003
[5]常用漢字表(1986年)
[6]第32回国語審議会総会報告(1956年)
[7]戸籍法施行規則別表第二の一(2004年)
[8]法務省令商業登記規則(1964年)
[9]第一批異体字整理表(1997年)
[10]漢語新辞典(大修館書店, 2001年)
[11]漢辞海(三省堂, 2006年)
[12]新字源(角川書店, 1987年)
[13]ユニコード漢字情報辞典(三省堂, 2000年)
[14]漢語大字典(四川辞書出版社・湖北辞書出版社, 1986年)
[15]Adobe社Adobe-GB1-4文字集合準拠フォント内GSUBテーブル情報
[16]Unicodeコンソーシアムunihan.txt

4.3 異体字関係の選定

表4.2の資料をもとに,14種類の異体字関係を選定した(表4.3)。

表4.3 異体字関係一覧
番号名称参考資料(表4.2における番号)
[1]JIS X 0208規格 1983年改正に伴う新旧字1
[2]JIS国内規格 参照異体字1, 2, 3
[3]ISO/IEC 10646-1原規格分離漢字4
[4]CJK互換漢字 韓国KS互換4
[5]CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換4
[6]常用漢字新旧字5
[7]同音書き換え6
[8]人名用漢字同一字種7
[9]漢数字と大字8, 10, 11, 12
[10]第一批異体字整理表9
[11]漢語大字典異体字表10
[12]漢語大字典通仮字表10
[13]中国簡体字と繁体字13, 15, 16
[14]日本と中国の常用字における異なり字形13


5. 異体字関係表の作成

異体字関係表は,関係表A及び関係表Bの2種類を作成した。

5.1 関係表A

ある漢字符号位置に対して異体字関係をもつ複数の異体字符号位置の集合が存在するときに,それぞれの漢字符号位置がどのような関係であるかを区別するために,14種類の異体字関係を6グループに分類し(表5.1),それぞれのグループにおける異体字関係を関係表として作成した。

表5.1 異体字グループ
グループ名称(短縮表記)含まれる異体字関係(表4.3の番号)
日本異体字(日本)1, 2, 6, 8
中国異体字(中国)10, 13
日中字形差(日中)14
文字コード由来(文字コード) 3, 4, 5
同音異義字(音通用)7, 12
その他9, 11

5.2 関係表B

ある漢字符号位置に対して異体字関係をもつ漢字符号位置をその異体字関係名称とともに列挙した。

5.3 異体字関係の連鎖

ある漢字符号位置についての異体字集合を導く際,異体字関係をもつ符号位置がさらに別の符号位置と異体字関係をもつ場合は,連鎖的に関係するすべての符号位置をその集合とした(異体字関係の連鎖)。ただし,同音異義による特殊な異体字関係(関係7, 12),漢語大字典異体字表だけに掲載される異体字関係,及び漢数字と大字との異体字関係については,集合が大きくなりすぎるため,連鎖の対象としなかった。

5.4 特別な異体字

異体字関係のうち,関係7, 9, 12については用途が限定される特殊な異体字であるため,見出し字に対しての異体字のみを異体字集合に含めるものとした。

5.5 ISO/IEC 10646:2003における5欄表記の字形選択

異体字関係選定資料の字形とISO/IEC 10646:2003の符号位置とを同定する際,各資料の作成国・地域を元に5欄表記の中から字形を選択した。例えば日本の資料であれば,J欄の字形を同定の対象とした。


6. 文字の配列

6.1 見出し字と異体字

各関係表は,ISO/IEC 10646:2003のCJK統合漢字全20,902符号位置を見出し字として配列し,異体字をその右に列挙している。

6.2 同符号位置内に存在する複数の字形

各関係表見出し字の欄には,ISO/IEC 10646:2003の各符号位置のCTJKVによる5欄表記において,字形の差異が大きいものについては,それらをすべて併記した。差異の判断にはIPSJ-TS 0005:2002において区別されているかに拠った。

6.3 関係表に使用したフォント

関係表の作成は,Microsoft Windows Vistaに標準で付属するフォントを使用した(表6.1)。これらのフォントの使用優先順位を次に示す。

表6.1 関係表に使用したフォント
名称備考
MS明朝日本用  
SimSun及びSimSun-ExtB中国用
MingLiU及びMingLiU-ExtB  台湾用
Batang韓国用


7. 関係表凡例

7.1 関係表A

表7.1 関係表A

7.2 関係表B

表7.2 関係表B
 


8. 異体字関係表

異体字関係表の内容一覧(関係表A及び関係表B)を,それぞれ表8.1及び表8.2に示す。

備考 HTMLファイルについては,CSSの処理の都合上,Windows VistaにインストールしたMozilla Firefoxブラウザが必要である。

表8.1 関係表A
見出し字関係表A(PDF)関係表A(HTML)
4E00〜4EFF表8.1.1(P)表8.1.1(H)
4F00〜4FFF表8.1.2(P)表8.1.2(H)
5000〜50FF表8.1.3(P)表8.1.3(H)
5100〜51FF表8.1.4(P)表8.1.4(H)
5200〜52FF表8.1.5(P)表8.1.5(H)
5300〜53FF表8.1.6(P)表8.1.6(H)
5400〜54FF表8.1.7(P)表8.1.7(H)
5500〜55FF表8.1.8(P)表8.1.8(H)
5600〜56FF表8.1.9(P)表8.1.9(H)
5700〜57FF表8.1.10(P)表8.1.10(H)
5800〜58FF表8.1.11(P)表8.1.11(H)
5900〜59FF表8.1.12(P)表8.1.12(H)
5A00〜5AFF表8.1.13(P)表8.1.13(H)
5B00〜5BFF表8.1.14(P)表8.1.14(H)
5C00〜5CFF表8.1.15(P)表8.1.15(H)
5D00〜5DFF表8.1.16(P)表8.1.16(H)
5E00〜5EFF表8.1.17(P)表8.1.17(H)
5F00〜5FFF表8.1.18(P)表8.1.18(H)
6000〜60FF表8.1.19(P)表8.1.19(H)
6100〜61FF表8.1.20(P)表8.1.20(H)
6200〜62FF表8.1.21(P)表8.1.21(H)
6300〜63FF表8.1.22(P)表8.1.22(H)
6400〜64FF表8.1.23(P)表8.1.23(H)
6500〜65FF表8.1.24(P)表8.1.24(H)
6600〜66FF表8.1.25(P)表8.1.25(H)
6700〜67FF表8.1.26(P)表8.1.26(H)
6800〜68FF表8.1.27(P)表8.1.27(H)
6900〜69FF表8.1.28(P)表8.1.28(H)
6A00〜6AFF表8.1.29(P)表8.1.29(H)
6B00〜6BFF表8.1.30(P)表8.1.30(H)
6C00〜6CFF表8.1.31(P)表8.1.31(H)
6D00〜6DFF表8.1.32(P)表8.1.32(H)
6E00〜6EFF表8.1.33(P)表8.1.33(H)
6F00〜6FFF表8.1.34(P)表8.1.34(H)
7000〜70FF表8.1.35(P)表8.1.35(H)
7100〜71FF表8.1.36(P)表8.1.36(H)
7200〜72FF表8.1.37(P)表8.1.37(H)
7300〜73FF表8.1.38(P)表8.1.38(H)
7400〜74FF表8.1.39(P)表8.1.39(H)
7500〜75FF表8.1.40(P)表8.1.40(H)
7600〜76FF表8.1.41(P)表8.1.41(H)
7700〜77FF表8.1.42(P)表8.1.42(H)
7800〜78FF表8.1.43(P)表8.1.43(H)
7900〜79FF表8.1.44(P)表8.1.44(H)
7A00〜7AFF表8.1.45(P)表8.1.45(H)
7B00〜7BFF表8.1.46(P)表8.1.46(H)
7C00〜7CFF表8.1.47(P)表8.1.47(H)
7D00〜7DFF表8.1.48(P)表8.1.48(H)
7E00〜7EFF表8.1.49(P)表8.1.49(H)
7F00〜7FFF表8.1.50(P)表8.1.50(H)
8000〜80FF表8.1.51(P)表8.1.51(H)
8100〜81FF表8.1.52(P)表8.1.52(H)
8200〜82FF表8.1.53(P)表8.1.53(H)
8300〜83FF表8.1.54(P)表8.1.54(H)
8400〜84FF表8.1.55(P)表8.1.55(H)
8500〜85FF表8.1.56(P)表8.1.56(H)
8600〜86FF表8.1.57(P)表8.1.57(H)
8700〜87FF表8.1.58(P)表8.1.58(H)
8800〜88FF表8.1.59(P)表8.1.59(H)
8900〜89FF表8.1.60(P)表8.1.60(H)
8A00〜8AFF表8.1.61(P)表8.1.61(H)
8B00〜8BFF表8.1.62(P)表8.1.62(H)
8C00〜8CFF表8.1.63(P)表8.1.63(H)
8D00〜8DFF表8.1.64(P)表8.1.64(H)
8E00〜8EFF表8.1.65(P)表8.1.65(H)
8F00〜8FFF表8.1.66(P)表8.1.66(H)
9000〜90FF表8.1.67(P)表8.1.67(H)
9100〜91FF表8.1.68(P)表8.1.68(H)
9200〜92FF表8.1.69(P)表8.1.69(H)
9300〜93FF表8.1.70(P)表8.1.70(H)
9400〜94FF表8.1.71(P)表8.1.71(H)
9500〜95FF表8.1.72(P)表8.1.72(H)
9600〜96FF表8.1.73(P)表8.1.73(H)
9700〜97FF表8.1.74(P)表8.1.74(H)
9800〜98FF表8.1.75(P)表8.1.75(H)
9900〜99FF表8.1.76(P)表8.1.76(H)
9A00〜9AFF表8.1.77(P)表8.1.77(H)
9B00〜9BFF表8.1.78(P)表8.1.78(H)
9C00〜9CFF表8.1.79(P)表8.1.79(H)
9D00〜9DFF表8.1.80(P)表8.1.80(H)
9E00〜9EFF表8.1.81(P)表8.1.81(H)
9F00〜9FA5表8.1.82(P)表8.1.82(H)

表8.2 関係表B
見出し字関係表B(PDF)関係表B(HTML)
4E00〜4EFF表8.2.1(P)表8.2.1(H)
4F00〜4FFF表8.2.2(P)表8.2.2(H)
5000〜50FF表8.2.3(P)表8.2.3(H)
5100〜51FF表8.2.4(P)表8.2.4(H)
5200〜52FF表8.2.5(P)表8.2.5(H)
5300〜53FF表8.2.6(P)表8.2.6(H)
5400〜54FF表8.2.7(P)表8.2.7(H)
5500〜55FF表8.2.8(P)表8.2.8(H)
5600〜56FF表8.2.9(P)表8.2.9(H)
5700〜57FF表8.2.10(P)表8.2.10(H)
5800〜58FF表8.2.11(P)表8.2.11(H)
5900〜59FF表8.2.12(P)表8.2.12(H)
5A00〜5AFF表8.2.13(P)表8.2.13(H)
5B00〜5BFF表8.2.14(P)表8.2.14(H)
5C00〜5CFF表8.2.15(P)表8.2.15(H)
5D00〜5DFF表8.2.16(P)表8.2.16(H)
5E00〜5EFF表8.2.17(P)表8.2.17(H)
5F00〜5FFF表8.2.18(P)表8.2.18(H)
6000〜60FF表8.2.19(P)表8.2.19(H)
6100〜61FF表8.2.20(P)表8.2.20(H)
6200〜62FF表8.2.21(P)表8.2.21(H)
6300〜63FF表8.2.22(P)表8.2.22(H)
6400〜64FF表8.2.23(P)表8.2.23(H)
6500〜65FF表8.2.24(P)表8.2.24(H)
6600〜66FF表8.2.25(P)表8.2.25(H)
6700〜67FF表8.2.26(P)表8.2.26(H)
6800〜68FF表8.2.27(P)表8.2.27(H)
6900〜69FF表8.2.28(P)表8.2.28(H)
6A00〜6AFF表8.2.29(P)表8.2.29(H)
6B00〜6BFF表8.2.30(P)表8.2.30(H)
6C00〜6CFF表8.2.31(P)表8.2.31(H)
6D00〜6DFF表8.2.32(P)表8.2.32(H)
6E00〜6EFF表8.2.33(P)表8.2.33(H)
6F00〜6FFF表8.2.34(P)表8.2.34(H)
7000〜70FF表8.2.35(P)表8.2.35(H)
7100〜71FF表8.2.36(P)表8.2.36(H)
7200〜72FF表8.2.37(P)表8.2.37(H)
7300〜73FF表8.2.38(P)表8.2.38(H)
7400〜74FF表8.2.39(P)表8.2.39(H)
7500〜75FF表8.2.40(P)表8.2.40(H)
7600〜76FF表8.2.41(P)表8.2.41(H)
7700〜77FF表8.2.42(P)表8.2.42(H)
7800〜78FF表8.2.43(P)表8.2.43(H)
7900〜79FF表8.2.44(P)表8.2.44(H)
7A00〜7AFF表8.2.45(P)表8.2.45(H)
7B00〜7BFF表8.2.46(P)表8.2.46(H)
7C00〜7CFF表8.2.47(P)表8.2.47(H)
7D00〜7DFF表8.2.48(P)表8.2.48(H)
7E00〜7EFF表8.2.49(P)表8.2.49(H)
7F00〜7FFF表8.2.50(P)表8.2.50(H)
8000〜80FF表8.2.51(P)表8.2.51(H)
8100〜81FF表8.2.52(P)表8.2.52(H)
8200〜82FF表8.2.53(P)表8.2.53(H)
8300〜83FF表8.2.54(P)表8.2.54(H)
8400〜84FF表8.2.55(P)表8.2.55(H)
8500〜85FF表8.2.56(P)表8.2.56(H)
8600〜86FF表8.2.57(P)表8.2.57(H)
8700〜87FF表8.2.58(P)表8.2.58(H)
8800〜88FF表8.2.59(P)表8.2.59(H)
8900〜89FF表8.2.60(P)表8.2.60(H)
8A00〜8AFF表8.2.61(P)表8.2.61(H)
8B00〜8BFF表8.2.62(P)表8.2.62(H)
8C00〜8CFF表8.2.63(P)表8.2.63(H)
8D00〜8DFF表8.2.64(P)表8.2.64(H)
8E00〜8EFF表8.2.65(P)表8.2.65(H)
8F00〜8FFF表8.2.66(P)表8.2.66(H)
9000〜90FF表8.2.67(P)表8.2.67(H)
9100〜91FF表8.2.68(P)表8.2.68(H)
9200〜92FF表8.2.69(P)表8.2.69(H)
9300〜93FF表8.2.70(P)表8.2.70(H)
9400〜94FF表8.2.71(P)表8.2.71(H)
9500〜95FF表8.2.72(P)表8.2.72(H)
9600〜96FF表8.2.73(P)表8.2.73(H)
9700〜97FF表8.2.74(P)表8.2.74(H)
9800〜98FF表8.2.75(P)表8.2.75(H)
9900〜99FF表8.2.76(P)表8.2.76(H)
9A00〜9AFF表8.2.77(P)表8.2.77(H)
9B00〜9BFF表8.2.78(P)表8.2.78(H)
9C00〜9CFF表8.2.79(P)表8.2.79(H)
9D00〜9DFF表8.2.80(P)表8.2.80(H)
9E00〜9EFF表8.2.81(P)表8.2.81(H)
9F00〜9FA5表8.2.82(P)表8.2.82(H)

表8.2.N (N=1〜82)の中で用いられる異体字関係記号及びその意味を表8.3に示す。

表8.3 異体字関係記号
記号意味
拡新 JIS X 0208規格 1983年改正に伴う新旧字関係における新字
拡旧JIS X 0208規格 1983年改正に伴う新旧字関係における旧字
人別人名用漢字同一字種関係における別字
常新常用漢字新旧字関係における新字
常旧常用漢字新旧字関係における旧字
規異JIS国内規格参照異体字関係における異体字
同換同音書き換え関係における書き換え後の字
同元同音書き換え関係における書き換え前の字
ソセISO/IEC 10646-1原規格分離漢字関係における別符号位置
簡体中国簡体字と繁体字関係における簡体字
繁体中国簡体字と繁体字関係における繁体字
整異第一批異体字整理表関係における異体字
整正第一批異体字整理表関係における正字
数大漢数字と大字関係における大字
数通漢数字と大字関係における通常の漢数字
J互CJK互換漢字 韓国KS互換関係における互換符号位置
J代CJK互換漢字 韓国KS互換関係における標準符号位置
I互CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における互換符号位置
I代CJK互換漢字 IBM拡張文字及びマイクロソフトWindows CP932互換関係における標準符号位置
漢異漢語大字典 異体字表関係における異体字
漢正漢語大字典 異体字表関係における正字
通仮漢語大字典 通仮字表関係における通仮字
通本漢語大字典 通仮字表関係における本字
日中日本と中国の常用字における異なり字形関係における日本で使用されている字
中日日本と中国の常用字における異なり字形関係における中国で使用されている字