情報処理学会 試行標準 IPSJ-TS 0002:2004


文字図形識別情報

Character Shapes Identification



序文

この学会試行標準(IPSJ-TS)は,文字鏡研究会(http://www.mojikyo.org)において2001年度までに行われた調査研究をもとに,特に重要と判断される技術情報をまとめ,学会試行標準(IPSJ-TS 0002:2002)として公表した第1版に対して, 第1版に関する訂正表1の内容を反映した第2版のIPSJ-TS 0002:2004である。

この学会試行標準(IPSJ-TS)は, 一意に定める連続した番号を用いて、さまざまな形状の文字図形を特定する。これらの文字図形は, 通常の符号化文字規格(ISO/IEC 10646など)で包摂字形として処理される異形字, 及び文字符号として標準化されていない文字の図形も含み, 図形的な差異を視覚的に明示して, それらの文字図形を一意に定める連続した番号(ISO/IEC 10036参照)によって処理することを意図するものであり, 文字図形を情報化(TR X 0047参照)する基盤的性格をもつ。この学会試行標準を作成するために, 株式会社エーアイ・ネット(代表取締役 古家時雄)の文字データベース"今昔文字鏡"の技術情報を活用した。文字図形については, 文字鏡研究会(会長 石川忠久)が公開している今昔文字鏡アウトラインフォントから"特定非営利活動法人文字鏡ネット"(理事長 谷田貝常夫)が提供するツールを用いて生成した画像を使用している。


1. 適用範囲

この学会試行標準は, 今昔文字鏡が収集した文字図形の集合をもとにして, 学会標準として広く利用可能な文字図形の集合を規定し, 識別用文字図形の集合及び各識別用文字図形に対応する識別用文字図形番号を規定する。

この識別情報を使用して文字図形を同定し, 文字図形番号を割り当てることができる。識別用文字図形の集合を規定するに当り, 要素となる文字図形を識別するために必要な解字法, 比較法などの文字図形識別方法を用いる。

この規定は, 文字の図形情報を対象とする。文字図形番号は文字符号ではない。ある一つの文字が異なる字形をもつ場合, それぞれの字形に異なる識別番号が与えられる。符号化文字集合の規格に例示されていない文字図形にも, 識別番号を与えることができる。


2. 引用規定

次に示す規格などは, この規定に引用されることによって, この規定の一部を構成する。これらの規格などは, その最新版を適用する。

ISO/IEC 10646-1:2000 Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1:Architecture and Basic Multilingual Plane
 備考 JIS X 0221-1:2001 [国際符号化文字集合(UCS) — 第1部 体系及び基本多言語面]が, この国際規格に対応している。

ISO/IEC 10646-2:2001 Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 2:Supplementary Planes

ISO/IEC 10036:1996, Information Technology — Font information interchange — Procedures for registration of font-related identifiers

TR X 0047:2001 XMLによる画像参照交換方式, 標準情報, 日本規格協会, 2001-07-01


3. 定義

3.1 文字図形 (character shape)

文字(character)に対応する抽象的図形表現(abstract visible representation)。

3.2 文字図形集合 (set of character shapes)

文字図形の集合。集合の中の各文字図形に付与された番号を, 文字図形番号という。


4. 文字図形集合

文字図形集合及び文字図形番号の組合せによって, 多様な文字図形を一意に特定する。

 備考 文字図形は, 文字図形集合に含まれている範囲とし, 新たに識別を必要とする文字図形が追加され、その文字図形の識別に必要なこれまでにない文字図形が発生した場合は, これも文字図形集合に追加するものとする。


5. 文字図形の識別方法

対象とする文字図形が文字図形集合の中の文字図形と異なるかどうかを, ここに規定する方法によって識別する。

ここでは, 漢字類の文字図形に関する識別方法だけを規定する。非漢字類の文字図形に関する識別については, 言語に基づく文字図形の特徴に配慮した方法が必要になる。

識別には, 次の手続きを順次実行する。

手続き1
対象とする文字図形をその部分図形に分離する。
手続き2
対象とする文字図形の分離形式の組合せ種別を調べる。
手続き3
対象とする文字字形を構成する部分図形の接合形状種別を調べる。

5.1 手続き1

対象となる文字図形を, 次に示す規則5.1.15.1.7に従って, 複数個の部分図形に分離する。図1に, 部分図形への分離の例を示す。


図1 文字図形の部分図形への分離

5.1.1 文字図形は, 部分図形1個以上で構成する。

5.1.2 文字図形は, これ以上分離できない文字図形である場合を除き, 2個の文字図形に分離する。

5.1.3 文字図形については, 後述の8種類の分離形式a)h)がある。構成に際しては, 文字図形の変形を伴うことがある。

5.1.4 これ以上分離できない図形については, その分離形式をh)とする。

 参考 a)h)の漢字名をそれぞれ偏,旁,冠,脚,構,垂,繞,満とする。a)g)の図形的概念は, 康煕字典部首にほぼ対応する。

5.1.5 文字図形の分離は, 分離形式の組合せ種別に基づく。

5.1.6 組合せ種別は, 図2に示すP0, P1, P2, P3, P4, P5, P6, P7, P8, P9, P10, P11, P12, P13, P14, P15, P16, P17の18種とする。

 参考 P5及びP13, P6及びP14を混同しないよう注意すること。これ以上分離できない文字図形は, 組合せ種別をP17とする。

a) 偏
組合せ種別は, P11だけとする。

右払いが変形する。木, 禾村, 和
横棒が変形する。且, 血助, 衄
ハネが変形する。
縦棒が変形する。半, 手叛, 拜

b) 旁
組合せ種別は, P0, P1, P2, P3, P4, P5, P6, P7, P8, P9, P10, P11, P13, P14の14種とする。

a)偏の相手方としてハネが変形する。(P11)丸, 瓦執, 瓶
e)構の相手方として横棒が変形する。(P8)
e)構の相手方として字形の一部を狭める。(P10)

c) 冠
組合せ種別は, P12だけとする。

縦方向に短く変形する。鹿
縦棒又はハネ棒が変形する。
一部が上へ移動する。
一部が左右へ移動する。

d) 脚
組合せ種別は, P12だけとする。

縦方向に短く変形する。
左払いが変形する。月, 用骨, 甬
一部が下へ移動する。
一部が狭まる。

e) 構
組合せ種別は, P0, P1, P2, P3, P4, P5, P6, P7, P8, P9, P10, P15の12種とする。

左右に分離する。臼, 行, 北,卯萸, 街, 乘, 卿
一部が左右上下に移動する。箕, 放, 息簸, 敖, 憩

f) 垂
組合せ種別は, P13だけとする。P5と似ているが, P13は, 左部分の上から下を構成する文字図形に左払い()を含むことによって区別する。

左払いが伸びる。虍, 麻, 雁虎, 摩, 贋
連続部分の交点が移動する。

g) 繞
組合せ種別は, P14及びP15の2種がある。P6と似ているが, P14は, 下部分を構成する文字図形に右払い()又はいんにょう()を含むことによって区別する。

右払い・右ハネが伸びて繞となる。麦, 免, 己, 鬼麹, 勉, 包, 魅

h) 満
a)からg)のいずれにも所属しない文字図形であり, 組合せ種別は, P16及びP17とする。




図2 分離形式の組合わせ種別        
        備考 P17: これ以上分離できないことを示す。

5.1.7 分離の規則の適用手順を次に示す。

識別対象の文字図形をPとし, 文字図形集合に含まれる文字図形をQとする。これらのP及びQを, 次の手順で分離する。

P及びQについて, 2個に分離された文字図形をそれぞれ
 Pa, Pb
 Qa, Qb
とする。

これらに対応する文字図形番号をそれぞれ
 n(Pa), n(Pb)
 n(Qa), n(Qb)
とする。

 n(Pa)=n(Qa) かつ n(Pb)=n(Qb)
のとき, 2個の文字字形P, Qは手続き1として同一とする。

この手続き1によって, ほとんどの文字字形の同定が可能であるが, 次の例のとおり, 手続き1として同一でも異なる字形があり, 手続き2を実行する必要がある。

  黙及び(默の異体字), (滅の異体字)及び(燼の異体字)

5.2 手続き2

文字図形Pに適用する分離の規則を, 分離形式の組合せ種別番号(組合せ種別P0〜P17の添え字番号0〜17)で表し, これを文字図形Pの組合せ種別番号d(P)と表記する。

2個の文字字形P, Qの組合せ種別番号d(P), d(Q)において,
 d(P)=d(Q)
のとき, 2個の文字字形P, Qは手続き2として同一とする。

前述の例では, 次の結果が得られる。
 d(黙)=6, d()=11
 d()=12, d()=16

極めて稀であるが, 次の例のとおり, 手続き2として同一でも異なる字形があり, 手続き3を実行する必要がある。

  己, 巳, 已

5.3 手続き3

Pa及びPbの図形的関係をPab, Qa, Qbの図形的関係をQabとし, 図3に示す次の5項目a)e)の図形的関係について, PabとQabとが同じ状態であるかどうかを調べる。

a) 接触非接触
この図形的関係についてPabとQabとが同じ状態であるとき, 次の項目b)について調べる。
b) 交差非交差
この図形的関係についてPabとQabとが同じ状態であるとき, 次の項目c)について調べる。
c) 図形の長さ
相対的な長さを比較した図形的関係。この図形的関係についてPabとQabとが同じ状態であるとき, 次の項目d)について調べる。
d) 図形の大きさ
相対的な大きさを比較した図形的関係。この図形的関係についてPabとQabとが同じ状態であるとき, 次の項目e)について調べる。
e) 図形の位置関係
位置的相違を比較した図形的関係。この図形的関係についてPabとQabとが同じ状態であるとき, 2個の文字字形P, Qは手続き3として同一とする。

ここで文字字形の識別手続きを終了する。


図3 漢字類文字図形接合形状種別
           参考 図形の大きさの欄の大小の○は, 則天武后の時代の漢字。


6. 文字図形集合の一覧

この学会試行標準の規定は, 電子フォームによってここで規定した文字図形集合及び文字図形番号の組合せ表を定めている。この表を閲覧するために, 次にリンク先を示すページから閲覧ソフトウェアをダウンロード可能になっている。

ダウンロードのページ http://www.itscj.ipsj.or.jp/ipsj-ts/02-02/ips_charid/download.htm

 参考 この表に含まれる漢字類以外の文字図形は, 参考とする。

このダウンロードのページ及び閲覧表示ソフトウェアについては, この学会試行標準の改訂に拠らずに更新され, 使用条件, 使用環境などの諸条件は, ダウンロードのページの表示によるものとする。

この閲覧ソフトウェアによる文字図形集合の電子フォームの表示画面の例を, 図4及び図5に示す。




図4 文字図形集合の表示画面の例1




図5 文字図形集合の表示画面の例2 (部分図形を含む。)


ここに示す文字図形番号xxxxxは, ISO/IEC 10036 (JIS X 4165)が規定する登録手続きに従って, ISO/IEC 10036登録機関に登録され, 対応するグリフ識別子100xxxxxが割り当てられている。


7. 部分図形位置表示

部分図形位置表示は, 文字図形を2個の部分図形に分離する記述文字列を作成し, その文字列を用いて求められる部分図形の位置を示す記述文字列によって表示する。前者の記述文字列を構造文字列と呼び, 後者を位置文字列と呼ぶ。位置文字列は, 部分的文字図形が図形的にそれを含む文字図形に対して, 相対的な図形位置を示す。

7.1 構造文字列

構造文字列の求め方を次に示す。

a) 部分図形を含む文字図形番号をnとする。

文字図形を2個の部分図形に分離することを, 次の構造文字列で表す。

n(n1 n2)

b) 部分図形に分離する分離形式をtとする。tは, a, b, c, d, e, f, gまたはhとする。 分離形式の組合せ種別をpとする。pは, 00から17までの整数で2桁表示とする。

分離対象となっている文字図形を2個に分離する作業を行うと, 組合わせ種別pの属性が明らかになる。このとき2個に分離できない文字図形のp値は17である。分離によって発生した2個の部分図形のそれぞれの分離形式tも明らかになる。分離対象文字図形の文字図形番号nにpを付与する。構造文字列のなかでpを記述する場合にはpの前に必ず_を付加するものとする。( )内の二個の部分図形の文字図形番号nに分離形式tを付与する。

構造文字列は次のとおりとなる。

n_p(n1t n2t)

c) 最初の分離によって生じた( )内の2個の部分図形のそれぞれを2個の部分図形に分離する。( )内の2個の部分図形を分離することで明らかになった分離形式の組合せ種別pをntに付与する。

構造文字列は次のとおりとなる。

n_p(n1t_p n2t_p)

d) 2回目の2個の部分図形に分離することで, ( )内の二つの文字図形それぞれを分離した部分図形が得られる。2個の部分図形に分離した文字図形をさらに分離する場合は, ( )内それぞれのnt_pに(nt_p nt_p)を入れ子にして加入する。

構造文字列の記述は次のとおりに拡大する。

n_p( n1t_p(nt11_p nt12_p) nt1_p(n21t_p n22t_p) )

e) この入れ子構造的な加入によって( )はそれぞれのnt_pに対して1組増加する。以降加入を実行するごとに( )は増加する。

分離と( )が入れ子構造をもって増加する行程を分離行程と呼ぶ。文字図形の分離行程で使用されている( )の総組数を, 分離行程総数と呼ぶ。分離行程において( )の入れ子の深さを分離深度と呼ぶ。分離深度は分離行程途中の部分図形のある位置の度合いを表現する。分離深度は( )1組を分離深度1とし, 入れ子構造的に1組増加すると1を加える。

例えば, "( )は分離深度1", "(())は分離深度2"と表現する。分離対象である文字図形の分離深度は0とする。分離対象である文字図形の分離行程のうち, 最も入れ子構造の多い分離行程においては分離深度の値が大きくなる。その最大の値を最大分離深度と呼ぶ。

同一の"( )"にある2個の文字図形を記述する場合は, 同一分離形式である場合を除きそれぞれの分離形式を示すa〜hのアルファベット順に並べる。

例1

分離深度2までの構造文字列

n_p( n1t_p(n11t_p n12t_p) n2t_p(n21t_p n22t_p) )

分離深度3までの構造文字列

n_p( n1t_p (n11t_p (n111t_p n112t_p) n12t_p (n121t_p n122t_p) )
n2_pt (n21t_p (n211t_p n212t_p) n22t_p (n221t_p n222t_p) ) )

例2

nを054042とした場合の構造文字列。054042の文字図形は"晦"。

 054042_11( 058743a_00 
                  (000001b_17 
                   004675e_12 
                             (086540c_11 
                                        (000067a_17  076753b_17)
                              000001d_17)
                             )
           050244b_12 
                  (070276c_11 
                            (000106a_17  000001b_17)
                   016721d_16  
                            (071570h_16 
                                        (076923h_16  (000165h_17  070646h_17)
                                         000001h_17)
                             070053h_17) 
                            )
                  )

 分離行程総数9
 最大分離深度5
 各文字図形の分離深度
  分離深度0 :054042
  分離深度1 :058743,050244
  分離深度2 :004675,000001,070276,016721
  分離深度3 :086540,000001,000106,000001,071570,070053
  分離深度4 :000067,076753,076923,000001,
  分離深度5 :000165,070646

この構造記述のnを文字図形に置き換えると, 次のとおりとなる。

7.2 位置文字列

位置文字列の求め方を次に示す。

a) 構造文字列より該当部分図形が含まれない分離行程の記述を削除する。

b) 前項の文字列の"("を","に置換し, ")", 該当部分文字図形の"_p"および部分図形の文字図形番号を削除する。

c) 基本的な位置文字列の形式を次に示す。

該当部分文字図形番号:
分離対象文字図形番号_組合せ種別,分離形式_組合わせ種別,分離形式

d) この記述で"分離形式_組合わせ種別"の部分は, 該当部分文字図形の分離深度数に比例して増加する。すなわち分離深度が1増加すると"分離形式_組合わせ種別"の記述を"分離形式"との間に加えていく。分離深度が0ならば記述されない。

例3

例2で作成した構造文字列を用いて, 文字図形"晦"(文字図形番号054042)に含まれる文字図形"毋"(文字図形番号016721)の位置文字列を求める。

a) 該当部分図形が含まれない分離行程の記述を削除する。

054042_11(050244b_12(016721d_16)) となる。

参考 この文字図形番号を文字図形に置換すると次のとおりとなる。
晦_11(毎b_12(毋d_16))

b) "("を","に置換し, ")" と該当部分文字図形の"_p"および部分図形の文字図形番号を削除する。

054042_11,b_12,d となる。

c) 位置文字列は次のとおりとなる。

016721:054042_11,b_12,d

参考 ここで得られた位置文字列を解釈すると次のとおりとなる。

文字図形"晦"(番号054042)に対する部分的文字図形"毋"(番号016721)の相対的な図形位置は, 文字図形"晦"(番号054042)を組合せ種別p11で分離して得た分離形式bの位置にあり, このbの位置にある文字図形をさらに組合せ種別p12で分離して得たdの位置にある。