2月28日、「Unicode IVS/IVD入門 ―JIS規格の歴史、異体字問題の解説から、Windows 8での対応方法まで」という本が発表された。
IVSって何か知ってますか。
以下、最近急に勉強したので用語を整理する。
IVSって何か知ってますか。
以下、最近急に勉強したので用語を整理する。
東京都葛飾区のカツと奈良県葛城市のカツは、同じクズという字であるが、字体が違う。
これを異体字という。
渡辺さんのベとか、斎藤さんのサイとか、狂ったようにある。
そこで、Unicodeの仕組みで、この異体字を表すために、葛の字(代表字)の後に見えない文字を挟んで表示する規格がある。
ここ、用語が混乱するが、挟む文字を異体字セレクタ(VS、validation selector)と言う。
挟んだ結果(基本の文字+VS)をIVS(異体字シーケンス、Ideographic Variation Sequence)という。
IVSの集合をIVC(Ideographic Variation Collection)といい、いろんな会社や団体が公開している。
IVCをUnicode ConsortiumがまとめたものをIVD(Ideographic Variation Database)と言う。
わかりましたか。
代表字に異体字セレクタ(VS)を続けて書いた文字列(シーケンス)がIVS。
IVSは全体で一つの異体字を表す。
IVSの集合(コレクション)がIVC。
IVCをUnicode Consortiumがまとめたもの(データベース)がIVD。
上記の例で言うと、
・カツラギ市のカツを U+845B U+E0100
・カツシカ区のカツを U+845B U+E0101
であらわす。U+845Bが代表字、U+E0100がVSで、U+845B U+E0100がIVSである。
日本人にとって特に関心がある漢字の異体字を集めたIVCが2つある。
・Adobe-Japan1
・Hanyo-Denshi
さて、Windows XPではクズで変換するとIMEの変換候補にカツラギ市のカツが出ていた。
Windows Vistaからはクズで変換するとカツシカ区のカツが出ていた。
これは、XP以前がJIS X 0208:1990の字体を、Vista以降はJIS X 0213:2004の字形を搭載していたからだ。
それでは困るので、XP以前でJIS X 0213:2004の字形を使いたい人はJIS90フォントパックをインストールしていた。
同様に、Vista以降でJIS X 0208:1990の字形を後方互換性を保って使いたい人はJIS2004フォントパックをインストールしていた。
ところが、Windows 8ではOSとして異体字セレクタの仕組みに対応することになった。
クズで変換するとカツラギ市のカツもカツシカ区のカツも変換候補に並ぶようになったのだ。
異字体がいっぱい出るとかえって混乱する人もいるので、デフォルトでは出ないようになっている。
だから、使いたければMicrosoft IMEの設定で「変換文字制限をしない」にする必要がある。
JIS90、JIS2004のどっちかに固定することも出来る。
Windows 8でIVSを有効にしてクズで変換すると、対応したフォントであればIVSで入力される。
つまり1文字に見えるがUnicode2文字分が入っている。
MS明朝、MSゴシック、メイリオなどのWindows標準フォントでもIVSが入力できる。
ここで使われるIVCは、Adobe-Japan1が採用された。
Adobe-Japan1は最新バージョンのAdobe-Japan1-6では23,058文字増えた。
しかし、上記のMS明朝、MSゴシック、メイリオなどのWindows標準フォントで入力できるようになったIVSは122字である。
(ともいうが、上記の本には122-1文字(つまり121文字)と書いている。あと、実際に増えた字を数えてみたら127文字だったという人もいる。難しいな!)
122字ってずいぶん少ないようにも思える。
これは、上記のJIS90とJIS2004で字形が変わったものが入っているそうだ。
ということで、まとめると「Windows 8でIVSがOSの機能としてサポートされ、MS明朝、MSゴシック、メイリオなどでIVSが使えるようになって、122文字ぐらい増えたので、JIS互換フォントパックがいらなくなった」ということだ。
これを機に、マイクロソフトの田丸さんと、Unicode 委員で「ユニコード戦記」で有名な小林さんによって上記の本が著された。
で、上記の本の内容を紹介するセミナーが飯田橋の研究社英語センターというところで開かれた。
Plat14 Unicode IVS/IVD入門 IVS協議会共催
話は前後するが、Twitterで仲良くさせてもらっている「文字クラスタ」のみなさん(文字っ子のみなさん)が、「Unicode IVS/IVD入門」には妙に間違いが多いということで盛り上がっていた。
IVS本に容赦なく突っ込みまくるNAOIさん(とぅぎゃったー)
それで、その本をつまみに文字っ子のみなさんが飲み会を開くということになった。
なーに考えてんだか!
IVS本飲み会、開催決定!
ぼくは飲み会に参加したいと思った。
理由としては、
・文字っ子のみなさんの深い話をいろいろ聞きたい
というのがもちろん第一であったが、
・間違いが多いことで有名な本の著者として、本の間違いというものがどのように受け取られるのか知りたい
という気持ちもあった。
それで、飲み会に参加する資格を得るために、わざわざ本を買って、上記のとぅぎゃったーを見ながら本に付箋を貼ったのである。
これがすごく勉強になった。
自分では絶対に気づかない間違いもあったし、自分でもすぐに分かる間違いもあった。
自分でもすぐに分かるだろうが、こんな機会(飲み会)でもなければこんな難しい本を読み通すこともなかったので、見落としていたであろう間違いもあった。
文字コード表の間違い(数字の間違いと字形の間違い)もあった。
普通気づかねえよ!
何が問題か分からないツッコミも多かったので、それは色違いの付箋にしたのである。
すげえ頑張ってるな俺。
本の間違いを騒ぎ立てるのは趣味が悪いという意見もあったが、ぼく的にはものすごく勉強になったし、どうしようもなく楽しかった。
気分は飲み会に向けて全開である。
★
で、さらに、明らかにぼくは飲み会の参加者の中で知識が不足していると思ったので、セミナーにもわざわざ参加したのである。
難しいセミナーであったが、前日「超・予習」をしていたので話が良く分かった。
ポイントとしては、この本には以下の3点が書かれていることだ。
・JIS規格と当用漢字、常用漢字の歴史
・Unicodeの仕組みであるIVSの仕組み
・Windows 8の異体字IVSの実装
逆に言うと、Appleの話は出てこない。
Windows 8がIVSを実装したのは、ちょっと字がないとすぐに作られてしまう外字を撲滅(本当にそう書いてある)したいためだそうだ。
それで122字はちょっと少なく思える。
実際には、枠組みは用意したので後は今後随時各メーカーが増やせばいいということのようだ。
(ちょっと曖昧です。スミマセン)
面白かったのが、小林さんが
「この本のことがツイッターで盛り上がってるみたいで・・・」
「JISの規格票にはコードの範囲しか書いてない。字形が書いてないから、分からないことこの上ない。なぜ書かないかというと、必ず間違うから。でも、この本では蛮勇を振るって字形も載せた」
と、ネットでの盛り上がりを踏まえて発言されていたことで、会場でも和やかな笑いが起こっていた。
あと、横道にそれるが、
「腥って字があるけど、この月は本来ニクヅキで、なまぐさいという意味だけど、若い人は月に星だからカッコイイとか言って、キララとか名前にするんじゃないかとそれが心配」
という話があってこれも面白かった。
あと、田丸さんが「字形の参照に使うのはMS明朝で、MSゴシックやメイリオはファンシーフォントなので字形の議論の対象ではない。(IVSで書いてあっても、MSゴシックやメイリオでは字形が変わって見えない字もある。)しかし、コピペしたり名前を付けて保存したりする一般の用途を踏まえて、同じように見える字でもIVSが入るようになっている」とおっしゃっていたのも注目すべきだと思う。
※2013-04-02 追記
このセミナーの画像、プリントが公開されました。
platform 第14回 Unicode IVS/IVD入門 IVS協議会共催
★
ということで、日曜日は文字っ子飲み会に参加した。
・木曜日に本を買って付箋を貼りながら読む
・金曜日にセミナーに出席
・土曜日は掃除、洗濯
・日曜日は飲み会
という日程であって、人生充実してて楽しいわ。
本当に色の違う付箋を1枚1枚めくって、どこが問題なのかみなさんに聞いた。
みなさん本当にありがとうございました。
超・楽しかったし勉強になったのである。
こんなことでもないと、こんな難しい本を読み通すこともなかったし、こんな勉強になる会に参加することもなかった。
ということで、ぼくとしては非常に充実していて良かった。
これを異体字という。
渡辺さんのベとか、斎藤さんのサイとか、狂ったようにある。
そこで、Unicodeの仕組みで、この異体字を表すために、葛の字(代表字)の後に見えない文字を挟んで表示する規格がある。
ここ、用語が混乱するが、挟む文字を異体字セレクタ(VS、validation selector)と言う。
挟んだ結果(基本の文字+VS)をIVS(異体字シーケンス、Ideographic Variation Sequence)という。
IVSの集合をIVC(Ideographic Variation Collection)といい、いろんな会社や団体が公開している。
IVCをUnicode ConsortiumがまとめたものをIVD(Ideographic Variation Database)と言う。
わかりましたか。
代表字に異体字セレクタ(VS)を続けて書いた文字列(シーケンス)がIVS。
IVSは全体で一つの異体字を表す。
IVSの集合(コレクション)がIVC。
IVCをUnicode Consortiumがまとめたもの(データベース)がIVD。
上記の例で言うと、
・カツラギ市のカツを U+845B U+E0100
・カツシカ区のカツを U+845B U+E0101
であらわす。U+845Bが代表字、U+E0100がVSで、U+845B U+E0100がIVSである。
日本人にとって特に関心がある漢字の異体字を集めたIVCが2つある。
・Adobe-Japan1
・Hanyo-Denshi
さて、Windows XPではクズで変換するとIMEの変換候補にカツラギ市のカツが出ていた。
Windows Vistaからはクズで変換するとカツシカ区のカツが出ていた。
これは、XP以前がJIS X 0208:1990の字体を、Vista以降はJIS X 0213:2004の字形を搭載していたからだ。
それでは困るので、XP以前でJIS X 0213:2004の字形を使いたい人はJIS90フォントパックをインストールしていた。
同様に、Vista以降でJIS X 0208:1990の字形を後方互換性を保って使いたい人はJIS2004フォントパックをインストールしていた。
ところが、Windows 8ではOSとして異体字セレクタの仕組みに対応することになった。
クズで変換するとカツラギ市のカツもカツシカ区のカツも変換候補に並ぶようになったのだ。
異字体がいっぱい出るとかえって混乱する人もいるので、デフォルトでは出ないようになっている。
だから、使いたければMicrosoft IMEの設定で「変換文字制限をしない」にする必要がある。
JIS90、JIS2004のどっちかに固定することも出来る。
Windows 8でIVSを有効にしてクズで変換すると、対応したフォントであればIVSで入力される。
つまり1文字に見えるがUnicode2文字分が入っている。
MS明朝、MSゴシック、メイリオなどのWindows標準フォントでもIVSが入力できる。
ここで使われるIVCは、Adobe-Japan1が採用された。
Adobe-Japan1は最新バージョンのAdobe-Japan1-6では23,058文字増えた。
しかし、上記のMS明朝、MSゴシック、メイリオなどのWindows標準フォントで入力できるようになったIVSは122字である。
(ともいうが、上記の本には122-1文字(つまり121文字)と書いている。あと、実際に増えた字を数えてみたら127文字だったという人もいる。難しいな!)
122字ってずいぶん少ないようにも思える。
これは、上記のJIS90とJIS2004で字形が変わったものが入っているそうだ。
ということで、まとめると「Windows 8でIVSがOSの機能としてサポートされ、MS明朝、MSゴシック、メイリオなどでIVSが使えるようになって、122文字ぐらい増えたので、JIS互換フォントパックがいらなくなった」ということだ。
これを機に、マイクロソフトの田丸さんと、Unicode 委員で「ユニコード戦記」で有名な小林さんによって上記の本が著された。
で、上記の本の内容を紹介するセミナーが飯田橋の研究社英語センターというところで開かれた。
Plat14 Unicode IVS/IVD入門 IVS協議会共催
話は前後するが、Twitterで仲良くさせてもらっている「文字クラスタ」のみなさん(文字っ子のみなさん)が、「Unicode IVS/IVD入門」には妙に間違いが多いということで盛り上がっていた。
IVS本に容赦なく突っ込みまくるNAOIさん(とぅぎゃったー)
それで、その本をつまみに文字っ子のみなさんが飲み会を開くということになった。
なーに考えてんだか!
IVS本飲み会、開催決定!
ぼくは飲み会に参加したいと思った。
理由としては、
・文字っ子のみなさんの深い話をいろいろ聞きたい
というのがもちろん第一であったが、
・間違いが多いことで有名な本の著者として、本の間違いというものがどのように受け取られるのか知りたい
という気持ちもあった。
それで、飲み会に参加する資格を得るために、わざわざ本を買って、上記のとぅぎゃったーを見ながら本に付箋を貼ったのである。
セミナー用にテキストも用意したし。。(違う twitter.com/query1000/stat…
— Chihiro Fukazawa✅ (@query1000) March 29, 2013
これがすごく勉強になった。
自分では絶対に気づかない間違いもあったし、自分でもすぐに分かる間違いもあった。
自分でもすぐに分かるだろうが、こんな機会(飲み会)でもなければこんな難しい本を読み通すこともなかったので、見落としていたであろう間違いもあった。
文字コード表の間違い(数字の間違いと字形の間違い)もあった。
普通気づかねえよ!
何が問題か分からないツッコミも多かったので、それは色違いの付箋にしたのである。
すげえ頑張ってるな俺。
本の間違いを騒ぎ立てるのは趣味が悪いという意見もあったが、ぼく的にはものすごく勉強になったし、どうしようもなく楽しかった。
気分は飲み会に向けて全開である。
★
で、さらに、明らかにぼくは飲み会の参加者の中で知識が不足していると思ったので、セミナーにもわざわざ参加したのである。
難しいセミナーであったが、前日「超・予習」をしていたので話が良く分かった。
ポイントとしては、この本には以下の3点が書かれていることだ。
・JIS規格と当用漢字、常用漢字の歴史
・Unicodeの仕組みであるIVSの仕組み
・Windows 8の異体字IVSの実装
逆に言うと、Appleの話は出てこない。
Windows 8がIVSを実装したのは、ちょっと字がないとすぐに作られてしまう外字を撲滅(本当にそう書いてある)したいためだそうだ。
それで122字はちょっと少なく思える。
実際には、枠組みは用意したので後は今後随時各メーカーが増やせばいいということのようだ。
(ちょっと曖昧です。スミマセン)
面白かったのが、小林さんが
「この本のことがツイッターで盛り上がってるみたいで・・・」
「JISの規格票にはコードの範囲しか書いてない。字形が書いてないから、分からないことこの上ない。なぜ書かないかというと、必ず間違うから。でも、この本では蛮勇を振るって字形も載せた」
と、ネットでの盛り上がりを踏まえて発言されていたことで、会場でも和やかな笑いが起こっていた。
あと、横道にそれるが、
「腥って字があるけど、この月は本来ニクヅキで、なまぐさいという意味だけど、若い人は月に星だからカッコイイとか言って、キララとか名前にするんじゃないかとそれが心配」
という話があってこれも面白かった。
あと、田丸さんが「字形の参照に使うのはMS明朝で、MSゴシックやメイリオはファンシーフォントなので字形の議論の対象ではない。(IVSで書いてあっても、MSゴシックやメイリオでは字形が変わって見えない字もある。)しかし、コピペしたり名前を付けて保存したりする一般の用途を踏まえて、同じように見える字でもIVSが入るようになっている」とおっしゃっていたのも注目すべきだと思う。
※2013-04-02 追記
このセミナーの画像、プリントが公開されました。
platform 第14回 Unicode IVS/IVD入門 IVS協議会共催
★
ということで、日曜日は文字っ子飲み会に参加した。
・木曜日に本を買って付箋を貼りながら読む
・金曜日にセミナーに出席
・土曜日は掃除、洗濯
・日曜日は飲み会
という日程であって、人生充実してて楽しいわ。
本当に色の違う付箋を1枚1枚めくって、どこが問題なのかみなさんに聞いた。
みなさん本当にありがとうございました。
超・楽しかったし勉強になったのである。
こんなことでもないと、こんな難しい本を読み通すこともなかったし、こんな勉強になる会に参加することもなかった。
ということで、ぼくとしては非常に充実していて良かった。