★このブログは12月29日から1月2日までお休みになります★

今日のまとめ:
 ・JIS X 0208:1997のWeb上の規格書に間違いをみつけた
 ・内容は1-9「?」(疑問符)の名前がQUOTATION MARKとなっているというもの
 ・JIS X 0213の規格書では1-1-9はQUESTION MARKなので、単純なミスと思われる
 ・早速スクショつきでツイートしたら、いっぱいリツイートとお気に入りをしてもらった
 ・でも、当然正誤票が出ていて、当の間違いはとっくに訂正されていた
 ・どうもスミマセン・・・
Question Mark endurance Flight 1929 - 1
今日の午後、用があってJIS X 0208:1997の規格書を見ていたら、間違いを発見した。
JIS X 0208は日本初(世界初)の2バイト文字コード規格で、各種記号、ひらがな、カタカナ、罫線素片、そしてJIS基本漢字(第1水準、第2水準)を搭載している。
94区94点の区点番号と言う文字コードで文字を管理している。
1区1点を1-1と書く。
1-1は「 」つまり全角空白(和字間隔)である。

文字には区点番号と同時に名前がついている。
1-1の名前はIDEOGRAPHIC SPACEである。
Webの規格票では、下のリンクのファイルX0208_07で見ることが出来る。
PDFが開くが、うちの環境ではなぜかWindowsのIEでしか見ることができない。
日本工業標準調査会:データベース-JIS詳細表示

この名前はUnicodeのcharacter name(文字名)に合わせてある。
UnicodeはUnicodeスカラー値という番号で管理している。
Unicode Code Chartを引くと、IDEOGRAPHIC SPACEのUnicodeスカラー値(文字番号)はU+3000である。
The Unicode Standard, Version 7.0 - U3000.pdf

よって、JIS X 0208における区点番号1-1の文字名はIDEOGRAPHIC SPACEで、それはUnicodeのU+3000に対応していると分かる。
文字名がJIS X 0208とUnicodeを対応させるキーになっているのだ。

さて、1-9は「?」という字だが、1997年版に文字名がQUOTATION MARKと書かれていた。
日本語通用名称には疑問符と書いていて、どう考えてもQUESTION MARKの間違いだ。

これはいいものを見つけたと思って、さっそく次のようにツイートした。
性格悪いな!



ところが後に、この間違いはとっくに2002年に正誤票(正誤表ではなくて票と書いている)が出ていて、そこで修正されていると教えてくださった方がいた。



そりゃそうか!

しかし、どうだろう、くだんの規格書の分割PDFページへのポータルページからは、正誤表にはリンクがされていないのである。
よって、Web版だけを見ている人は、正誤表の存在がわからないのも当然ではないだろうか。

困るのが、間違いを早まって指摘した方のツイートがどんどんリツイートされていて、正誤表をツイートした方はリツイートされないということだ。
まあ、そりゃそうか。
ということで、改めてブログで載せるものである。
こんな簡単な間違いが放置されているはずはないので、正誤表が出ている。
関係者のみなさん早まってツイートしてしまって申し訳ありませんでした・・・。



さて、今日の記事はちょっと短いので少々蛇足をつける。

JIS X 0208の1-9「?」の文字名はQUESTION MARKであるが、UnicodeのQUESTION MARKはU+003F、いわゆる半角のクエスチョン・マーク「?」(ASCIIの0x3F)である。
つまり、JIS X 0208に入っている基本ラテンの英数記号は、いわゆる半角のUnicodeに対応する。
全角の「?」はU+FF1FのFULLWIDTH QUESTION MARKという字だが、これは代替名称、つまり、JIS X 0208的には互換性の用途として一時的に認めている1-9の別名であるということだ。
しかし、1997年に「一時的に認める」としてからもう17年も立っているが改定されない。
WindowsのShift_JIS(CP932)では、0x3Fが半角の「?」(QUESTION MARK)、区点番号1-9に当たる0x8148が全角の「?」(FULLWIDTH QUESTION MARK)である。
(CP932はShift_JISをWindowsが拡張したもの。Shift_JISの漢字コードは区点番号から計算で求められる)

面白いのがOVERLINE(1-17)で、JIS X 0208:1997には全角用の代替名称がFULLWIDTH OVERLINEとされているが、このFULLWIDTH OVERLINEという字がUnicodeには存在しない。
ということで、UnicodeではOVERLINE「‾」(U+203E)の全角形はFULLWIDTH MACRON「 ̄」(U+FFE3)という字になっている。
マクロンというのはU+00AFに入っている分音記号「¯」で、Āのように使う。
だから、UnicodeのFULLWIDTH MACRON「 ̄」(U+FFE3)はマクロンの全角形とオーバーラインの全角形を包摂した状態ということである。
上でJIS X 0208の名前はUnicodeの文字名と合わせていると書いているが、FULLWIDTH OVERLINEはその例外である。