ISCII
ISCII (Indian Script Code for Information Interchange सूचना अन्तरविनिमय के लिए भारतीय लिपि संहिता、情報交換用インド文字符号 IS13194:1991) はインドの各種書記系を表現するための符号化方式である。主要なインド系文字とローマ字転写を符号化する。対応している用字系は以下の通り: アッサム文字、ベンガル文字、デーヴァナーガリー、グジャラーティー文字、グルムキー文字、カンナダ文字、マラヤーラム文字、オリヤー文字、タミル文字、およびテルグ文字。ISCIIはアラビア文字に基づく書記系を符号化しないが、それにもかかわらず、カシミール語、シンド語、ウルドゥー語、ペルシア語、パシュトー語およびアラビア語の書記系切り替え符号が提供されている。アラビア文字に基づく書記系は、その後PASCII文字コードで符号化された。
ブラーフミー文字から派生した書記系はそのほとんどが類似した構造を持つが、文字の形状が異なるため、ISCIIは同じ音価の文字を同じ符号位置に符号化して、各種の用字系を重ね合わせている。たとえば、ISCII符号0xB3 0xDBは[ki]を表す。これはデーヴァナーガリーではकिのように、グルムキー文字ではਕਿのように、そしてタミル文字ではகிのように描画される。書記系はリッチテキストではマークアップによって選択され、プレーンテキストでは後述のATRを用いて選択される。
単一の符号化を使用する動機の1つは、ある書記系から他のものへの翻字が容易になることである。しかしながら、あまりに非互換性が大きいためこれは実際には現実的な考えではない。ISCIIについて を参照。
ISCIIは固定長の8ビット符号である。下位128個の符号位置はASCIIそのままで、上位128個の符号位置がISCII特有である。 ISCIIではデフォルトで使われる「デフォルト書記系」を指定する手段は提供されていない。
ATR符号
[編集]文字を表現する符号位置に加え、ISCIIは略号がATR(0xE0)と呼ばれる符号位置が提供されている。ATRは書記系またはフォント属性の切り替えを指定する。
ATRに引き続き、0x42 - 0x4Bが指定された場合は、デーヴァナーガリー(0x42)、ベンガル文字(0x43)、タミル文字(0x44)、テルグ文字(0x45)、 アッサム文字(0x46)、オリヤー文字(0x47)、カンナダ文字(0x48)、マラヤーラム文字(0x49)、グジャラーティー文字(0x4a)、グルムキー文字(0x4b)へ切り替えられ、ふたたびATRによるデフォルト指定(0x40)または改行か別の書記系指定がくるまで続く。これらの指定が為されている間は、ASCIIの数字もまた、各書記系の数字で表示される。また、0x41が指定された場合は、ローマ字転写が表示される。
ATRに引き続き0x71 - 0x76が指定された場合は、アラビア語(0x71)、ペルシア語(0x72)、ウルドゥー語(0x73)、シンド語(0x74)、カシミール語(0x75)、パシュトー語(0x76)などのアラビア文字系が表示されることになっているが、ISCIIではそれらの詳細を規定していない。
ATRに引き続き、0x30 - 0x39が指定された場合は、太字や斜体、下線付き、倍幅などの表示モードを指定する。ATRの詳細な用法はISCIIの附属書Eに規定されている。
EXT符号
[編集]ISCIIはさらに、EXT(0xF0)と呼ばれる符号位置を利用することで、ヴェーダ文字を使用することができる。ヴェーダ文字はデーヴァナーガリーの拡張と考えることができ、EXTを前置することで『リグ・ヴェーダ』等で使用される調音記号や『黒ヤジュル・ヴェーダ』や『白ヤジュル・ヴェーダ』特有の様々なアヌスヴァーラ(鼻音)文字等を表現することができる。EXT指定によるヴェーダ文字については、ATRによる他の書記系やローマ字転写への指定は無視される。EXTで表現できる文字は、udātta(0xB6)やanudātta(0xBE)のような修飾文字(0xB4 - 0xBE)とそれ以外の非修飾文字(0xA1 - 0xB3)に分かれ、修飾文字は出現できる箇所がデーヴァナーガリーの各音節の後か、または非修飾文字の後に限定されている。
Unicodeとの対応
[編集]UnicodeではISCIIのようにATRで切り替えるのではなく、異なる文字体系については基本的に異なるブロックが割り当てられる。デーヴァナーガリーはU+0900、ベンガル・アッサム文字はU+0980、グルムキー文字はU+0A00、グジャラーティー文字はU+0A80、オリヤー文字はU+0B00、タミル文字はU+0B80、テルグ文字はU+0C00、カンナダ文字はU+0C80、マラヤーラム文字はU+0D00から始まるブロックを使用する。ヌクタ(点)つきの文字も独立した符号位置を持つ。ただし各ブロックの中の配列順はISCIIとの互換性が高い。
ISCIIでEXTを使って表現されるヴェーダ用の文字は2009年のUnicodeバージョン5.2で追加された[1][2]。
ISCIIでハラント(ヴィラーマ)とINV(D9)を使って表現される半体は、Unicodeではハラントとゼロ幅接合子(ZWJ)を使用する。ISCIIではハラントを2回重ねて明示的にハラントつきの子音字を表示するが、Unicodeではハラントにゼロ幅非接合子(ZWNJ)を組み合わせる。
ISCIIの利用状況
[編集]ISCIIは若干の政府機関で使われたのみで、広く使われることはなかったが、いまやUnicodeによってほとんど時代遅れとなった。Unicodeはインド系文字の書記系ごとに分離したブロックを使っているが、おおむね各ブロック内でISCIIの配置を保存している。
なお、インドにはIS 13194(ISCII)の他に文字コード規格として、IS 10315 (ASCIIと同じ)、IS 12326 (ISO/IEC 2022と同じ)等がある。
脚注
[編集]- ^ Michael Everson; Peter Scharf (2008-08-21), N3488R3 Proposal to encode additional characters for Vedic in the UCS
- ^ Unicode Version 5.2.0, Unicode, Inc., (2009-10-01)
参考資料
[編集]- IS13194:1991 भारतीय मानक - सूचना अन्तरविनिमय के लिए भारतीय लिपि संहिता / Indian Standard: Indian Script Code for Information Interchange - ISCII (PDF)