misc/encoding
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[FrontPage]] > [[misc]] > [[misc/encoding]]
* 文字コード変換 [#a7186437]
** 文字空間の大きさ [#r64d97a8]
*** ISO646(ASCII) [#ac2764bf]
7ビット文字コードである。よって ASCII と言いながら、0x80...
0x00〜0x1f: コントロールコード(文字ではない)
0x20: [space]
0x21〜0x2f: !"#$&'()*+,-./
0x30〜0x39: 0-9
0x3a〜0x40: :;<=>?@
0x41〜0x5a: A-Z
0x5b〜0x60: [\]^_`
0x61〜0x7a: a-z
0x7b〜0x7e: {|}~
0x7f: [DEL]
*** JIS & EUC [#b5417a78]
2バイトの符号値は、第1、第2バイトともに
JIS : 0x21〜0x7E
EUC : 0xA1〜0xFE
の 94個分である。
ただ、JIS X 0208 ではこの範囲の符号値を直接規定していない。
第1バイトを区番号といい、第2バイトを点番号という。
よって文字空間のサイズは、
94x94 = 8836
である。
*** Shift JIS [#d189a1ac]
シフト JIS は、10進数の 129〜159、224〜239
(0x81〜0x9F(31個)、0xE0〜0xEF(16個))
の範囲のバイトが現れると 2バイトモードが開始される。
続く第2バイトは 64〜126、128〜252
(0x40〜0x7E(63個)、 0x80〜0xFC(125個))
の範囲でなければならない。
よって文字空間のサイズは、
47x188 = 8836
である。
第1バイトの範囲は、英数字(ASCII、0x21〜0x7E)や 1バイト仮名
(半角カナ、0xA1〜0xDF)と重複しないように配置されている。
JISコードとは簡単なアルゴリズムで相互変換が可能である。
** ISO-2022 の話 [#mc19bcf8]
http://euc.jp/i18n/charcode.ja.html さんからの抜粋です。I...
*** ISO-2022-JP [#w781edc7]
いわゆる JIS コードである。ISO-2022 7bit 系。
-G0 に JIS X 0201 ローマ文字(または ASCII)を指示
-G1 に JIS X 0201 カタカナを指示
-G0 を GL に呼び出す
-JIS X 0208 漢字(および他の文字集合)は G0 に指示して使用
-7ビット環境では、JIS X 0201 カタカナは、G1 を GL に呼び...
-シングルシフトは使わない
文字集合は ISO-2022-JP では ASCII、X 0201 ローマ文字、X 0...
*** EUC-JP [#c9c8f962]
UNIX などでおなじみ。
-G0 に ASCII(または JIS X 0201 ローマ文字)を指示
-G1 に JIS X 0208 漢字を指示
-G2 に JIS X 0201 カタカナを指示
-G3 に JIS X 0212 補助漢字を指示
-G0 を GL に、G1 を GR に呼び出す
-G2 と G3 はシングルシフトで使用
-エスケープシーケンス・ロッキングシフトは使わない
*** Shift JIS [#dfb02176]
ISO-2022 に準拠していません。
終了行:
[[FrontPage]] > [[misc]] > [[misc/encoding]]
* 文字コード変換 [#a7186437]
** 文字空間の大きさ [#r64d97a8]
*** ISO646(ASCII) [#ac2764bf]
7ビット文字コードである。よって ASCII と言いながら、0x80...
0x00〜0x1f: コントロールコード(文字ではない)
0x20: [space]
0x21〜0x2f: !"#$&'()*+,-./
0x30〜0x39: 0-9
0x3a〜0x40: :;<=>?@
0x41〜0x5a: A-Z
0x5b〜0x60: [\]^_`
0x61〜0x7a: a-z
0x7b〜0x7e: {|}~
0x7f: [DEL]
*** JIS & EUC [#b5417a78]
2バイトの符号値は、第1、第2バイトともに
JIS : 0x21〜0x7E
EUC : 0xA1〜0xFE
の 94個分である。
ただ、JIS X 0208 ではこの範囲の符号値を直接規定していない。
第1バイトを区番号といい、第2バイトを点番号という。
よって文字空間のサイズは、
94x94 = 8836
である。
*** Shift JIS [#d189a1ac]
シフト JIS は、10進数の 129〜159、224〜239
(0x81〜0x9F(31個)、0xE0〜0xEF(16個))
の範囲のバイトが現れると 2バイトモードが開始される。
続く第2バイトは 64〜126、128〜252
(0x40〜0x7E(63個)、 0x80〜0xFC(125個))
の範囲でなければならない。
よって文字空間のサイズは、
47x188 = 8836
である。
第1バイトの範囲は、英数字(ASCII、0x21〜0x7E)や 1バイト仮名
(半角カナ、0xA1〜0xDF)と重複しないように配置されている。
JISコードとは簡単なアルゴリズムで相互変換が可能である。
** ISO-2022 の話 [#mc19bcf8]
http://euc.jp/i18n/charcode.ja.html さんからの抜粋です。I...
*** ISO-2022-JP [#w781edc7]
いわゆる JIS コードである。ISO-2022 7bit 系。
-G0 に JIS X 0201 ローマ文字(または ASCII)を指示
-G1 に JIS X 0201 カタカナを指示
-G0 を GL に呼び出す
-JIS X 0208 漢字(および他の文字集合)は G0 に指示して使用
-7ビット環境では、JIS X 0201 カタカナは、G1 を GL に呼び...
-シングルシフトは使わない
文字集合は ISO-2022-JP では ASCII、X 0201 ローマ文字、X 0...
*** EUC-JP [#c9c8f962]
UNIX などでおなじみ。
-G0 に ASCII(または JIS X 0201 ローマ文字)を指示
-G1 に JIS X 0208 漢字を指示
-G2 に JIS X 0201 カタカナを指示
-G3 に JIS X 0212 補助漢字を指示
-G0 を GL に、G1 を GR に呼び出す
-G2 と G3 はシングルシフトで使用
-エスケープシーケンス・ロッキングシフトは使わない
*** Shift JIS [#dfb02176]
ISO-2022 に準拠していません。
ページ名: