6月14日(水)1コマ目
今日、やったこと
文字コード
今日のホワイトボード
前回のおさらい
コンピュータ初期のころに誕生したASCII、JIS X 0201は文字集合と符号化方式が一緒になっている。
そのあと、文字集合と符号化方式は別々に扱われるようになる。
図 ASCII、JIS X 0201は文字集合+符号化方式、JIS X 0208は文字集合 |
Shift_JIS
Shift_JISは符号化方式。文字集合は別に決められたJIS X 0201、JIS X 0208を使う。
JIS X 0201の文字は1文字1バイト、JIS X 0208の文字は1文字2バイト。
※JIS X 0201はShift_JISより前から使われているため、互換性を持たせるために同じ符号に変換する。
図 Shift_JIS |
Shift_JISにはCP932やWindows-31Jなど亜種が存在する。
EUC-JP
UnixやLinuxなどで使われていた符号化方式。
文字集合はJIS X 0201、JIS X 0208を使う。
図 EUC-JP |
練習問題(p.21 スライドNo.41、42)
JIS X 0208の文字は区点に0xA0を足す。
図 EUC-JPで符号化 |
UTF-8
今最も使われている符号化方式。
文字集合はUnicode。
ちなみにUnicodeでは各文字にU+xxxxという番号を割り当てている(JIS X 0208の区点とおなじようなもの)。
図 UTF-8で符号化 |
次回は
文字コードのテストをします。