文字コードとは
インターネットビジネスを成功させるために創られたオフィス氣休の『文字コードとは』です。初心者向けホームページ作成、アクセスアップ、集客、検索エンジン対策(SEO)のノウハウ。
文字コードとは何か?
あなたは、コンピューターが扱える情報の種類を知っているでしょうか?
はい。ご存知ですね。
0と1のたった二つの数字。これをデジタル情報といいます。
だとすると、ちょっと疑問に思われませんか?
「なんで、0と1だけで文字が表示できるの?」
その理由が文字コードです。
下記をご覧ください。
文字コード変換テーブル
■文字コード変換テーブル
文字 |
シフトJIS(SJIS) |
EUC |
UTF-8 |
| あ | 1000001010100000 | 1010010010100010 | 111000111000000110000010 |
| い | 1000001010100001 | 1010010010100100 | 111000111000000110000100 |
| う | 1000001010100100 | 1010010010100110 | 111000111000000110000110 |
このように、文字コードにはSJISやEUC、UTF-8といった種類があります。
そして、それぞれ、0と1だけの情報を『文字コード変換テーブル』にのっとって、コンピューターは文字に変換しているのです。
これを見てもらうとわかるのですが、それぞれの文字コードで全く内容が違うことがわかると思います。
このことが、文字化けを引き起こします。
例えば、これはなんと読むでしょうか?
”111000111000000110000100111000111000000110000110”
UTF-8だと、「いう」です。
ところが、SJISやEUCでは全く違いそうですね。
例えば、この文字をSJISで読むと
「縺・≧」
となってしまったりするのです。
この文字コードの違いが文字化けを生みます。
文字がおかしくなってしまった時は、大抵、この文字コードの違いが原因です。
文字コードが怖いのは、それが文字とは読まれないこともあるということです。
例えば、UTF-8で「たすけてー」という文字を打ったとします。
これをSJISに解釈すると、文字とは解釈できずに、プログラムとして見える時があります。
だって、コンピューターには0と1しかなくて、それだけで、文字を表示したり、プログラムを実行していたりするからです。
文字コードを間違えると、「たすけてー」の0と1の情報が、「ブラウザを真っ白にしろ」というプログラムに見えたりするわけです。
怖いですね。
文字コードは、普段から意識して使うようにしましょう。
ちなみに、日本語としてWindowsOSで昔から使われていたのはSJIS。
サーバーなどで多いUnixOSやLinuxOSはECUでした。
しかし、近年では、UTF-8が標準の文字コードとして使われつつあるようです。