文字コードとは

ユーカリミニ

インターネットビジネスを成功させるために創られたオフィス氣休の『文字コードとは』です。初心者向けホームページ作成、アクセスアップ、集客、検索エンジン対策(SEO)のノウハウ。

文字コードとは何か?

あなたは、コンピューターが扱える情報の種類を知っているでしょうか?

はい。ご存知ですね。

0と1のたった二つの数字。これをデジタル情報といいます。

 

だとすると、ちょっと疑問に思われませんか?

 

「なんで、0と1だけで文字が表示できるの?」

 

その理由が文字コードです。

 

下記をご覧ください。

 

文字コード変換テーブル

 

■文字コード変換テーブル

文字
シフトJIS(SJIS)
EUC
UTF-8
1000001010100000 1010010010100010 111000111000000110000010
1000001010100001 1010010010100100 111000111000000110000100
1000001010100100 1010010010100110 111000111000000110000110

 

このように、文字コードにはSJISやEUC、UTF-8といった種類があります。

 

そして、それぞれ、0と1だけの情報を『文字コード変換テーブル』にのっとって、コンピューターは文字に変換しているのです。

 

これを見てもらうとわかるのですが、それぞれの文字コードで全く内容が違うことがわかると思います。

 

このことが、文字化けを引き起こします。

例えば、これはなんと読むでしょうか?

 

”111000111000000110000100111000111000000110000110”

 

UTF-8だと、「いう」です。

ところが、SJISやEUCでは全く違いそうですね。

 

例えば、この文字をSJISで読むと

「縺・≧」
となってしまったりするのです。

 

この文字コードの違いが文字化けを生みます。

 

文字がおかしくなってしまった時は、大抵、この文字コードの違いが原因です。

 

文字コードが怖いのは、それが文字とは読まれないこともあるということです。

 

 

例えば、UTF-8で「たすけてー」という文字を打ったとします。

これをSJISに解釈すると、文字とは解釈できずに、プログラムとして見える時があります。

 

だって、コンピューターには0と1しかなくて、それだけで、文字を表示したり、プログラムを実行していたりするからです。

 

文字コードを間違えると、「たすけてー」の0と1の情報が、「ブラウザを真っ白にしろ」というプログラムに見えたりするわけです。

 

怖いですね。

文字コードは、普段から意識して使うようにしましょう。

 

ちなみに、日本語としてWindowsOSで昔から使われていたのはSJIS。

サーバーなどで多いUnixOSやLinuxOSはECUでした。

 

しかし、近年では、UTF-8が標準の文字コードとして使われつつあるようです。

 

 

▲文字コードとは トップへ戻る