文字コード判定・変換ツール
UTF-8・Shift_JIS・EUC-JP・ISO-2022-JP (JIS) の文字コードを自動判定してデコード。テキストを各エンコーディングのバイト列に変換し、16進ダンプも表示。文字化け調査や古いファイルの復旧に。
UTF-8・Shift_JIS・EUC-JP・ISO-2022-JP (JIS) の文字コードを自動判定してデコード。テキストを各エンコーディングのバイト列に変換し、16進ダンプも表示。文字化け調査や古いファイルの復旧に。
文字コードとは、コンピュータで文字を扱うために各文字に割り当てられた数値(バイト列)のこと。同じ「あ」という文字でも、UTF-8ではE3 81 82、Shift_JISでは82 A0と、エンコーディングごとに異なるバイト列になります。
本ツールでは、文字列を各エンコーディングのバイト列に変換したり、逆にバイト列(ファイルや16進ダンプ)から元の文字を復元したりできます。すべてブラウザ内で完結し、データは外部に送信されません。
絵文字 (Emoji) の歴史 ― 1999 年 NTT ドコモ 176 文字から MoMA、Unicode 16 まで
絵文字は1999年に栗田穣崇がNTTドコモのi-modeで設計した176文字に起源を持つ。日本ローカルから始まった文化が、2010年Unicode 6.0で世界標準に、2016年にはMoMA永久コレクション入り。本記事ではUnicode Consortium、MoMA、栗田氏インタビュー等の一次ソースから絵文字史を整理します。
文字コード戦争 — Shift_JIS vs EUC-JP vs UTF-8、日本語Webが経験した混沌
なぜ日本語には3つも文字コードがあったのか。Shift_JISの「5C問題」、EUC-JPのUnix支配、ISO-2022-JPのメール世界、機種依存文字の闇、そして絵文字がUnicodeに統合されるまでの30年史を技術的背景から解説します。
UTF-8 の誕生 — Rob Pike と Ken Thompson がダイナーのランチョンマットに書いた設計
1992 年 9 月、ニュージャージーのダイナーで Rob Pike と Ken Thompson がランチョンマットの裏に書いた符号化方式が、現在 Web の 98% を占める UTF-8 になりました。ASCII 互換・自己同期・バイト順非依存という設計判断の背景を、Pike 本人の証言メール (2003) と RFC 3629 を一次資料に辿ります。
CSV の RFC 4180 と Excel の独自仕様 — なぜ CSV は壊れるのか
CSV は「誰でも扱えるシンプルな形式」と思われがちですが、RFC 4180 の厳密な仕様と Excel の独自仕様には無視できない差があります。BOM・Shift-JIS・改行コード・引用符エスケープの4大トラブルと、実務での回避策を一次資料で解説します。