なぜ同じ「あ」でもバイト数が違うのですか?

エンコーディングごとに採用されている符号化方式が異なるためです。UTF-8は世界中のすべての文字を扱えるよう可変長(日本語は3バイト)で設計されており、Shift_JISは日本語に最適化して2バイトで表現します。

文字化けしたファイルは必ず復元できますか?

元のエンコーディングが判定できれば、ほぼ確実に復元できます。ただし一度UTF-8として保存し直された「壊れたファイル」は情報が失われているため復元困難です。本ツールの自動判定は多くのケースで有効ですが、短いテキストや特殊な記号のみの場合は誤判定する可能性があります。

サロゲートペアや絵文字には対応していますか?

UTF-8/UTF-16では絵文字(サロゲートペア)も正しく扱えます。ただし Shift_JIS や EUC-JP は絵文字に対応していないため、変換時に「?」や「〓」などに置換されます。

入力したテキストやファイルは保存されますか?

いいえ。すべての処理はブラウザ内で完結し、サーバーへの送信は一切行いません。機密情報を含むファイルも安全に扱えます。

CP932とShift_JISの違いは?

CP932はMicrosoftがShift_JISを拡張した実装で、IBM拡張文字や機種依存文字(①②、㈱など)を含みます。Windowsで「Shift_JIS」と呼ばれているものは実際にはCP932であることがほとんどです。本ツールのShift_JISはCP932互換です。

開発者向け

文字コード判定・変換ツール

UTF-8・Shift_JIS・EUC-JP・ISO-2022-JP (JIS) の文字コードを自動判定してデコード。テキストを各エンコーディングのバイト列に変換し、16進ダンプも表示。文字化け調査や古いファイルの復旧に。

テキスト入力 (UTF-8)

このツールについて問い合わせる →

文字コード判定・変換ツールについて

文字コードとは

文字コードとは、コンピュータで文字を扱うために各文字に割り当てられた数値(バイト列)のこと。同じ「あ」という文字でも、UTF-8ではE3 81 82、Shift_JISでは82 A0と、エンコーディングごとに異なるバイト列になります。

本ツールでは、文字列を各エンコーディングのバイト列に変換したり、逆にバイト列(ファイルや16進ダンプ)から元の文字を復元したりできます。すべてブラウザ内で完結し、データは外部に送信されません。

対応エンコーディング

UTF-8: 現在のWeb・Linux・macOSの標準。日本語1文字=3バイト。
Shift_JIS (CP932): Windows日本語版の長年の標準。日本語1文字=2バイト。
EUC-JP: Unix系OSで広く使われた日本語エンコーディング。
ISO-2022-JP (JIS): メール(RFC 1468)で指定される日本語エンコーディング。
UTF-16 (BE/LE): Windowsの内部表現やJavaScript文字列の基礎。

こんなときに使える

文字化けの原因調査: 読めないファイルを自動判定して正しい文字で表示。
古いCSV/TXTの復旧: Windowsで作られたShift_JISファイルをUTF-8で読みたいとき。
プログラミング学習: 「あ」が各エンコーディングで何バイトか実際に確認。
ファイルサイズの見積もり: UTF-8とShift_JISのどちらが容量を節約できるか比較。
ネットワーク通信のデバッグ: パケットキャプチャの16進ダンプから日本語を復元。

使い方

テキスト → バイト列: 文字列を入力すると、UTF-8/Shift_JIS/EUC-JP等のバイト数が一覧表示されます。行をクリックすると16進ダンプに切り替わります。
判定 / デコード: ファイルをアップロードするか、16進ダンプを貼り付けると、文字コードを自動判定してテキスト化します。各エンコーディングでの解釈も同時に表示されるため、文字化けの原因を特定しやすくなっています。

よくある質問

Q. なぜ同じ「あ」でもバイト数が違うのですか?: エンコーディングごとに採用されている符号化方式が異なるためです。UTF-8は世界中のすべての文字を扱えるよう可変長(日本語は3バイト)で設計されており、Shift_JISは日本語に最適化して2バイトで表現します。
Q. 文字化けしたファイルは必ず復元できますか?: 元のエンコーディングが判定できれば、ほぼ確実に復元できます。ただし一度UTF-8として保存し直された「壊れたファイル」は情報が失われているため復元困難です。本ツールの自動判定は多くのケースで有効ですが、短いテキストや特殊な記号のみの場合は誤判定する可能性があります。
Q. サロゲートペアや絵文字には対応していますか?: UTF-8/UTF-16では絵文字(サロゲートペア)も正しく扱えます。ただし Shift_JIS や EUC-JP は絵文字に対応していないため、変換時に「?」や「〓」などに置換されます。
Q. 入力したテキストやファイルは保存されますか?: いいえ。すべての処理はブラウザ内で完結し、サーバーへの送信は一切行いません。機密情報を含むファイルも安全に扱えます。
Q. CP932とShift_JISの違いは?: CP932はMicrosoftがShift_JISを拡張した実装で、IBM拡張文字や機種依存文字(①②、㈱など)を含みます。Windowsで「Shift_JIS」と呼ばれているものは実際にはCP932であることがほとんどです。本ツールのShift_JISはCP932互換です。

出典・参考文献

絵文字 (Emoji) の歴史 ― 1999 年 NTT ドコモ 176 文字から MoMA、Unicode 16 まで

絵文字は1999年に栗田穣崇がNTTドコモのi-modeで設計した176文字に起源を持つ。日本ローカルから始まった文化が、2010年Unicode 6.0で世界標準に、2016年にはMoMA永久コレクション入り。本記事ではUnicode Consortium、MoMA、栗田氏インタビュー等の一次ソースから絵文字史を整理します。

文字コード戦争 — Shift_JIS vs EUC-JP vs UTF-8、日本語Webが経験した混沌

なぜ日本語には3つも文字コードがあったのか。Shift_JISの「5C問題」、EUC-JPのUnix支配、ISO-2022-JPのメール世界、機種依存文字の闇、そして絵文字がUnicodeに統合されるまでの30年史を技術的背景から解説します。

UTF-8 の誕生 — Rob Pike と Ken Thompson がダイナーのランチョンマットに書いた設計

1992 年 9 月、ニュージャージーのダイナーで Rob Pike と Ken Thompson がランチョンマットの裏に書いた符号化方式が、現在 Web の 98% を占める UTF-8 になりました。ASCII 互換・自己同期・バイト順非依存という設計判断の背景を、Pike 本人の証言メール (2003) と RFC 3629 を一次資料に辿ります。

CSV の RFC 4180 と Excel の独自仕様 — なぜ CSV は壊れるのか

CSV は「誰でも扱えるシンプルな形式」と思われがちですが、RFC 4180 の厳密な仕様と Excel の独自仕様には無視できない差があります。BOM・Shift-JIS・改行コード・引用符エスケープの4大トラブルと、実務での回避策を一次資料で解説します。