HTMLエスケープ・アンエスケープツール
HTMLの特殊文字(< > & " ')をエスケープ・アンエスケープ。XSS対策やHTMLソースの安全な表示に。数値参照にも対応。
HTMLの特殊文字(< > & " ')をエスケープ・アンエスケープ。XSS対策やHTMLソースの安全な表示に。数値参照にも対応。
HTMLエスケープとは、HTMLで特別な意味を持つ文字をHTMLエンティティ(文字参照)に変換する処理です。
たとえば < はHTMLタグの開始として解釈されるため、テキストとして表示するには < に変換する必要があります。エスケープしないと、ブラウザがHTMLタグとして解釈し、レイアウト崩れやセキュリティ上の問題(XSS)が発生する可能性があります。
逆に、エスケープ済みの文字列を元の文字に戻す処理をアンエスケープ(デコード)と呼びます。
HTMLで必ずエスケープすべき特殊文字は以下の5つです。
&(アンパサンド) → & — エンティティの開始文字のため<(小なり) → < — HTMLタグの開始として解釈されるため>(大なり) → > — HTMLタグの終了として解釈されるため"(ダブルクォート) → " — 属性値の区切りとして解釈されるため'(シングルクォート) → ' — 属性値の区切りとして解釈されるため特に & と < は最も重要で、これらをエスケープしないとHTMLの構文が壊れます。
文字コード戦争 — Shift_JIS vs EUC-JP vs UTF-8、日本語Webが経験した混沌
なぜ日本語には3つも文字コードがあったのか。Shift_JISの「5C問題」、EUC-JPのUnix支配、ISO-2022-JPのメール世界、機種依存文字の闇、そして絵文字がUnicodeに統合されるまでの30年史を技術的背景から解説します。
UTF-8 の誕生 — Rob Pike と Ken Thompson がダイナーのランチョンマットに書いた設計
1992 年 9 月、ニュージャージーのダイナーで Rob Pike と Ken Thompson がランチョンマットの裏に書いた符号化方式が、現在 Web の 98% を占める UTF-8 になりました。ASCII 互換・自己同期・バイト順非依存という設計判断の背景を、Pike 本人の証言メール (2003) と RFC 3629 を一次資料に辿ります。