Letter frequency とは

テキストの文字の頻度は、暗号解析や頻度分析に使用するために研究されてきました。この手法で正式に開発されたイラクの数学者Al-Kindi(c。801-873 AD) Julius Caesarによって考案されたCaesar暗号に少なくとも戻ってくるので、この方法は古典時代に探求されている可能性があります)。
英文字の頻度分析は、1450年に可動型が開発されたヨーロッパでは重要な位置を占めていました。タイプライターのタイプのケースでは、レターコンパートメントのサイズの違いによって証明されています。
言語学者は、未知の筆記体系がアルファベット、音節、または表意文字であるかどうかの指標として、特に有効である、言語識別のための手紙頻度分析を初歩的な手法として使用します。たとえば、日本語のひらがなには46個の異なる文字が含まれています。これはほとんどの発音記号のアルファベット以上です。対照的に、英語とハワイのアルファベットはそれぞれ26文字と13文字しかない。
すべての作家が少し異なって書くので、正確な手紙の頻度分布は与えられた言語の基礎をなしません。しかし、ほとんどの言語は、長いテキストではっきりと見える特徴的な分布を持っています。古い英語から現代英語までの極端な言語変化(相互に理解不能とみなされる)は、関連する手紙の頻度の強い傾向を示す:聖書の句の少数のサンプルにわたって、最も頻繁なものから最も頻繁でないものへの変化sorhmtgþlwu(æ)cfy古い英語は現代英語のeotha sinrd luymw fgcbp kvjqxzと比較されますが、文字形に関する最も大きな違いは共有されていません。
英語のための線形機械は、手作業の作曲家の経験と習慣に基づいて、大部分から最小限のものまで、文字の順序をetaoin shrdlu cmfwyp vbgkjq xzと仮定した。フランス語に相当するのはelaoinsdrétucmfhyp vbgwqj xzでした。
現代の国際モールス符号(一般的に1830年代の英語の手紙頻度に基づいてAlfred Vailによって開発されたと信じられている)は、最短の記号で最も頻繁な文字を符号化する。モールスアルファベットを、送信するのに等しい時間量を必要とする文字のグループに配置し、次にこれらのグループを昇順でソートすると、それが得られます。同様のアイデアは、ハフマン符号化のような現代のデータ圧縮技術で使用される。
手紙の頻度は、Murray Codeのような他の電信システムによって使用されていました。