Cache language model とは

キャッシュ言語モデルは、統計言語モデルの一種です。これらは、コンピュータサイエンスの自然言語処理サブフィールドで発生し、確率分布によって与えられた単語列に確率を割り当てる。統計言語モデルは、音声認識システムおよび多くの機械翻訳システムの重要な構成要素であり、可能な出力語シーケンスがどのような可能性があり、そうでないかをそのようなシステムに指示する。キャッシュ言語モデルの特定の特徴は、それがキャッシュ構成要素を含み、所与のテキストの他の場所で生じるワードまたはワードシーケンスに比較的高い確率を割り当てることである。プライマリ、しかし決して唯一ではないが、キャッシュ言語モデルの使用は、音声認識システムにある。
なぜ、統計言語モデルがキャッシュコンポーネントを含むことが良い考えであるかを理解するためには、象についての文字認識を音声認識システムに指示している人がいるかもしれない。標準的な(非キャッシュ)N-gram言語モデルは、英語では非常にまれな単語であるため、 "elephant"という単語には非常に低い確率を割り当てます。音声認識システムにキャッシュ構成要素が含まれていない場合、文字を指示する人は迷惑をかける可能性があります。「象」という言葉が話されるたびに、N-gram言語モデルに従って高い確率で別の単語列が認識されます。 、 "計画を立てる")。これらの誤ったシーケンスは手作業で削除し、「象」が話されるたびに「象」によってテキスト内で置き換えなければならない。システムにキャッシュ言語モデルがある場合、「象」はおそらく最初に話されたときに誤認識され、テキストに手動で入力する必要があります。しかし、システム上のこの点から、「象」が再び発生する可能性が高いことが認識されています。「象」の発生確率が増加しているため、正しく認識される可能性が高くなります。一度「象」が数回出現すると、システムは、その書簡が完全に指示されるまで、それが正しく発音されるようになるでしょう。 「象」の発生に割り当てられる確率のこの増加は、機械学習の結果、より具体的にはパターン認識の結果の一例である。
単一語だけでなく、以前に出現した多語列にも高い確率が割り当てられる(例えば、「サンフランシスコ」がテキストの始まりの近くで発生した場合、後続のインスタンスが割り当てられるなどのキャッシュ言語モデルの変形が存在するより高い確率)。
キャッシュ言語モデルは、1990年に出版された論文で最初に提案され、その後IBMの音声認識グループがその概念を実験しました。このグループは、文書の最初の数百語が指示されると、一種のキャッシュ言語モデルの実装がワード誤り率を24%低下させることを発見した。言語モデリング手法の詳細な調査では、キャッシュ言語モデルは、標準的なN-gramアプローチよりも改善された新しい言語モデリング手法の1つであると結論付けました。「私たちのキャッシング結果は、キャッシュがperplexityの削減小規模および中規模のトレーニングデータサイズで」
キャッシュ言語モデルの開発は、一般的に計算言語学および統計的自然言語処理に関係する者の間でかなりの関心を集めている。近年、統計的機械翻訳の分野でキャッシュ言語モデルを適用することに関心が集まっている。
単語予測を改善するためのキャッシュ言語モデルの成功は、単語を「バースト的」に使用する人間の傾向にあります。特定の文脈で特定のトピックについて議論するとき、特定の単語を使用する頻度は、他の文脈で他の話題について議論しているときの頻度。確率が割り当てられる単語に先立つ非常に少数(4,3または2)の単語からの情報に完全に依存する従来のNグラム言語モデルは、この「バースト性」を適切にモデル化していない。