Bigram とは

バイグラムまたはジグラムは、通常文字、音節、または単語であるトークンのストリングからの2つの隣接要素のシーケンスです。バイグラムはn = 2のnグラムです。文字列中のすべてのバイグラムの頻度分布は、計算言語学、暗号法、音声認識など、多くのアプリケーションでのテキストの単純な統計分析によく使用されます。
Gappyバイグラムまたはバイグラムをスキップすることは、ギャップを許す単語のペアです(おそらく、接続する単語を避けるか、または依存関係の文法のように、依存関係のシミュレーションを許可します)。
先頭のバイグラムは、明白な依存関係を持つ、すばらしいバイグラムです。
条件付き確率の関係が適用されるとき、前のトークンを与えられたトークンの条件付確率をBigramsが提供するのを助ける:
P ( W n | W n 1 ) = P ( W n 1 , W n ) P ( W n 1 ) {\displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) \over P(W_{n-1})}}
すなわち、前のトークン W n 1 {\displaystyle W_{n-1}} を与えられたトークン W n {\displaystyle W_{n}} の確率 P ( ) {\displaystyle P()} は、それらのバイグラムの確率、または2つのトークン P ( W n 1 , W n ) {\displaystyle P(W_{n-1},W_{n})} の共出現を前の確率トークン。