W-shingling とは

自然言語処理では、w-shinglingは、文書内の連続したトークンのサブシーケンスで構成されたユニークな帯状疱疹(nグラム)のセットで、ドキュメント間の類似性を確認するために使用できます。記号wは、選択された、または解決された各シングルのトークンの量を示す。
したがって、「バラはバラです」という文書は、以下のように最大限にトークン化することができます。
(a、rose、is、a、rose、is、a、rose)
4つのトークンのすべての連続したシーケンスのセット(したがって、4 = n、したがって4グラム)は、
(バラ、イ、ア、バラ)、(バラ、イ、バラ、イ、バラ、イ) }この特定の例では、{(a、rose、is、a)、(rose、is、a、rose)、(is、a、rose、is)}に減らすことができます。