Vocabulary mismatch とは

語彙のミスマッチは、自然言語の使用において一般的な現象であり、異なる人が同じものまたは概念に異なる名前を付けるときに発生します。
Furnasら(1987)はおそらく最初に語彙ミスマッチの問題を定量的に研究していたであろう。彼らの結果は、時々刻々と80%の異なる人々(同じ分野の専門家)が同じことを別々に命名することを示しています。同じことに起因する可能性のある名前は、通常数十種類あります。この研究は、潜在意味索引付けの作業を動機づけた。
コーパス内のユーザ生成クエリと関連ドキュメントとの間の語彙の不一致は、情報検索において用語ミスマッチ問題を引き起こす。 Zhao and Callan(2010)は、おそらく最初に検索環境で語彙の不一致の問題を定量的に研究する者でした。彼らの結果は、平均クエリ用語が、ユーザークエリに関連するドキュメントの30〜40%に表示されないことを示しています。彼らはまた、このミスマッチの確率は、基本的な確率的検索モデルのうちの1つ、Binary Independence Modelの中心的な確率であることを示した。彼らは、強力なキーワード検索モデルよりも50-80%の正確な検索結果を得ることができる、新しい用語の重量予測手法を開発しました。このラインに沿ったさらなる調査によれば、専門家のユーザは、ブール論理和正規形展開を使用して、拡張されていないキーワードクエリに対して検索性能を50〜300%向上させることができます。