Semantic space とは

自然言語ドメインの意味空間は、意味を捕捉することができる自然言語の表現を作成することを目指している。意味空間の原動力は、自然言語の2つの主要な課題、すなわち、語彙のミスマッチ(同じ意味が多くの意味で表現されるという事実)と自然言語のあいまいさ(同じ用語がいくつかの意味を持つことができるという事実)
自然言語処理(NLP)における意味空間の適用は、キーワードレベルで動作するルールベースまたはモデルベースのアプローチの限界を克服することを目指しています。これらの手法の主な欠点は、脆弱性と、ルールベースのNLPシステムまたはモデル学習のためのトレーニングコーパスの作成に必要な大きな手作業です。ルールベースおよび機械学習ベースのモデルは、キーワードレベルで固定され、規則で定義されている語彙または統計モデルで使用されているトレーニング教材と異なる場合は分解されます。
意味空間の研究は20年以上前に始まった。 1996年には、意味論的空間を創造するという一般的な考え方、つまり潜在意味解析とハイパースペースアナログから言語への関心が高まった2つの論文が出版されました。しかし、それらのセマンティック空間を構築し、使用するために必要な膨大な計算量によって、その採用は制限されていました。 「クジラ・イルカ」、「宇宙飛行士」などの同義関係とは対照的に、単語間の関連性関係のモデリングの精度に関する画期的な進展(「スパイダー・ウェブ」、「ライター・シガレット」など)は、 ESAは、100,000次元のベクトル(各次元はWikipediaの記事を表す)の形で単語を表現する、新規な(機械以外の)学習ベースの手法でした。しかし、このアプローチの実際的な適用は、ベクター内の多数の必要な寸法のために制限される。
最近では、他の新しいアプローチ(テンソル)と組み合わせたニューラルネットワーキング技術の進歩により、GoogleのWord2vec、スタンフォード大学のGloVe、Facebook AI Research(FAIR)ラボのfastTextという新しい最近の開発が行われました。