Vocabulary mismatch とは

語彙のミスマッチは、自然言語の使用において一般的な現象であり、異なる人が同じものまたは概念に異なる名前を付けるときに発生します。
Furnasら(1987)はおそらく最初に語彙ミスマッチの問題を定量的に研究していたであろう。彼らの結果は、時々刻々と80%の異なる人々(同じ分野の専門家)が同じことを別々に命名することを示しています。同じことに起因する可能性のある名前は、通常数十種類あります。この研究は、潜在意味索引付けの作業を動機づけた。
コーパス内のユーザ生成クエリと関連ドキュメントとの間の語彙の不一致は、情報検索において用語ミスマッチ問題を引き起こす。 Zhao and Callan(2010)は、おそらく最初に検索環境で語彙の不一致の問題を定量的に研究する者でした。彼らの結果は、平均クエリ用語が、ユーザークエリに関連するドキュメントの30〜40%に表示されないことを示しています。彼らはまた、このミスマッチの確率は、基本的な確率的検索モデルのうちの1つ、Binary Independence Modelの中心的な確率であることを示した。彼らは、強力なキーワード検索モデルよりも50-80%の正確な検索結果を得ることができる、新しい用語の重量予測手法を開発しました。このラインに沿ったさらなる調査によれば、専門家のユーザは、ブール論理和正規形展開を使用して、拡張されていないキーワードクエリに対して検索性能を50〜300%向上させることができます。

Ordered weighted averaging aggregation operator とは

応用数学、特にファジー論理では、序数加重平均(OWA)演算子は、平均型集計演算子のパラメータ化されたクラスを提供します。彼らはRonald R. Yagerによって紹介されました。最大、算術平均、中央値、最小などの多くの注目すべき平均演算子がこのクラスのメンバーです。それらは、言語的に表現された集約命令をモデル化する能力のために、計算知能において広く使用されてきた。

Natural-language user interface とは

自然言語ユーザーインターフェイス(LUIまたはNLUI)は、ソフトウェアアプリケーションでデータを作成、選択、および変更するためのUIコントロールとして、動詞、句および句などの言語現象が動作するコンピュータヒューマンインターフェイスの一種です。
インタフェース設計では、スピードと使いやすさのために自然言語インタフェースが求められていますが、ほとんどの場合、あいまいな入力の幅広い種類の理解に苦労しています。自然言語インタフェースは、自然言語処理および計算言語学の分野における研究の積極的な分野です。直観的な一般的な自然言語インタフェースは、セマンティックWebの積極的な目標の1つです。
テキストインターフェイスはさまざまな程度に「自然」です。多くの正式な(非自然な)プログラミング言語には、自然言語のイディオムが組み込まれています。同様に、伝統的なキーワード検索エンジンは、「浅い」自然言語のユーザインタフェースとして記述することができる。

Stemming とは

言語形態学および情報検索では、語幹は、語形変化した(または時々派生した)単語を、単語の幹、根本または根の形、一般的には書いた形に縮小するプロセスです。ステムは単語の形態学的根拠と同一である必要はない。このステム自体が有効なルートになっていなくても、関連する単語が同じステムにマップされていれば十分です。ステミングのアルゴリズムは、1960年代からコンピュータサイエンスで研究されてきました。多くの検索エンジンでは、同義語と同じ語幹を持つ語句を一種のクエリ拡張として扱います。これは集約と呼ばれる処理です。
単語を構成するコンピュータプログラムまたはサブルーチンは、ステミングプログラム、ステミングアルゴリズムまたはステマーと呼ばれてもよい。

Semantic compression とは

自然言語処理では、意味圧縮は、テキストセマンティクスを維持しながら、言語の異質性を低減することによって、テキスト文書(または文書セット)を構築するために使用される辞書を圧縮するプロセスである。その結果、より小さな単語セットを使用して同じアイデアを表現することができます。
セマンティック圧縮は不可逆圧縮です。つまり、一部のデータが破棄され、元のドキュメントを逆のプロセスで再構築することはできません。

Type-1 OWA operators とは

YagerのOWA(順序付けられた加重平均)演算子は、意思決定スキーム(複数基準の意思決定、複数専門家の意思決定、複数基準/複数専門家の意思決定など)におけるクリスプな値を集計するために使用されます。ファジィ集合は、意思決定の基準の選好を表すのに適していると広く受け入れられている。
このために、タイプ1のOWAオペレータが提案されている。タイプ1のOWAオペレータは、不確実なオブジェクトをファジィ集合でモデル化し、ソフト決定とデータマイニングにおけるOWAメカニズムを介して、不確定な情報を不確実な情報に直接集約するテクニックを提供します。
タイプ1のOWA演算子の2つの定義は、Zadehの拡張原理とファジィ集合の α {\displaystyle \alpha } カットに基づいています。 2つの定義は同等の結果をもたらす。

Latent semantic mapping とは

潜在セマンティック・マッピング(LSM)は、大量の(しばしばテキスト)データに暗黙のうちに包括的に意味のある関係をモデル化するデータ駆動型フレームワークです。それは潜在意味解析の一般化です。情報検索において、LSAは、単にクエリと文書との間の単語をマッチングするのではなく、概念的な内容に基づいて検索を可能にする。
LSMは、潜在意味解析の以前の研究から得られたものです。潜在意味解析には3つの主な特徴があります。通常、単語と文書の形式の離散エンティティが連続ベクトルにマップされ、マッピングにはグローバル相関パターンが含まれ、次元削減は分析プロセスの重要な側面です。これらは一般的な特性を構成し、様々な異なる状況において潜在的に有用であると特定されている。この有用性は、LSMに大きな関心を寄せています。潜在意味マッピングの意図された生成物は、大量のデータにおける関係をモデル化するためのデータ駆動型フレームワークである。
Mac OS X v10.5以降には、潜在的セマンティックマッピングを実装するフレームワークが含まれています。

Statistical semantics とは

言語学では、統計学的意味論は、統計的方法を、理想的には監督されていない学習を通して、情報検索の目的に少なくとも十分な精度で、単語またはフレーズの意味を決定する問題に適用する。