Explicit semantic analysis とは

自然言語処理および情報検索において、明示的意味分析(ESA)は、文書コーパスを知識ベースとして使用するテキスト(個々の単語または文書全体)のベクトル表現です。具体的には、ESAにおいて、単語は、テキストコーパスのtf-idfマトリックス内の列ベクトルとして表され、文書(単語列)は、単語を表すベクトルの重心として表される。一般に、テキストコーパスは英語のWikipediaですが、Open Directory Projectを含む他のコーパスが使用されています。
ESAはEvgeniy GabrilovichとShaul Markovitchによってテキスト分類を改善する手段として設計されており、前述のベクトル間のコサイン類似性によって「意味的関連性」と呼ばれるものを計算するためにこの一対の研究者によって使用されてきたWikipediaの記事(またはODPエントリー、または知識ベースコーパス内の文書のタイトル)が概念と同等である「人間によって明示的に定義され記述された概念」のスペース。知識ベースを使用すると、人間が読めるラベルをベクトル空間を構成する概念に割り当てることができるため、「明示的意味分析」という名前は潜在意味解析(LSA)とは対照的です。