Entity linking とは

自然言語処理では、エンティティリンク、名前付きエンティティリンク(NEL)、名前付きエンティティ曖昧性除去(NED)、名前付きエンティティ認識と曖昧さ回避(NERD)または名前付きエンティティ正規化(NEN)は、本文中で言及されたエンティティの識別を決定するタスクです。たとえば、「パリはフランスの首都です」という文章を考えれば、「パリ」はパリの都市を指し、パリ・ヒルトンまたは「パリ」と呼ばれることができる他のエンティティではありません。 NERは、名前付き実体の出現または言及をテキスト中で特定するが、それがどの特定の実体であるかを特定しないという点で、名前付き実体認識(NER)とは異なる。
エンティティリンクには、エンティティの記述をリンクできるエンティティを含むナレッジベースが必要です。オープンドメインテキスト上でのエンティティリンクの一般的な選択肢は、各ページが名前付きエンティティとみなされるWikipediaに基づく知識ベースです。 Wikipediaエンティティを使用するNEDは、ウィキケーションとも呼ばれています(Wikify!初期エンティティリンクシステム参照)。知識ベースは、トレーニングテキストから自動的に誘導されてもよいし、手動で構築されてもよい。
名前付きエンティティの記述は非常にあいまいである可能性があります。どんなエンティティリンク方法も、この固有のあいまいさに対処しなければならない。この問題に取り組むための様々なアプローチが今まで試みられてきた。ミルンとヴィッテンの精神的アプローチでは、Wikipediaエンティティのアンカーテキストを訓練データとして用いて教師あり学習を採用しています。他のアプローチも、明白な同義語に基づいてトレーニングデータを収集した。Kulkarni et al。局所的に一貫性のある文書は、強く関連するタイプに属するエンティティを参照する共通の性質を利用していました。
エンティティリンクは、情報検索システムのパフォーマンスを向上させ、デジタルライブラリの検索パフォーマンスを向上させるために使用されています。 NEDはセマンティック検索の重要な入力です。例えば、すべてのテキストが特定のスコープとコンテキストを持つという基本的な仮定を使用することによって、名前付きエンティティ認識メソッドの出力を検証するために、エンティティリンクが首尾よく使用されているため、そのテキストに記述されているエンティティはそれらの間に意味的関係を持つ必要があります。同じエンティティに対して複数の解釈が可能な場合でも、意味論的類似性測度を使用して、コンテキストからエンティティを識別することによってエラーを除外することができます。
エンティティリンク評価キャンペーンは、テキスト分析会議のナレッジベース集計タスクのコンテキストで米国標準技術局(NIST)によって組織されています。