Named entity とは

情報抽出において、名前付きエンティティは、人、場所、組織、製品などのような、実際のオブジェクトであり、適切な名前で表すことができる。それは抽象的でも物理的な存在でもあります。名前付き実体の例には、バラク・オバマ、ニューヨーク市、フォルクスワーゲン・ゴルフ、または名前を挙げることのできるものが含まれます。名前付きエンティティは、単にエンティティインスタンス(例えば、ニューヨーク市は都市のインスタンス)として見ることができる。
歴史的観点からは、MUC-6評価キャンペーン中に名前付きエンティティという用語が作成され、ENAMEX(人名、場所、組織などのエンティティ名の表現)とNUMEX(数値表現)が含まれていました。
より正式な定義は、Saul Kripkeの厳格な指定子から導出することができる。 「名前付きエンティティ」という表現では、「名前付き」という単語は、エンティティの可能なセットを、1つまたは複数の厳格な指定子が参照対象とするものに限定することを目的としています。指名者は、すべての可能な世界で同じことを指定するときに厳格です。逆に、弛緩的な指名者は、異なる可能な世界で異なるものを指定するかもしれない。
例として、「オバマはアメリカの大統領です」という文章を考えてみましょう。 「Obama」と「United States」の両方は、特定のオブジェクト(Barack ObamaとUnited States)を参照するため、名前をつけたエンティティです。しかし、「社長」は、異なる世界のさまざまなオブジェクトを参照するために使用することができるため、名前のついた実体ではありません(異なる人物を指す異なる大統領時代、または異なる人物を指し示す異なる国や組織でさえ)。厳格な指定子は、通常、生物種や物質のような特定の自然の用語と同様に固有名詞も含みます。
また、名前付きエンティティ認識コミュニティには、金額や他のタイプの単位などの時間的および数値的表現を名前付きエンティティとして考慮することが一般的に合意されています。
テキスト中の名前付きエンティティを認識するタスクは、名前付きエンティティ認識であるが、テキスト中で言及された名前付きエンティティのアイデンティティを決定するタスクは、名前付きエンティティ曖昧性除去と呼ばれる。どちらのタスクも、専用のアルゴリズムとリソースを必要とします。