Open information extraction とは

自然言語処理では、オープン情報抽出(OIE)は、通常はトリプルまたはn元の命題の形式で、情報を構造化して機械で読み取り可能なテキスト形式で生成するタスクです。命題は真実ベアラーとして理解することができます。これは、コンピュータのための礼儀正しい構造で表される潜在的な事実(例えば、「ダンテが神の喜びを書いた」など)をテキスト表現したものです(例:「ダンテ」、「書きました」、喜劇 ")]。 OIE抽出は、通常、リレーションと一連の引数で構成されます。例えば、( "ダンテ"、 "ラヴェンナ"で亡くなった)というのは、 "亡くなった"という関係と "ダンテ"と "ラヴェンナ"という関係によって形成される命題である。最初の引数は通常、対象と呼ばれ、2番目の引数は対象とみなされます。
その抽出は、その要素が知識ベースにリンクされていないため、潜在的な事実のテキスト表現であると言われています。さらに、命題の事実の性質はまだ確立されていない。上記の例では、抽出を本格的な事実に変換するには、まず、関係とその引数を知識ベースにリンクする必要があります。第二に、抽出の真実を決定する必要があります。 OIEの抽出をオントロジーの事実に変換するコンピュータサイエンスでは、関係抽出と呼ばれています。
実際、OIEは、関係抽出、知識ベース構築、質問応答、意味論的役割ラベリングなど、より深いテキスト理解タスクの広範な第一段階とみなすことができます。抽出された命題は、構造化検索(例えば、「ダンテ」を主題とするすべての命題を検索する)などのエンドユーザアプリケーションに直接使用することもできる。
OIEはOren Etzioniが率いるワシントン大学チューリングセンターで開発されたTextRunnerによって初めて紹介されました。 Reverb、OLLIE、ClausIE、CSDなどの後に紹介された他の方法は、その側面のいくつかを特徴付けることによってOIEタスクを形成するのを助けました。高レベルでは、これらのアプローチのすべてが抽出を生成するために一連のパターンを使用します。特定のアプローチに応じて、これらのパターンは手作りまたは学習されたものです。