Automatic taxonomy construction とは

自動タクソノミー構築(ATC)は、コーパスと呼ばれるテキスト本体から分類学的分類を生成するソフトウェアプログラムの使用です。 ATCは自然言語処理の枝であり、順番に人工知能の枝である。
タクソノミとは、ユーザーが検索している情報を見つけることができるように、知識(文書、記事、ビデオなどとして保存されている)を整理し、索引付けするために使用されるモデルです。タクソノミーは、通常ツリー構造であり、分類群と呼ばれるプロパティの値に基づいてドメインをカテゴリに分類します。分類学は生物学者が最初に、生物を王国、門、属、種などの分類に分類するために使用されました。タクソノミーは、しばしば、それぞれのレベルがより高いレベル(数学的言語では「サブセット」)である階層として表現されます。例えば、基本的な生物学分類法は、動物のサブセットである哺乳動物、および哺乳動物のサブセットである犬および猫などの概念を有する。この種のタクソノミーは、特定のオブジェクトが概念のインスタンスとみなされるため、is-aモデルと呼ばれます。例えば、Fidoはコンセプトドッグのインスタンスであり、Fluffyはネコです。
言語学では、is-a関係をhyponymyと呼ぶ。カテゴリを表す単語は上位語と呼ばれ、カテゴリの例である単語は下位語です。単純な生物学の例では、犬は上位語であり、偽はその下位語の1つです。単語は、下位語と上位語の両方になることができます。例えば、犬は哺乳動物の下位派であり、犬の上位派でもある。 ATCプログラムでは、最も重要なタスクの1つは、単語間の上位語と下位関係の発見です。
タクソノミの開発と保守は、時間とリソースを大幅に必要とする知識集約的な作業です。また、ドメインモデラーには独自の視点があり、必然的に誤ってモデルに入ってしまっても必然です。 ATCは、人工知能技術を使用して、これらの問題を回避するために、ドメインのタクソノミを自動的に生成する。 ATCにはいくつかのアプローチがあります。 1つの方法は、ルールを使用してコーパス内のパターンを検出し、それらのパターンを使用して下位語などの関係を推測することです。他のアプローチは、ベイジアン推論および人工ニューラルネットワークなどの機械学習技術を使用する。
ATCシステムは、保険や金融などのドメインのための大きなオントロジーを自動的に生成するために使用されてきました。また、WordNetなどの既存の大規模なネットワークを強化し、より完全で一貫性のあるものにするために使用されています。