Gale–Church alignment algorithm とは

計算言語学において、ギャール教会アルゴリズムは、対応する文を並列コーパスに整列させる方法である。これは、同等の文章がおおむね対応するという原則に基づいて動作します。つまり、ある言語の長い文章は、他の文章の長い文章に対応する必要があります。このアルゴリズムは、AT&T Bell LaboratoriesのWilliam A. GaleおよびKenneth W. Churchによる1993年の論文に記載されています。

Named entity とは

情報抽出において、名前付きエンティティは、人、場所、組織、製品などのような、実際のオブジェクトであり、適切な名前で表すことができる。それは抽象的でも物理的な存在でもあります。名前付き実体の例には、バラク・オバマ、ニューヨーク市、フォルクスワーゲン・ゴルフ、または名前を挙げることのできるものが含まれます。名前付きエンティティは、単にエンティティインスタンス(例えば、ニューヨーク市は都市のインスタンス)として見ることができる。
歴史的観点からは、MUC-6評価キャンペーン中に名前付きエンティティという用語が作成され、ENAMEX(人名、場所、組織などのエンティティ名の表現)とNUMEX(数値表現)が含まれていました。
より正式な定義は、Saul Kripkeの厳格な指定子から導出することができる。 「名前付きエンティティ」という表現では、「名前付き」という単語は、エンティティの可能なセットを、1つまたは複数の厳格な指定子が参照対象とするものに限定することを目的としています。指名者は、すべての可能な世界で同じことを指定するときに厳格です。逆に、弛緩的な指名者は、異なる可能な世界で異なるものを指定するかもしれない。
例として、「オバマはアメリカの大統領です」という文章を考えてみましょう。 「Obama」と「United States」の両方は、特定のオブジェクト(Barack ObamaとUnited States)を参照するため、名前をつけたエンティティです。しかし、「社長」は、異なる世界のさまざまなオブジェクトを参照するために使用することができるため、名前のついた実体ではありません(異なる人物を指す異なる大統領時代、または異なる人物を指し示す異なる国や組織でさえ)。厳格な指定子は、通常、生物種や物質のような特定の自然の用語と同様に固有名詞も含みます。
また、名前付きエンティティ認識コミュニティには、金額や他のタイプの単位などの時間的および数値的表現を名前付きエンティティとして考慮することが一般的に合意されています。
テキスト中の名前付きエンティティを認識するタスクは、名前付きエンティティ認識であるが、テキスト中で言及された名前付きエンティティのアイデンティティを決定するタスクは、名前付きエンティティ曖昧性除去と呼ばれる。どちらのタスクも、専用のアルゴリズムとリソースを必要とします。

Calais (Reuters product) とは

CalaisはThomson Reutersのサービスであり、セマンティックWeb上で使用できる形式でWebページから意味情報を自動的に抽出します。カレーは2008年1月に発足し、自由に使用できます。
Calais Webサービスは、構造化されていないテキストを読み取り、テキスト内のエンティティ、ファクトおよびイベントを識別するResource Description Frameworkのフォーマット済みの結果を返します。このサービスは、ロイターが2007年にClearForestを購入したときに獲得した技術に基づいているようだ。
この技術は、ブログの記事に自動的にタグを付け、美術館のコレクションを整理するためにも使用されています。
カレは自然言語処理技術をWebサービスインターフェイス経由で提供しています。

Language identification とは

自然言語処理では、言語識別または言語推測は、コンテンツが与えられた自然言語を決定する問題です。この問題に対する計算上のアプローチは、さまざまな統計的方法で解決されたテキスト分類の特別なケースです。

Automatic acquisition of sense-tagged corpora とは

知識獲得のボトルネックは、おそらく、語義曖昧さ除去(WSD)問題を解決するための大きな障害である。教師なし学習方法は、辞書や語彙データベースではほとんど作成されていない単語感覚に関する知識に依存します。教師付き学習方法は、すべての単語感覚の手作業で注釈を付けた例の存在に大きく依存しています。これは、Sensevalの演習で行われているように、これまでテスト目的の単語のほんの一握りしか満たされていない必要条件です。

Audio-visual speech recognition とは

オーディオビジュアル音声認識(AVSR)は、唇の読み取りにおける画像処理能力を使用して、音声認識システムが未定義の電話を認識するのを助けるか、または近い確率の決定の中で優勢を与える技術である。
唇の読み取りと音声認識の各システムは別々に動作し、その結果は機能融合の段階で混合されます。

Semantic analysis (computational) とは

意味解析(計算)は、「意味解析」と「計算」の複合要素です。
「意味分析」とは意味の正式な分析を指し、「計算」とは基本的に効果的な実施を支援するアプローチを指す。

Artificial Solutions とは

Artificial Solutionsは、エンタープライズおよび消費者向けの自然言語相互作用製品を開発および販売する多国籍ソフトウェア企業です。同社の自然言語ソリューションは、金融、通信、公共セクター、小売、旅行などの幅広い業界に展開されています。

Open information extraction とは

自然言語処理では、オープン情報抽出(OIE)は、通常はトリプルまたはn元の命題の形式で、情報を構造化して機械で読み取り可能なテキスト形式で生成するタスクです。命題は真実ベアラーとして理解することができます。これは、コンピュータのための礼儀正しい構造で表される潜在的な事実(例えば、「ダンテが神の喜びを書いた」など)をテキスト表現したものです(例:「ダンテ」、「書きました」、喜劇 ")]。 OIE抽出は、通常、リレーションと一連の引数で構成されます。例えば、( "ダンテ"、 "ラヴェンナ"で亡くなった)というのは、 "亡くなった"という関係と "ダンテ"と "ラヴェンナ"という関係によって形成される命題である。最初の引数は通常、対象と呼ばれ、2番目の引数は対象とみなされます。
その抽出は、その要素が知識ベースにリンクされていないため、潜在的な事実のテキスト表現であると言われています。さらに、命題の事実の性質はまだ確立されていない。上記の例では、抽出を本格的な事実に変換するには、まず、関係とその引数を知識ベースにリンクする必要があります。第二に、抽出の真実を決定する必要があります。 OIEの抽出をオントロジーの事実に変換するコンピュータサイエンスでは、関係抽出と呼ばれています。
実際、OIEは、関係抽出、知識ベース構築、質問応答、意味論的役割ラベリングなど、より深いテキスト理解タスクの広範な第一段階とみなすことができます。抽出された命題は、構造化検索(例えば、「ダンテ」を主題とするすべての命題を検索する)などのエンドユーザアプリケーションに直接使用することもできる。
OIEはOren Etzioniが率いるワシントン大学チューリングセンターで開発されたTextRunnerによって初めて紹介されました。 Reverb、OLLIE、ClausIE、CSDなどの後に紹介された他の方法は、その側面のいくつかを特徴付けることによってOIEタスクを形成するのを助けました。高レベルでは、これらのアプローチのすべてが抽出を生成するために一連のパターンを使用します。特定のアプローチに応じて、これらのパターンは手作りまたは学習されたものです。

Manually Annotated Sub-Corpus とは

MASCは、主にOpen American National Corpus(OANC)から書かれたテキストと転写された音声のバランスの取れたサブセットです。 OANCは、1990年以降に生産されたアメリカ英語の1500万語(および成長している)のコーパスであり、これらはすべてパブリックドメインにあるか、あるいは使用法や再配布の制限がありません。
すべてのMASCには、論理構造(見出し、セクション、段落など)、文章境界、関連する品詞タグ、浅い解析(名詞および動詞塊)、名前付きエンティティ(人、場所、組織、日付と時刻)、およびPenn Treebank構文です。追加の手作業で作成された、または検証された注釈は、FrameNetフレームエレメントのフルテキストアノテーションとWordNet 3.1センスタグ付きの100K +センテンスコーパスを含む、サブコーパスの一部についてMASCプロジェクトによって生成されたもので、1/10にもアノテーションが付けられていますFrameNetフレーム要素。他のさまざまな言語現象のためのサブコーパスの全部または一部のアノテーションは、PropBank、TimeBank、MPQAの意見、およびその他のものを含む他のプロジェクトによって提供されています。 MASCコーパス全体の共通参照注釈と句境界は、2016年末にリリースされる予定です。
114語のすべての出現についてのWordNet感覚注釈もMASC分布に含まれ、114語の各々の50-100回の出現のためのFrameNet注釈も含まれる。 WordNetおよびFrameNet注釈付きの文章も、MASC Sentence Corpusの一部として配布されます。