Legal information retrieval とは

法的情報検索は、法律、判例法、および学術研究を含む法的テキストに適用される情報検索の科学です。正確な法的情報の検索は、一般人および法律専門家への法律へのアクセスを提供するために重要です。その重要性は、電子的手段によって利用可能な法的文書の膨大かつ迅速に増加する量のために増加した。法律情報検索は、法律情報学の分野の拡大の一環です。

Cross-language information retrieval とは

クロスランゲージ情報検索(CLIR)は、ユーザのクエリの言語とは異なる言語で書かれた情報を検索することを扱う情報検索のサブフィールドです。 「クロスランゲージ情報検索」という言葉は、多くの類義語を持っています。その中で、多言語の情報検索、言語横断的な情報検索、多言語の情報検索が、おそらく最も頻繁に行われます。 「多言語情報検索」という用語は、より一般的には、多言語収集の検索技術と、ある言語の資料を別の文書に変換するために移動した技術の両方を指します。言語間情報検索は、より具体的には、ユーザーが情報ニーズを1つの言語で公式化し、システムが関連する文書を別の言語で検索するというユースケースを指します。そのために、ほとんどのCLIRシステムではさまざまな翻訳テクニックが使用されています。 CLIR技法は、異なる翻訳リソースに基づいて異なるカテゴリに分類することができます。
 辞書ベースのCLIRテクニックパラレルコーパスベースのCLIRテクニック比較可能なコーパスベースのCLIRテクニックマシントランスレータベースのCLIRテクニック
CLIRシステムは、今日最も正確な多言語およびクロス言語のアドホック情報検索システムが、単言語システムほど効果的であるように、多くの点で改善されました。メディア監視、情報のフィルタリングおよびルーティング、センチメント分析、および情報抽出などの他の関連情報アクセスタスクは、より洗練されたモデル、および一般に関心のある情報アイテムのより多くの処理および分析を必要とする。その処理の多くは、展開されるターゲット言語の詳細を認識する必要があります。
主に、人間言語の多様なメカニズムは、情報検索システムのカバレッジの課題を引き起こします。コレクションのテキストは、関心のあるトピックを扱いますが、ユーザーが指定する情報ニーズの表現に一致しない用語や表現を使用します。これは単一言語の場合であっても当てはまる可能性がありますが、これは特に言語横断的な情報検索において真実です。ターゲット言語での能力の低い者から適度な者へのCLIRテクノロジーの利点は、流暢な人よりも大きいことが判明しています。 CLIRサービスのための特定の技術には、複合用語を扱うための変奏、逆コンパウンドまたは複合分割、およびある言語から別の言語へのクエリの翻訳メカニズムを処理する形態素解析が含まれます。
CLIRに関する最初のワークショップは、SIGIR-96会議でチューリッヒで開催されました。ワークショップは、クロスランク評価フォーラム(CLEF)の会合で2000年以来毎年開催されています。研究者はまた、毎年のテキスト検索会議(TREC)で、情報検索のさまざまなシステムと方法に関する調査結果を議論するために招集し、会議はCLIRサブフィールドの参照点として役立った。
Google検索にはクロス言語検索機能があり、2013年に削除されました。

Noisy text analytics とは

ノイズの多いテキスト分析は、ノイズの多い非構造化テキストデータから構造化または半構造化情報を自動的に抽出することを目的とする情報抽出のプロセスです。多くの一般的なアプリケーションではノイズの多いテキストデータが生成されるため、テキスト解析は膨大な量のデータが作成されるために価値が高い、成長し成熟した分野ですが、ノイズの多いテキストの処理が重要になります。雑音の多い構造化されていないテキストデータは、オンラインチャット、テキストメッセージ、電子メール、掲示板、ニュースグループ、ブログ、Wiki、Webページなどの非公式の設定で見つかります。また、自動音声認識と光学文字認識を用いた印刷または手書きのテキストを用いて自然音声を処理して生成したテキストには処理ノイズが含まれている。このような状況下で作成されたテキストは、通常、スペルミス、略語、非標準単語、間違った開始、繰り返し、句読点の欠落、大文字小文字の情報の欠落、「um」や「uh」といった他のテキストや音声不快感。このようなテキストは、コンタクトセンター、チャットルーム、テキスト文書の光学文字認識(OCR)、ショートメッセージサービス(SMS)テキストなどで大量に見ることができます。歴史的な言語の文書は、今日の知識に関しても言語。このようなテキストには重要な歴史的、宗教的、古代の医学知識が含まれています。これらのすべてのコンテキストで生成されるノイズの多いテキストの性質は、伝統的なテキスト分析手法を超えて移動する必要があります。

Multi-document summarization とは

マルチドキュメント要約は、同じトピックについて書かれた複数のテキストから情報を抽出することを目的とした自動手順です。結果として得られるサマリレポートにより、プロフェッショナルな情報コンシューマなどの個々のユーザーは、大きなドキュメントクラスタに含まれる情報をすばやく理解できます。このようにして、マルチドキュメント集計システムは、情報過負荷に対処する次のステップを実行するニュースアグリゲータを補完しています。