Cross-language information retrieval とは

クロスランゲージ情報検索(CLIR)は、ユーザのクエリの言語とは異なる言語で書かれた情報を検索することを扱う情報検索のサブフィールドです。 「クロスランゲージ情報検索」という言葉は、多くの類義語を持っています。その中で、多言語の情報検索、言語横断的な情報検索、多言語の情報検索が、おそらく最も頻繁に行われます。 「多言語情報検索」という用語は、より一般的には、多言語収集の検索技術と、ある言語の資料を別の文書に変換するために移動した技術の両方を指します。言語間情報検索は、より具体的には、ユーザーが情報ニーズを1つの言語で公式化し、システムが関連する文書を別の言語で検索するというユースケースを指します。そのために、ほとんどのCLIRシステムではさまざまな翻訳テクニックが使用されています。 CLIR技法は、異なる翻訳リソースに基づいて異なるカテゴリに分類することができます。
 辞書ベースのCLIRテクニックパラレルコーパスベースのCLIRテクニック比較可能なコーパスベースのCLIRテクニックマシントランスレータベースのCLIRテクニック
CLIRシステムは、今日最も正確な多言語およびクロス言語のアドホック情報検索システムが、単言語システムほど効果的であるように、多くの点で改善されました。メディア監視、情報のフィルタリングおよびルーティング、センチメント分析、および情報抽出などの他の関連情報アクセスタスクは、より洗練されたモデル、および一般に関心のある情報アイテムのより多くの処理および分析を必要とする。その処理の多くは、展開されるターゲット言語の詳細を認識する必要があります。
主に、人間言語の多様なメカニズムは、情報検索システムのカバレッジの課題を引き起こします。コレクションのテキストは、関心のあるトピックを扱いますが、ユーザーが指定する情報ニーズの表現に一致しない用語や表現を使用します。これは単一言語の場合であっても当てはまる可能性がありますが、これは特に言語横断的な情報検索において真実です。ターゲット言語での能力の低い者から適度な者へのCLIRテクノロジーの利点は、流暢な人よりも大きいことが判明しています。 CLIRサービスのための特定の技術には、複合用語を扱うための変奏、逆コンパウンドまたは複合分割、およびある言語から別の言語へのクエリの翻訳メカニズムを処理する形態素解析が含まれます。
CLIRに関する最初のワークショップは、SIGIR-96会議でチューリッヒで開催されました。ワークショップは、クロスランク評価フォーラム(CLEF)の会合で2000年以来毎年開催されています。研究者はまた、毎年のテキスト検索会議(TREC)で、情報検索のさまざまなシステムと方法に関する調査結果を議論するために招集し、会議はCLIRサブフィールドの参照点として役立った。
Google検索にはクロス言語検索機能があり、2013年に削除されました。