LIVAC Synchronous Corpus とは

LIVACは他の既存のコーパスとは異なり、香港を含むPan-Chinese地域の代表的コミュニティからの大量のメディアテキストを処理し、 、マカオ、台北、シンガポール、上海、北京、広州、深センなどがあります。したがって、内容は、編集、ローカルおよび国際ニュース、クロス・フォルモサ海峡ニュース、金融、スポーツ、エンターテイメントに関するニュースから抽出されたテキストサンプルによって表されるように、ほとんどの場合意図的に繰り返されます。 2017年までに、25億文字のニュースメディアテキストがこれまでフィルタリングされており、そのうち600百万文字が処理され、分析され、汎中国語の印刷媒体から200万語の広範な中国語辞書が得られた。 LIVACは、計算方法論に基づいた厳密な分析を通じて、中国語と中国語圏のスピーチコミュニティについて、正確かつ有意義な統計データを蓄積しており、結果はかなり重要なバリエーションを示しています。
「Windows」アプローチは、LIVACの最も代表的な機能であり、場所、時間、対象ドメインなどのさまざまな属性に基づいてパン・チャイナ・メディア・テキストを定量分析することを可能にしました。したがって、情報技術における様々なタイプの比較研究および応用ならびにしばしば関連する革新的な応用の開発が可能であった。さらに、LIVACは、領域、期間などの変数に基づいて、Key Word in Context(KWIC)を促進する前後方向の開発を考慮に入れ、過去20年間の対象語およびその基礎概念ならびに言語構造の包括的な研究を可能にしましたおよび内容。 LIVACに収録されている広範囲で累積的なデータ分析の結果、適切な名前、場所名、組織名、新しい言葉、隔週および一年のメディアフィギュアの原作者のテキストデータベースの栽培が可能になりました。関連するアプリケーションには、中国メディア(LIVAC Annual Pan-Chinese Celebrity Rosters)の世界的なメディア人物の人気を測定し、比較するための、動詞と形容詞データベースの確立、情緒指数の作成、および関連する意見鉱業が含まれています。パン・チャイナ・メディア・パーソナリティ・ロスター)と毎月の新しい単語辞書(LIVAC年次パン・チャイナ・ニュー・ワード・ロスター)の作成を含む。これに基づいて、新しい言葉の出現、拡散と変形の分析、新語の辞書の公表が可能になった。