WaveNet とは

WaveNetは生のオーディオを生成するための深いニューラルネットワークです。これは、ロンドンに本部を置く人工知能会社DeepMindの研究者が作成したものです。この技術は、2016年9月の論文で概説されているように、実際の人間の音声をサンプリングして波形を直接モデリングすることにより、より現実的な人間のような声を生成することができます。米国英語と北京語のテストでは、実際の人間の言論よりもまだ説得力は低いが、Googleの最高のテキスト読み上げ(TTS)システムよりも優れていることが明らかになった。生の波形を生成するWaveNetの能力は、音楽を含むあらゆる種類のオーディオをモデル化できることを意味します。カナダに本拠を置くスタートアップLyrebird-AIは、異なる深い学習モデルに基づいて同様の技術を提供しています。