AI音声クローン

今日は、非常に素晴らしい AI 音声クローンツールである Speaking AI を紹介します。このツールはテキストを自然な音声に変換することができ、ユーザーの声を無料でクローンすることもサポートしています。

Speaking AI の紹介

Speaking AI は、Harry Zheng が創設したスタートアップ企業であり、チームメンバーも中国人です。この会社は、対話型の音声生成が人間と人工知能の未来のインターフェースを代表しているという信念を持ち、音声クローンをより自然に聞こえるようにし、人間と人工知能の間の相互作用方法に根本的な変化をもたらすことを目指しています。

Speaking AI には現在、テキストから音声への変換と音声クローンの 2 つの主要な機能があります。特に音声クローンの機能は非常に優れており、ほぼ人間のように話すことができます。

Speaking AI は現在、中国語と英語のテキストを音声に変換することをサポートしており、さらに 5 つの有名人の音声テンプレートも提供しています。この機能は現在無料で利用できますが、利用者が多い場合は待ち時間が発生することがあります。Speaking AI は、自分自身や他の人の声をクローンすることもサポートしており、オンラインで 10 秒の音声を録音するか、ローカルの音声ファイルをアップロードしてリアルタイムに変換することができます。録音時の話し方やトーンは最終的な合成効果に影響を与えますし、Speaking AI のモデルはテキストの内容に基づいて適切な感情的な基調を自動的に選択します。

注意：他人の声をアップロードする場合は、相手の同意を得る必要があり、合成された音声を違法、詐欺、有害な目的で使用することはできません。

創設者によると、Speaking AI は現在 V1 モデルであり、デモ版としての性能が限定されていますが、数週間以内に改善される予定です。公式はすでに V2 モデルの開発を進めており、さらに多くの言語をサポートし、音声クローンの速度と品質を向上させる予定です。
今日紹介した Speaking AI 以外にも、市場には多くの成熟した AI 音声生成アプリやオープンソースツールがあります。

例えば、注目を集めている Elevenlabs は、数分でユーザーの個人の声をクローンし、新しい音声を合成することができます。また、中国語など 28 種類の言語にテキストを変換することもサポートしており、さまざまな感情で演じることもできます。現在、ビデオの自動翻訳と音声合成の機能も提供しています。Elevenlabs は翻訳、映画やゲームの音声演技、オーディオブック制作、チャットボットの対話など、幅広い用途で利用されており、テキストから音声への変換機能は無料で利用できます。公式ウェブサイトにアクセスしてアカウントを登録すると体験することができます。

公式ウェブサイト：https://elevenlabs.io/

中国の NetEase Youdao テクノロジーチームは、11 月に自社開発の音声合成（TTS）エンジン「EmotiVoice」をオープンソース化しました。現在、中国語と英語の両方をサポートし、2000 以上の異なる音色を含んでいます。EmotiVoice は感情合成機能もサポートしており、幸せ、興奮、悲しみ、怒りなど、さまざまな感情の音声を合成することができます。GitHub のホームページには、公式の Web インターフェースと一括生成結果のスクリプトインターフェースが提供されており、インストール後は無料で使用することができます。
GitHub のホームページ：https://github.com/netease-youdao/EmotiVoice

最近、オンラインで新しい AI 音楽合成ツール Musicfy AI を見つけました。このツールは、人の声をさまざまなタイプの楽器の伴奏に変換することができ、非常に興味深いです。これにより、伝統的な作曲のワークフローが変わる可能性があり、人々は声を使って簡単に音楽を作成することができます。音楽に興味のある方は、ぜひ試してみてください。

公式ウェブサイト：https://musicfy.lol/