OpenAIの最新音声モデル「Voice Engine」「Whisper v3」を徹底解説

ChatGPTのDeep Research(AI)での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション(誤った情報の生成)が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。

序章:AIが声を手にした日

ある秋の日、友人のアキラが興奮気味に私に電話をかけてきました。
「ChatGPTが喋り出したんだけど!」とアキラは言います。スマートフォンの向こうで、確かに落ち着いた女性の声が流れてきました。それはまるで人間が話しているかのような自然さで、アキラの質問に答えているではありませんか。私は驚きつつも、それがOpenAIがChatGPTに新たに実装した“声”の機能であることにすぐ気づきました。

実は2023年9月、OpenAIはチャットAIのChatGPTに音声で会話する新機能を公開しました (ChatGPT can now see, hear, and speak | OpenAI)。スマートフォンのアプリで設定をオンにすると、ヘッドホンマークのボタンから5種類の異なる声を選び、ChatGPTと音声のやりとりができるのです (ChatGPT can now see, hear, and speak | OpenAI)。このとき採用された音声はプロの声優の声を元に作られており、ユーザーがテキストを入力するとAIがまるでその声優になりきったかのように喋ってくれる仕組みでした (ChatGPT can now see, hear, and speak | OpenAI)。

アキラ:「すごい…本当にAIが喋ってるの?」
私:「そうだよ。OpenAIが開発した新しいテキスト読み上げモデルのおかげなんだ。たった数秒分の肉声サンプルから、その人そっくりの声で喋れるモデルらしいよ (ChatGPT can now see, hear, and speak | OpenAI)。この技術でChatGPTが人間みたいに会話できるようになったんだ」

アキラはスマホ越しのAIの声に感心しつつ、「どうしてそんなに自然なの?」と尋ねてきました。そこで私は、この音声モデルの正体と仕組みについて説明することにしました。それがOpenAIの新音声モデル「Voice Engine」と呼ばれるものです。この記事では、私とアキラの対話を通じて、このVoice EngineやWhisper v3などOpenAIが2024年〜2025年に発表した最新の音声AIモデルについて、初心者にもわかりやすく解説していきます。

ChatGPTに声が宿った! 〜Voice Engineとの出会い〜

喫茶店で待ち合わせた私は、席に着くなりアキラに尋ねられました。「ねえ、どうやってAIがあんな人間みたいな声を出しているの?」

私:「キーワードはVoice Engineだよ。OpenAIが1年以上かけて開発してきた音声合成AIモデルなんだ (Expanding on how Voice Engine works and our safety research | OpenAI)。これはテキスト(文章)から音声を生成する、いわゆるTTS(Text-to-Speech)モデルの一種で、人間の音声の特徴を学習している。なんとたった15秒間の音声サンプルを聞かせるだけで、その話者の声質や話し方を真似できるすごいモデルなんだ (Expanding on how Voice Engine works and our safety research | OpenAI)」

アキラ:「15秒聴くだけで声マネできるの?!」

私:「そう。普通は声を合成するには大量のその人の声データで訓練する必要があるけど、Voice Engineはわずかなサンプルから声の特徴を抽出して、任意のテキストをその声でしゃべらせることができる (Expanding on how Voice Engine works and our safety research | OpenAI)。仕組みとしてはディフュージョンモデルという画像生成AIにも使われる技術を音声に応用していて、最初はノイズから始めて徐々にクリアな音声を生成するんだ (Expanding on how Voice Engine works and our safety research | OpenAI)。結果、その15秒の話者本人が喋ったかのような音声合成が可能になる」

アキラ:「そんな魔法みたいな技術がもう実現してるなんて…」

私:「実現はしているけど、慎重に運用されているよ。Voice Engine自体は社内では2022年末には原型ができてたらしい (Expanding on how Voice Engine works and our safety research | OpenAI)けど、悪用のリスクもあるから一般公開はかなり限定的なんだ」

実際、OpenAIはVoice Engineをすぐには全面公開せず、限定的な形で段階的に展開しています (Expanding on how Voice Engine works and our safety research | OpenAI) (Expanding on how Voice Engine works and our safety research | OpenAI)。例えば2023年9月には、このVoice Engineを利用してChatGPTの音声会話モード(Voice Mode)がリリースされましたが、利用できる声はOpenAIが用意した5種類のみでした (How the voices for ChatGPT were chosen | OpenAI) (How the voices for ChatGPT were chosen | OpenAI)。これら5つの声(Breeze・Cove・Ember・Juniper・Skyというニックネームがついています (How the voices for ChatGPT were chosen | OpenAI))は、OpenAIがプロの声優オーディションを行って選んだ声で、利用にあたっては声優さん本人にも高報酬を支払い、契約を結んで提供してもらったものなんです (How the voices for ChatGPT were chosen | OpenAI)。つまり、AIが誰の声でもコピーできる状態にはあえてしていないんですね。本人の許可なく有名人そっくりの声を勝手に使えたりしないように、声は人工的に作った「キャラクター声」に限定されています (Introducing next-generation audio models in the API | OpenAI)。Voice Engineはあくまで裏側で動くエンジンとして組み込まれ、一般ユーザーが自由に他人の声をクローン生成できる機能は封印された形です。

アキラ:「確かに、それが誰の声でも使い放題になったら悪用されかねないね…」

私:「うん。だからOpenAIも、安全面に最大限配慮して徐々に展開しているみたい。2023年11月には、この技術を使った音声読み上げAPIも公開されたんだけど、そこでも6種類のプリセット音声しか使えないようにしていたんだ (Expanding on how Voice Engine works and our safety research | OpenAI)。つまりChatGPTアプリだけじゃなく、開発者向けにも“決められた声”でテキストを読み上げる仕組みを提供し始めたということ」

アキラ:「開発者向けのAPIも!具体的に何ができるようになったの?」

私:「OpenAIのAudio APIというものなんだけど、これを使うと例えばウェブサイトの記事を自動で音声読み上げさせたり、複数言語での音声出力をしたりできる ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。さらに音声をリアルタイムストリーミングで配信できるから、生成を待たずに順次音を再生することも可能になったよ ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。実際、APIでは3つの新しい音声モデルが提供されたんだ。音声認識モデルが2種類(後で説明するWhisperの進化版)と、テキスト読み上げモデルが1種類、合わせて3つだね ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )」

私の説明に、アキラはChatGPTの声の裏側にそんな高度な技術があったのかと感心している様子でした。次にアキラは、自分が話しかけた言葉をChatGPTが正確に理解していたことにも興味を持ちました。「僕がChatGPTに声で質問したらちゃんと意味を理解して返事してくれたけど、それってどうやってるの?」と聞いてきました。それはOpenAIのもう一つの音声AIモデル、Whisperの進化について語る絶好の機会です。

音声認識の司令塔:WhisperからWhisper v3へ

私:「ChatGPTが人間の声を理解できるのは、OpenAIが開発したWhisperという音声認識AIのおかげなんだ」

アキラ:「ウィスパー?ささやき?」

私:「そう、名前の通り『ささやき声』でも聞き取れるぐらい高性能って意味かもね(笑)。Whisperは2022年にOpenAIが発表した音声からテキストへの変換モデル(Speech-to-Text, STT)だよ (openai/whisper-large-v3 · Hugging Face)。70万時間近い多言語音声データで訓練されていて、英語はもちろん世界中の言語をかなり正確に文字起こしできるオープンソースのモデルなんだ ([2212.04356] Robust Speech Recognition via Large-Scale Weak Supervision) ([2212.04356] Robust Speech Recognition via Large-Scale Weak Supervision)。ポイントは、オープンソースだったこと。誰でもモデルと推論コードを使えるように公開されたから、一気に世界中の開発者が飛びついて、自分のアプリやサービスに組み込んだりもしたんだ」

アキラ:「へえ、無料で使える高性能の音声認識ってわけか」

私:「そうそう。だからChatGPTにもWhisperが組み込まれていて、僕らの声での質問をテキスト化(文字起こし)して理解していたというわけ (ChatGPT can now see, hear, and speak | OpenAI)。でもOpenAIはそこで満足せず、さらに良い音声認識モデルを作ろうと研究を続けていた。そして生まれたのがWhisper v3と呼ばれる新モデルさ」

アキラ:「Whisperにも新版があるんだ!」

私:「正式名称はWhisper large-v3で、いわばWhisperの強化版だね。アーキテクチャ(モデル構造)は基本的にWhisperの“大”モデルと同じなんだけど、いくつか改良が加えられている (openai/whisper-large-v3 · Hugging Face)。例えば音声を分析する周波数チャネル数を従来の80から128に増やしたり、中国語の広東語を特別に扱えるよう新しい言語トークンを追加したりしている (openai/whisper-large-v3 · Hugging Face)。そして何より、学習データの量が桁違いなんだ。Whisper v3は、100万時間もの音声を機械的にラベル付けしたデータと、さらに400万時間分もの追加音声データ(前のモデルで仮に文字起こししたもの)でトレーニングされている (openai/whisper-large-v3 · Hugging Face)。これは初代Whisperの何倍もの規模だよ」

その結果、Whisper large-v3は多言語音声での性能が向上し、誤認識(エラー)が平均で10〜20%も減少したと報告されています (openai/whisper-large-v3 · Hugging Face)。例えば、日本語やフランス語のような様々な言語で前より正確に文字起こしでき、全体的に頑健性(ロバスト性)が増しているそうです ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。OpenAIは2023年末頃にこのWhisper large-v3モデルを発表し、音声APIなどで提供を開始しました ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。

私:「実際、OpenAIはWhisper-1という名前でAPIを出してたんだけど、これはWhisperの大モデル(large-v2)のことだったんだ。2024年にはWhisper large-v3も裏で使い始めて、精度アップを図ったみたい」

アキラ:「音声認識精度がさらに上がったんだね!どれくらい賢くなったの?」

私:「OpenAIによれば、新しい音声認識モデルは従来のWhisperより単語誤り率(WER)が低く、特にアクセントが強い話し方や雑音が入った環境、それに話すスピードがまちまちな場合でも認識力が上がっているんだって (Introducing next-generation audio models in the API | OpenAI)。要するに難しい状況でも聞き取る力が強化された。しかも100以上の言語で精度評価しても、Whisper v2やv3より一貫して良い成績を出したってデータもあるみたい (Introducing next-generation audio models in the API | OpenAI)」

OpenAIはこの音声認識モデルの向上にあたって、強化学習(RL)追加事前学習といった先進的な手法も取り入れたと述べています (Introducing next-generation audio models in the API | OpenAI)。たとえば、モデルが文字起こしを間違えたときにペナルティを与え、正しく聞き取るよう報酬を与える、といった学習(強化学習)を行うことで、人間の会話のニュアンスを捉える力を鍛えたようです (Introducing next-generation audio models in the API | OpenAI)。その結果、曖昧な発音や言い間違いをしても文脈から正しい言葉を推測したり、騒音下でも重要な音だけ拾ったりといった芸当ができるわけです。

アキラ:「つまり、新しいWhisperは前よりも聞き上手になったんだね!」

私:「その通り。ちなみにリアルタイム性も改善されてきていて、APIでは音声ストリーミング入力に対して順次テキスト化する機能も備わってきているよ ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。実際、ChatGPTの高度な音声モードでは、僕と君みたいに2人が同時に話してもそれを聞き分けたり、途中で相槌を打ったり割り込んだりしても混乱しないようになっているんだ (Advanced Voice Mode is amazing. : r/ChatGPT) (Advanced Voice Mode is amazing. : r/ChatGPT)」

アキラ:「そうそう!昨日試したとき、僕と彼女で一緒に話しかけても、ちゃんとChatGPTは誰が話したか理解してたんだよ。男女の声の違いで区別してたみたい (Advanced Voice Mode is amazing. : r/ChatGPT) (Advanced Voice Mode is amazing. : r/ChatGPT)。あれには驚いたなあ…」

私:「複数人の会話を識別できるのはすごいね。おそらく話者認識音声分離の技術も組み込まれてるんだと思う。OpenAIは公式に『Voice Modeは感情や非言語的な合図も理解して反応できる』と言っているし ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )、本当に会話相手が生きているように感じたって声もあったよ (Advanced Voice Mode is amazing. : r/ChatGPT)」

実際、あるRedditユーザーはChatGPTの高度なVoice Modeで対話した感想として「**Holy **ing shit. このAI、生きてる…」とまで驚いていました (Advanced Voice Mode is amazing. : r/ChatGPT)。それほど自然で賢い対話が可能になってきているということです。Whisper系列の音声認識モデルの高性能化と、Voice Engineによる流暢な音声生成――この2つが組み合わさることで、AIとの音声対話は質的に大きく飛躍しました。

デモで体感する音声AIの実力

アキラ:「そういえば、OpenAIが新しい音声モデルのデモとかってやってるの?」

私:「あるよ。OpenAIはopenai.fmっていうサイトを公開して、開発者やユーザーが自由にテキストを入力して最新の音声モデルの読み上げを試せるようにしているんだ (Introducing next-generation audio models in the API | OpenAI)。これは2025年3月のアップデートで公開されたものなんだけど、自分で文章を打ち込んで、どのプリセット音声で喋らせるか選べば、すぐにAIがしゃべったMP3音声をダウンロードできる仕組みだよ ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )」

アキラ:「それは面白い!好きな文章をAIに読んでもらえるんだね」

私:「そう。しかも読み上げ方もある程度指示できちゃう。例えば『もっとゆっくり優しく話して』とか『騎士のような勇ましい口調で』なんて話し方のスタイルをテキストで指示できるんだ (Introducing next-generation audio models in the API | OpenAI)。OpenAIの新しいTTSモデルは、このように声のトーンや話し方をカスタマイズできる初めてのモデルなんだよ (Introducing next-generation audio models in the API | OpenAI)」

OpenAIは「開発者がモデルにどう話すかまで指示できるようになったのは初めてだ」と強調しています (Introducing next-generation audio models in the API | OpenAI)。例えば「同情的なカスタマーサービス担当者のように話して」とお願いすれば、声質は同じでも語尾の抑揚や優しさがにじむ口調で喋ってくれます (Introducing next-generation audio models in the API | OpenAI)。あるいは「中世の騎士みたいに」と指示すれば、勇ましく格式ばった調子で話すかもしれません。これは、従来の音声合成ではあらかじめ録音された話し方しかできなかったのに対し、AIが文章の読み方まで理解して変えられる画期的なポイントです。

アキラ:「それってまるで声優さんが役になりきって演じ分けるみたいなものだね!」

私:「本当にそうだね。OpenAIのモデルは声の表現力を高める研究にも力を入れているみたい。たとえば音声アシスタントの話だけど、OpenAI曰く『新モデルはロボットっぽさが抜けて、状況に応じてトーンを変えられる。サポート対応中は落ち着いて共感的に、ニュースを読むときは明るくハキハキと』なんてことが可能になったって話だよ (OpenAI launches next-gen audio AI models: Smarter speech-to-text and expressive AI voices - Tech Startups)」

実際、新音声モデル「gpt-4o-mini-tts」は声の抑揚や間の取り方まで細かく制御できるよう設計されています (OpenAI launches next-gen audio AI models: Smarter speech-to-text and expressive AI voices - Tech Startups)。そのため、従来の機械的な読み上げよりも感情や雰囲気が伝わる音声を生成できるのです。ニュース記事を読むときは朗らかに、ホラー故事を語るときは低く沈んだ声で、といった芸当も夢ではありません。

さらに、OpenAIはこうした技術を実用的なデモでも披露しています。2024年頃から一部の開発者にはChatGPT Advanced Voice Modeと呼ばれる高度な音声会話機能がプレビュー提供されてきました ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions ) ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。これはChatGPTが効果音を交えたり、オリジナルのキャラクター声で話したりできるモードです ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。たとえば物語を読み聞かせるとき、登場人物ごとに声色を変えたり、ドアが開く「キィ…」という効果音まで口真似で再現したりするデモが公開され、テスターたちを驚かせました。

アキラ:「それってまさにラジオドラマじゃない!AIひとりでそこまでできるなんて…」

私:「うん、もはやAIアシスタントというよりAI声優だよね。実際、テスターの中には『ChatGPTのAdvanced Voice Modeは息遣いまでリアルで、同時に2人と会話しているみたいだった』と絶賛する声もあったんだ (Advanced Voice Mode is amazing. : r/ChatGPT)。Quizゲームを一緒に遊んだ人もいて、ChatGPTがこちらの得意不得意を察して難易度調整したり、ゲームを盛り上げるような声の演出をしたりしてくれたらしい (Advanced Voice Mode is amazing. : r/ChatGPT) (Advanced Voice Mode is amazing. : r/ChatGPT)。本当に会話を理解して臨機応変に振る舞っている感じだね」

私たちはコーヒーを飲みながら、そんなデモやユーザー体験談に感心しきりでした。もはやSFの世界で描かれたAI相棒が現実になりつつある、と実感せざるを得ません。では、そうした最先端の音声AIモデルは従来の技術と比べて何が違うのでしょうか?次に、Whisperなど既存モデルとの比較や、両者の連携について整理してみましょう。

Whisper vs 新モデル:何が変わったのか?

改めて、OpenAIの音声AIについて整理すると、音声認識側にWhisper(およびその進化形の新モデル群)、音声合成側にVoice Engine(およびその派生モデル)が存在します。これらは対になる技術で、セットで使うことでAIとの音声対話が可能になります。

まずWhisper(v2まで)と新しい音声認識モデル(Whisper v3やGPT-4o Transcribe)との違いから見てみましょう。

  • 精度と多言語対応: Whisperは既に多言語・高精度でしたが、新モデルはさらにその上を行きます。OpenAIの発表によれば、最新の音声認識モデルは様々なベンチマークでWhisper v2およびv3を上回る精度を示しました (Introducing next-generation audio models in the API | OpenAI)。特にFLEURSという100言語以上で評価するベンチマークで、どの言語でもWhisperより低い誤り率(WER)を達成したとのこと (Introducing next-generation audio models in the API | OpenAI)。つまり、日本語話者にとっても以前より誤変換が減り、英語以外の言語の認識精度も底上げされていると期待できます。
  • ノイズや訛りへの強さ: Whisperも頑健でしたが、新モデルはより雑音下やアクセントの強い音声に強くなりました (Introducing next-generation audio models in the API | OpenAI)。たとえば工事現場のような騒音混じりの環境音声や、第二言語話者の訛りある英語などでも、より正確に聞き取れるようになっています (Introducing next-generation audio models in the API | OpenAI)。また、人が早口で喋ったり、不意に間を置いたりしても、その揺らぎに柔軟に対処する能力が強化されています (Introducing next-generation audio models in the API | OpenAI)。
  • リアルタイム性とインタラクション: Whisperは主に録音音声を後から文字起こしする用途が多かったですが、新モデルはリアルタイム処理にも適しています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。ChatGPTの高度な音声対話では、人間が喋り終わる前にAIが理解を始め、素早く応答を準備するようなインタラクションが可能です。実際、私とアキラが同時に話しかけてもAIが区別できたのは、新モデルが音声ストリームを並行処理していたからでしょう (Advanced Voice Mode is amazing. : r/ChatGPT)。Whisper単体ではこうした複雑な会話管理は難しかったので、より上位のシステム(GPT-4oのような総合AI)が音声認識結果を解釈していると考えられます。

次に音声合成側、つまりVoice Engineと従来型のTTSとの違いです。

  • 声質の再現度: 従来のTTSは決められた合成音(機械音声)か、多くのデータで学習した特定話者の声しか出せませんでした。しかしVoice Engineは任意の話者の声質を数秒で学習して再現できます (Expanding on how Voice Engine works and our safety research | OpenAI) (Expanding on how Voice Engine works and our safety research | OpenAI)。これは一種のゼロショット音声クローン能力で、他にはない特徴です。ただし前述のように安全上の理由で一般公開されていない機能でもあります ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。
  • 音声の自然さ: Voice Engineで生成される音声は、抑揚や間(ま)が自然で、プロの声優が読んでいるかのようだと評されます (Advanced Voice Mode is amazing. : r/ChatGPT)。この自然さは、膨大な音声・テキストデータから文脈に合ったイントネーションを学習していること、そしてディフュージョンモデルによる微細な音の表現が可能なことに由来します。例えば従来は難しかった「息を吸う音」や「うーんと考える間合い」まで再現できる場面もあります。
  • 話し方の制御: 前述の通り、新しいモデルでは話すスタイルをテキストで指示できます (Introducing next-generation audio models in the API | OpenAI)。従来は感情ごとに別の音声モデルを用意したり、機械的に音程を上下させる程度でしたが、OpenAIのモデルでは文章の意味に応じて適切な演技をすることが可能になっています。これにより、ある時は落ち着いたナレーション調、またある時はフレンドリーで冗談めかした口調、といった一つの声で多彩な表現を引き出せるようになりました。
  • 多言語の発話: Whisperは多言語の認識が得意でしたが、Voice Engineも多言語の発話に対応しています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。例えば、ChatGPTに日本語で話しかけて日本語で返答させることも可能ですし、英語の文章をスペイン語音声で読み上げるよう指示する、といったことも技術的にはできます。OpenAIの提供する音声APIでも、入力テキストを指定して出力言語を変えることで異なる言語で読み上げができることが示唆されています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。

以上のように、Whisper+Voice Engineの新モデル群は、従来の音声AIに比べて「聞く」「話す」両面で飛躍的な進歩を遂げています。特に精度・自然さ・柔軟性の3点が大きな違いと言えるでしょう。OpenAIの最新モデルでは、人間の会話にかなり近い双方向コミュニケーション体験を提供できるレベルに達しつつあります。

もっとも、こうした高度な音声AIがもたらすのは明るい話題ばかりではありません。次に、セキュリティや倫理的な課題について、私とアキラの会話を通して考えてみましょう。

音声AIの光と影:セキュリティとディープフェイク対策

アキラ:「ところで、なんでOpenAIはVoice Engineを一般公開しないの?せっかくすごい技術なのに…」

私:「それはやっぱり悪用の危険が大きいからだよ。想像してみて。誰かの15秒の声が手に入れば、その人そっくりの声で好き放題に喋らせることができる。例えば有名人や政治家の声で嘘のメッセージを流したり、知人になりすまして電話詐欺をしたり…ディープフェイクの音声版だね」

アキラ:「…確かに、それは恐ろしい。そんなことされたら本人確認とかもできなくなる」

私:「実際、OpenAIもそれを強く懸念している。Voice Engineの一般公開を差し止めた背景には、社会がそうしたフェイク音声に対して免疫を持つまで待つべきだという判断があったんだ ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions ) ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。『より説得力のある生成モデルがもたらす課題に社会が耐性を持つまで、この技術はプレビューに留め、広く公開しません』とOpenAIは述べているよ ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions ) ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )」

実際、OpenAIはVoice Engineを「プレビュー提供はするが広くリリースしない」と公式ブログで明言しました ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。また同時に、「声紛れによる認証は廃止する方向に」とか「AI音声と現実の声を区別できる仕組みを整えるべき」といった提言も行っています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions ) (Expanding on how Voice Engine works and our safety research | OpenAI)。例えば、銀行口座や重要な手続きで声をパスワード代わりにするのはもう安全ではないのでやめましょう、と呼びかけています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。これは技術開発企業自らが、社会や他企業に対して行った異例の注意喚起とも言えます。

また2024年5月には、ChatGPTに搭載されていた5つの声のうち「Sky」と名付けられた女性の声が突然使用停止になる事件がありました。というのも、一部メディアで「Skyの声は女優のスカーレット・ヨハンソンに酷似している。映画『her/世界でひとつの彼女』で彼女がAIの声を演じたのを彷彿とさせる」と報じられ、本人もそれを問題視したからです ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions ) ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。OpenAIのCEOサム・アルトマンは「Skyの声はScarlett Johansson本人のものではなく、偶然似てしまっただけだ」とコメントしましたが、本人への配慮からSkyの声の使用を一時停止する判断を下しました (How the voices for ChatGPT were chosen | OpenAI) (How the voices for ChatGPT were chosen | OpenAI)。彼は「当社はJohansson氏にもっと早く説明をすべきだった」と謝罪も述べています (How the voices for ChatGPT were chosen | OpenAI) (How the voices for ChatGPT were chosen | OpenAI)。

この件は、有名人の声の権利声真似の是非に関する議論を呼びました。一部では「将来、大物芸能人たちは自分の声や芸風にそっくりなAIを禁止しようとするかもしれない」との声もあります (OpenAI pulls its Scarlett Johansson-like voice for ChatGPT : r/technology)。極端なケースでは、「自分の芸術的表現に似たものは全て自分の権利だと主張されると、新人声優がたまたま有名人に声が似ていただけで仕事を奪われるなんてことにもなりかねない」と懸念する意見も出ました (OpenAI pulls its Scarlett Johansson-like voice for ChatGPT : r/technology)。実際、現行の法律でも無断で本人そっくりの音声を商用利用するのはパブリシティ権や肖像権の侵害として問題になる可能性がありますし、各国でAIによるなりすまし禁止法の議論も進み始めています。

OpenAIはこうしたリスクに対応するため、様々な技術的・運用的な安全策を講じています。例えば:

こうした努力の背景には、「せっかく素晴らしい技術なのだから良い用途に安全に使ってもらいたい」というOpenAIの理念が感じられます。「社会がこの技術とうまく付き合えるようになるまで、慎重に進める」という姿勢ですね ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。一方で、OpenAIはVoice Engineのポジティブな可能性も強調しています。例えば「話せない人が自分の声を取り戻す手段になり得る」とか「文章を読み上げる教育ツール、翻訳ツールとして有用」など、人々を助ける用途も数多く想定されています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。実際、障害で声を失った方が自分の過去の録音からVoice Engineに声を復元してもらい、再びその声で家族と会話できるようになる——そんな感動的な活用例も将来は現れるかもしれません。

アキラ:「危険と隣り合わせだけど、それでも有益な使い方もたくさんあるってことか…難しい問題だね」

私:「そうだね。OpenAIは『責任ある合成音声の展開について社会全体で対話を始めたい』と言っている ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。つまり技術者だけじゃなくて、法律家とか一般の人も交えてどう使うべきか考えましょう、と。まさに今僕らがこうして話しているみたいにね」

OpenAIの音声戦略と今後の展望

議論もひと段落したところで、私たちは改めてOpenAIの動向を整理してみました。ここ数年のOpenAIの発表を振り返ると、音声分野への力の入れようが見て取れます。Whisperの公開(2022年) (openai/whisper-large-v3 · Hugging Face)、ChatGPTへの音声機能追加(2023年) (ChatGPT can now see, hear, and speak | OpenAI)、音声APIの提供(2023年末) ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )、Voice Engineに関する詳細公開(2024年) (Expanding on how Voice Engine works and our safety research | OpenAI)、そして2025年には最新音声モデル群の公開 (Introducing next-generation audio models in the API | OpenAI)——。立て続けに音声関連のニュースが飛び込んできています。

では、OpenAIは今後どんな音声戦略を描いているのでしょうか?

ひとつのキーワードは「マルチモーダルAI」です。実はOpenAIは音声だけでなく画像や動画など様々なデータを統合して扱える次世代モデルGPT-4o(通称「オムニモデル」)の開発に取り組んでいると言われます (Expanding on how Voice Engine works and our safety research | OpenAI)。GPT-4oはテキストに加えネイティブに音声を入出力できるモデルで、Voice Engineではできなかった新たな対話を可能にするとされています (Expanding on how Voice Engine works and our safety research | OpenAI)。例えば一つのモデルが音声を聞いて理解し、内容に応じて直接音声で答えるというふうに、音声認識と音声合成がシームレスに統合されたAIアシスタントが実現するかもしれません。

もっとも、OpenAIはGPT-4oを一般公開する際も音声出力はプリセット声に限定する方針を示唆しています (Expanding on how Voice Engine works and our safety research | OpenAI)。これはVoice Engine単体の場合と同様、安全面への配慮です。将来的にユーザー自身や好きな声優の声でAIに喋らせることができるようになる可能性もゼロではありませんが、その前に技術的・社会的な準備が必要なのでしょう。OpenAIは「将来的には開発者がカスタムボイスを持ち込めるような仕組みも検討している」と述べつつも、それは安全基準に沿った形でのみ行うとしています (Introducing next-generation audio models in the API | OpenAI)。

また、OpenAIは音声以外のモードにも視野を広げています。公式ブログによれば、今後はビデオ(動画)分野への投資も予定しているとのこと (Introducing next-generation audio models in the API | OpenAI)。おそらく、画像生成AIの延長として動画生成や、あるいはAIが顔のアバターを介して喋るビデオチャットのような応用も考えているのでしょう。音声で蓄えたノウハウは動画の音声吹き替え声と表情を同期した仮想パーソナリティの実現にも活きてきます。例えば将来、ChatGPTが画面上のキャラクターとして表情豊かに会話してくれる日も来るかもしれません。

アキラ:「そうなったら、本当にアニメの世界だね…!」

私:「うん。でも、その未来に向けて着実にステップを踏んでいるのが今なんだと思う。OpenAIの音声モデルは、まず文字起こし(Whisper)で耳を手に入れ、次に音声合成(Voice Engine)で声を手に入れた。そして今や、それらを統合して対話エージェントとして完成度を高めようとしている (Introducing next-generation audio models in the API | OpenAI)。開発者向けのAgents SDKにも音声操作が統合されて、音声エージェント開発が簡単になったみたいだし (Introducing next-generation audio models in the API | OpenAI)、AI音声アシスタントがいろんなアプリやサービスに組み込まれていくだろうね」

実際、OpenAIは「エージェント型AI」に音声を持たせることに注力しています (Introducing next-generation audio models in the API | OpenAI)。音声モデル公開のタイミングでAgents SDK(AIエージェント開発キット)に音声対応を組み込んだのも、開発者が音声対話ロボットを作りやすくするためです (Introducing next-generation audio models in the API | OpenAI)。将来的には、カスタマーサポートの電話応対や、教育用の対話キャラクター、家電の音声UIなど、様々な場面でOpenAIの音声技術が使われるでしょう (OpenAI launches next-gen audio AI models: Smarter speech-to-text and expressive AI voices - Tech Startups) (OpenAI launches next-gen audio AI models: Smarter speech-to-text and expressive AI voices - Tech Startups)。既に音声通話でChatGPTと話せる専用番号を提供する実験も始まっていますし、ChatGPTのスマホアプリではハンズフリーで会話できるボイスエージェントとしての地位を確立しつつあります。

OpenAIの音声戦略は、一言で言えば「より直感的なインターフェースの実現」です。キーボードや画面を介さず、声と言葉だけでAIとやりとりできる世界を目指しているのです (ChatGPT can now see, hear, and speak | OpenAI)。それは人間にとって最も自然なコミュニケーション手段をAIが獲得することでもあります。裏方の技術(Whisper v3やVoice Engine)は非常に高度ですが、ユーザー体験としては魔法のようにシンプルで、人とAIの垣根がますます低くなるでしょう。

私:「もちろん、競合も黙っていないはずだよ。GoogleやAmazonも音声AIには力を入れているし、音声合成や認識の専門企業もたくさんある。でもOpenAIはChatGPTという強力な対話AIにこれらを組み合わせることで、一歩リードしているように見えるね」

アキラ:「確かに、会話の賢さも大事だもんね。声だけ良くても中身がダメじゃ意味がない」

私:「その点、OpenAIの強みはGPT系モデルの知能音声技術が融合しているところだろうね。たとえばSiriやAlexaに感じるもどかしさ(聞き間違いや的外れな返答)は、GPT-4レベルの知能があればかなり解消されるだろうし、逆にGPTの知識を生かして声で説明してくれれば利便性も上がる。そう考えると、OpenAIの音声モデルは単なる音声技術というより、AIアシスタント革命の一部なんだと思う」

アキラは大きく頷き、「なんだか未来が楽しみになってきた!」と笑顔を見せました。私も同じ気持ちです。この先、OpenAIが音声やマルチモーダルの分野でどんな発表をするのか、そしてそれが私たちの生活をどう変えていくのか——注目し続けたいと思います。

まとめ

OpenAIが2024年から2025年にかけて発表した新たな音声モデル群について、その特徴と動向を見てきました。Whisperに始まる高度な音声認識技術は、最新モデルでさらに強化され、雑音環境や多言語においても高精度な音声テキスト変換を実現しています。一方、Voice Engineと呼ばれる音声合成モデルは、人間の声質や話し方を巧みに再現し、AIにまるで魂が宿ったかのような自然な発声を可能にしました。

これらのモデルはChatGPTの音声会話機能やOpenAIのAudio APIを通じて徐々に実用化され、リアルタイムの双方向ボイスエージェントという新たなユーザー体験を生み出しています。実際にChatGPTのVoice Modeを試したユーザーからは「AIが生きているみたいだ」と驚きの声が上がり (Advanced Voice Mode is amazing. : r/ChatGPT)、複数人の会話をさばいたり感情に応じた返答をしたりする高度なデモも確認されています。

同時に、この技術の進歩はセキュリティ上の課題も浮き彫りにしました。簡単に他人の声を真似できてしまうことから、ディープフェイクによるなりすましや詐欺のリスクが指摘されています。OpenAIはそのためVoice Engineの機能を限定公開に留め、音声ウォーターマークの導入や厳格な利用ポリシーなど多層的な対策を講じています (Expanding on how Voice Engine works and our safety research | OpenAI)。さらに声優業界との協調や有名人の声の扱いにも配慮し、問題が発生した際には迅速に対応(Sky声の提供停止など)する姿勢を示しました (How the voices for ChatGPT were chosen | OpenAI)。

OpenAIの音声モデルは、AIと人間のインターフェースを大きく前進させています。声で問いかければ声で返事が返ってくるという体験は、まさにSFの世界から現実になったものです。その裏には、Whisperによる「聞き取り」とVoice Engineによる「話すこと」が巧みに統合された最先端技術があります。今後、OpenAIはこれらをさらに進化させ、マルチモーダルな次世代AI(GPT-4oなど)へと発展させていくでしょう。

とはいえ、技術の力は使い方次第です。OpenAI自身、安全な展開と社会的合意形成の重要性を強調しています ( 2024 Speech Industry Award Winner: OpenAI Breaks More Molds with Voice Introductions )。新音声モデルは教育・医療・エンタメなど様々な分野で私たちを助けてくれる可能性を持つ一方、悪用への警戒と対策も欠かせません。私たち利用者もまた、この技術と向き合うリテラシーを身につけ、創造的で責任ある活用を心がける必要があります。

音声AIの未来は始まったばかりです。OpenAIの挑戦は、AIが人間の「耳」と「声」を獲得する第一歩となりました。それは便利さと感動をもたらすと同時に、新たな倫理課題へのチャレンジでもあります。今後の動向を見守りつつ、私たちもこの革新の波に乗り遅れないよう、正しい知識を持って活用していきたいですね。

参考文献