OpenAIが音声合成API「GPT-4o-mini-tts」を発表 – 対話形式で学ぶ次世代音声モデル

ChatGPTのDeep Research（AI）での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション（誤った情報の生成）が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。

はじめに

花子: 「ねえ太郎、最近“GPT-4o-mini-tts”っていう新しい音声モデルの話を聞いたんだけど、一体何なのかしら？」

太郎: 「おっ、それはタイムリーだね！2025年3月20日にOpenAIが発表した最新の音声関連APIのことだよ (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)。簡単に言うと、テキストを自然な音声に変換してくれるテキスト読み上げ（Text-to-Speech, TTS）モデルなんだ。ただし、従来のモデルと違って“話し方”まで指示できるのがポイントだよ。」

花子: 「話し方まで指示できるってどういうこと？」

太郎: 「例えば、『明るく元気なラジオDJのように話して』とか『カスタマーサービス担当者風で話して』って指定できるんだ (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)。つまり声のトーンや感情、スタイルまでコントロールできる音声合成AIということだね。」

花子: 「へえ～！それができると何が嬉しいの？」

太郎: 「これまでの音声AIは文章を読み上げるだけで、棒読みだったり感情がこもらなかったりしたけど、このGPT-4o-mini-ttsなら状況に合った口調で話せる。たとえば、お客様対応なら丁寧で申し訳なさそうな声色にしたり、物語の朗読なら登場人物ごとに声色や感情を変えたりできるんだ (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch) (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)。人間と話しているような直感的な対話エージェントに一歩近づくわけさ。」

花子: 「なるほど。じゃあ初心者の私にもわかるように、詳しく教えて！」

GPT-4o-mini-ttsの概要

太郎: 「まずGPT-4o-mini-ttsの基本を押さえよう。これはOpenAIのGPT-4世代のモデル技術を使った音声合成AIで、API経由で利用できるクラウドサービスなんだ。テキストを入力すると、その内容を音声に変換してくれる。特徴はなんといっても“steerability（スティアラビリティ）”、つまり自在な話し方の指示ができることだね。」

花子: 「そういえばGPT-4oって、GPT-4の拡張版か何か？」

太郎: 「うん、GPT-4oというのはOpenAIの新しいシリーズで、マルチモーダルにリアルタイム処理ができるフレームワークらしい (Hello GPT-4o - OpenAI)。GPT-4o-mini-ttsはその小型版モデルを音声合成用に特化させたものと考えていい。内部的には大量の音声データで事前学習されていて、音声のニュアンスまで再現できるようになっているんだ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。」

花子: 「ニュアンスまで！英語だけじゃなくて日本語もいけるの？」

太郎: 「日本語にも対応しているよ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。70言語以上で読み上げできるらしく、一つの声で多言語を話すことも可能だとか (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。ただ、OpenAI自身も『英語ほど完ぺきではないが日本語にも対応』と言っていて、やっぱり英語での合成が一番自然みたい (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた) (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。日本語だと細かな発音が少し不自然な場合もあるらしいけど、十分実用的な品質って評価だね。」

花子: 「へえ、実際どんな声が出せるの？」

太郎: 「OpenAIが用意した11種類のベース音声がプリセットされていて、それぞれにAlloyやAsh、Coral、Echoみたいな名前が付いている (New audio models from OpenAI, but how much can we rely on them?) (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。男性っぽい声、女性っぽい声、高めや低め、色々あるよ。声色ごとに音域や話し方の特徴が異なっていて、用途に合わせて選べるんだ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。しかもUI上でランダムに声を選ぶシャッフルボタンまであるらしいよ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)（笑）。」

花子: 「プリセット声優が11人いるようなものね。じゃあ好きなアニメキャラの声で…とかは無理？」

太郎: 「残念だけど、今はあくまで用意された人工音声だけみたい。自分で新しい声質を学習させることはできないんだ。 (Introducing next-generation audio models in the API | OpenAI)で『テキスト読み上げモデルの音声は人工的なプリセットのみで提供されており、常に合成音声であることを保証するようモニタリングしている』とある。要するに、現時点では勝手に実在人物の声を真似たりはできない仕組みだね。」

花子: 「安全面の配慮ってことかしら？」

太郎: 「そうだね。下手に誰の声でもコピーできたらボイスクローンの悪用になりかねないし。OpenAIは安全性を優先して段階的に公開しているんだと思う。 (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)でも、将来的には開発者がカスタム音声を持ち込めるよう検討しているけど、安全基準に沿う形で進めるって述べられているよ。」

話し方をデザインできる新機能

花子: 「次に、その“一番の特徴”だという話し方の指示について詳しく教えて！」

太郎: 「わかった。GPT-4o-mini-ttsではテキスト内容だけでなく、instructionsパラメータやテキスト中の指示で読み上げ方を細かくコントロールできるんだ。 (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)やOpenAIの発表によると、“何を話すかだけでなく、どう話すかを具体的に指示できる”という触れ込みだね。具体的にできることとして、例えば感情表現（明るい・落ち着いた・悲しい・興奮した等）、トーンやイントネーション（柔らかく・厳しく・冗談っぽく等）、話す速度や声量（ゆっくり優しく・早口で元気よく等）、さらにはささやき声や叫び声まで指定できるんだ (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所) (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)。」

花子: 「すごい！例えば具体的にどんな指示文になるの？」

太郎: 「TechCrunchの記事によると、「mad scientist（イカれた科学者）のように話して」とか「穏やかなマインドフルネスの先生のように落ち着いた声で」なんて指示の例が挙げられているよ (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)。OpenAIのデモサイトでは「中世の騎士風」「反抗期のティーンエイジャー風」なんてプリセットの“話し方スタイル”がボタン一つで選べるようになっていて、それを選ぶと声の抑揚や感情がガラッと変わるんだ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。」

花子: 「中世の騎士(笑)。そういうユニークな話し方がプリセットされてるのね。」

太郎: 「うん、“VIBE”と呼ばれる雰囲気プリセットがあって、Calm（落ち着いた）、Cheerleader（チアリーダー風）、True Crime Buff（犯罪ドキュメンタリー風）とか色々あるみたいだ (New audio models from OpenAI, but how much can we rely on them?) (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。選択すると、その雰囲気に合わせた詳細な話し方のプロンプトが内部で適用されるらしい。 (New audio models from OpenAI, but how much can we rely on them?)の画像を見ると、たとえば“声の抑揚：低く抑えたささやき声で緊張感と興味を伝える”とか“トーン：常に沈着冷静だが不穏さを含む”みたいな細かい指示が自動設定されるようだよ。」

花子: 「そんなに細かい指示まで！自分で全部書かなくてもプリセットである程度やってくれるのは便利ね。」

太郎: 「そう、プリセットを使えば初心者でも簡単に多彩な話し方を試せる。でももちろん、自分で細かくinstructionsを書けばさらなるカスタマイズも可能だ。例えば“文のこの部分はささやいて”とか、ステージディレクション（演出指示）のようなこともできるんだよ。」

花子: 「演出指示まで！？まるで声優さんに演技指導する感じね。」

太郎: 「まさに。例えばテキスト内に(Whisper this part)と書けばその部分をささやき声で言う、といったステージ指示も受け付けるようになっている (New audio models from OpenAI, but how much can we rely on them?) (New audio models from OpenAI, but how much can we rely on them?)。実際、OpenAIが公開した開発者向けデモサイト「OpenAI.fm」で試すと、台本の中に(Now sound panicked)とか書いて雰囲気を変えさせる例があるんだ (New audio models from OpenAI, but how much can we rely on them?)。」

花子: 「ほんとだ、自由度が高い分、入力する側も演出家になった気分ね。」

太郎: 「ただ注意点もあってね…。サイモン・ウィリスンという開発者が自分のブログで書いてたんだけど、台本中にこうした指示を書ける反面、普通のテキストを読ませたいときに思わぬ誤解を生む可能性があるって (New audio models from OpenAI, but how much can we rely on them?)。例えば文章中にたまたま括弧で書かれた注釈があったとするだろ？それをモデルが演出指示と勘違いしてしまうリスクがあるんだ。」

花子: 「なるほど、普通に”()”が入った文章だと混乱しちゃうかもしれないのね。」

太郎: 「そう。彼の実験では、(Whisper this bit)って入れたときに、期待通りその部分をささやくこともあれば、なぜか「Whisper」と単語で読み上げて肝心の部分を読まなかったりと、結果が安定しなかったらしい (New audio models from OpenAI, but how much can we rely on them?)。だから今のところ、複雑な指示を埋め込むときはテストをしっかりするとか、あるいはinstructionsという専用のパラメータで指示を渡すなど工夫した方がよさそうだね。」

花子: 「汎用性が増す分、ちょっとしたプロンプト設計の課題もあるってわけね。」

太郎: 「そういうこと。でも総じて、話し方のカスタマイズ機能は革新的だよ。従来のTTSではせいぜい声の高さや速度を変える程度だったけど、ここまで自由に“キャラ付け”できるのは初めてだからね (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所) (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)。学術的にも、自然言語による細かな音声スタイル制御は新しい試みみたいだ (Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey) (Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey)。」

花子: 「確かに、感情まで乗せられたらロボット感が薄れて、人と話すのに近づくわね。」

実世界での活用例

花子: 「具体的にはどんな場面で役立ちそう？」

太郎: 「いろいろ考えられるよ。OpenAIのOliver Godementさん（プロダクト責任者）は“これから数ヶ月でエージェントがどんどん出てくる”って言っている (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)。要はAIがユーザーの代わりに自律的にタスクをこなす“エージェント”の時代が来るってこと。その中で、この音声モデルは人と対話する音声エージェントを格段にリアルにしてくれるはずだ。」

花子: 「例えばカスタマーサポートのAIオペレーターとか？」

太郎: 「そう、コールセンターの自動応答がこれでもっと人間らしい応対になるかもしれない。 (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)でOpenAIのスタッフが『ミスをしたときには謝罪の感情を込めて話せるようになる』って例を出していた。機械的に「申し訳ありません」と言うんじゃなくて、本当に申し訳なさそうなトーンで謝られたら、受け取る印象も柔らかくなるよね。」

花子: 「たしかに！怒って電話してきたお客さんも、優しく共感的な声で対応されたら落ち着きそう。」

太郎: 「他には、ナレーション用途も面白い。例えばオーディオブックや動画のナレーションを自動生成する際に、このモデルなら場面やキャラクターに応じて語り口を変えることができる。 (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)にも“魅力的なストーリーテラーのように話させる”って例があったよ。子供向けには優しく朗らかに、ホラーなら緊張感たっぷりに、といった感じでね。」

花子: 「それはクリエイティブな使い方ね！ボイスドラマとかゲームのNPCのセリフ生成なんかにも応用できそう。」

太郎: 「うん、エンターテインメント分野でも活躍しそうだ。実際、日本でももう使ってみた人がいるよ。ある開発者はこのGPT-4o-mini-ttsを使ってAIキャラクターのVTuber配信をしてみたって (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P) (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P)。その人のTwitterによれば『GPT-4o Mini TTSの声に叫ばせてみたら、うるさくて面白いｗ』なんて言っていて、叫び声までかなりリアルに出せるみたい (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P) (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P)。」

花子: 「もうVTuberにまで！叫び声も出せるなんて本当に感情表現豊かね。」

太郎: 「ね。あと、ホームアシスタント（スマート家電の音声操作）に組み込む人も出てきている。 ( New Home Assistant Integration: OpenAI GPT-4o Mini TTS ️ - Share your Projects! - Home Assistant Community)のフォーラム投稿では、Home AssistantっていうスマートホームプラットフォームにGPT-4o-mini-ttsを統合して家の音声案内に使う試みが報告されてたよ。11種類の声から選べて、しかもHome AssistantのUIから簡単に使えるようにしたとか ( New Home Assistant Integration: OpenAI GPT-4o Mini TTS ️ - Share your Projects! - Home Assistant Community)。」

花子: 「家の中の案内やアラートを好きな声で、好きな話し方で喋ってくれたら楽しいわね。」

太郎: 「うん。多言語対応だから、例えばグローバルな製品に組み込めば、ユーザーの言語に合わせて同じキャラクターの声でしゃべってくれる。英語圏では英語、日本では日本語を同じ声色で、といったこともできる。これ、企業のサービス展開には地味にすごい利点だと思うんだ。【28†L142-L150]でも一つの話者ボイスで多言語を話せるのは嬉しいポイントって書かれていたね。」

花子: 「確かに、声が変わらないと“同じキャラが話してる”感じが維持できるもんね。」

太郎: 「他にも、たとえば教育の現場で使えば、優しい先生風の声で解説してくれるAIチューターとかも作れるかも。実際“忍耐強い教師（Patient Teacher）”っていう話し方プリセットもあるんだよ (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)。」

花子: 「なんか、本当に色んな分野で人間の声が欲しい場面にこのAIが入り込めそうね。」

太郎: 「その通り。どんな場面でもただの機械音声じゃなく、シチュエーションに合った話し方で喋れるのが強みだから、創意工夫次第で応用範囲は広いと思う。」

APIの使い方と料金

花子: 「そんな便利なGPT-4o-mini-ttsだけど、私みたいな開発初心者でも触れるのかな？難しくない？」

太郎: 「大丈夫、OpenAIのAPIを使ったことがある人ならとても簡単だよ。REST API経由でリクエストを送るだけだし、専用のSDKやラッパーも用意されていると思う。実際、先ほど話に出たOpenAIの公式デモサイト「OpenAI.fm」では、UI上で設定を決めると対応するAPIコード（PythonやJavaScript、curlコマンド）が表示される仕組みになっていて、コピペして試せるようになってるんだ (New audio models from OpenAI, but how much can we rely on them?) (New audio models from OpenAI, but how much can we rely on them?)。」

花子: 「それは親切！コードまで出してくれるなら真似しやすいわね。」

太郎: 「うん。エージェントSDKとも統合されていて、対話型のエージェントに音声入出力を追加するのも簡単になっているらしい (Introducing next-generation audio models in the API | OpenAI)。既にテキストベースのチャットボットを作っている開発者なら、そこにこの音声モデルをポンと追加するだけで声で応答できるボットに進化させられるわけだ。」

花子: 「それは熱いわね！で、お値段はお高いんでしょう…？」（とテレビ通販風に尋ねる）

太郎: 「ふふ、実はかなりリーズナブルなんだ。 (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)によると2025年3月時点の料金体系は、入力テキストが$0.60/100万トークン、出力音声が$12.00/100万トークンとされている。一体どのくらいのコストかピンと来ないかもしれないけど、目安として1分間の音声生成が約$0.015（約1.5セント）と試算されているよ (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所)。」

花子: 「1分で1円ちょっと！？安い！」

太郎: 「そうなんだ。実際ネット上でも「1分あたり1セント」とか「いや公式には1分$12では？」なんて混乱もあったけど、要は1分あたり数セント程度ってことだね。これだけ安ければ長時間の音声を生成するサービスでもコストは抑えられる。 (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)にもあるように、今回のモデルは性能向上だけでなく低価格化も重視されているんだ。」

花子: 「性能向上と低価格、両方実現してるのはありがたいわ。」

太郎: 「うん。しかもこの料金で商用利用もOKだから、スタートアップ企業とか個人開発者でも手軽に導入できる。クラウド上のサービスだからインフラもOpenAI任せで済むしね。」

花子: 「開発者コミュニティでも話題になりそうね。」

太郎: 「実際、LinkedInなんかでも「声の選択肢が多くてスタイル探しに最適！音質も素晴らしい」って称賛する声があったり (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)、「ElevenLabsみたいな先行の音声AIより品質は少し劣るけど、市場シェアとAPIの手軽さで有利かも」なんて比較コメントも出ていた (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)。要は“完璧なリアルさ”ではまだ敵わないかもしれないが、統合のしやすさや手軽さで広く使われるだろう”という見方ね。」

花子: 「ElevenLabsって確か高品質な音声合成で有名なサービスよね。それに追いつく日も近いのかしら。」

太郎: 「OpenAIはこれからも音声モデルの知能化と精度向上を続けるって言っている (Introducing next-generation audio models in the API | OpenAI)から、次第に差は埋まっていくかもね。実際、Whisperという既存の音声認識モデルを上回る精度の新モデルも同時に発表して話題になったくらいだから (Introducing next-generation audio models in the API | OpenAI) (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)、音声分野全体で着実に進歩している。」

花子: 「なるほど、音声認識（聞き取り）のほうも強化されたのね。それがgpt-4o-transcribeとかいうモデル？」

太郎: 「そうそう。音声認識（Speech-to-Text）のgpt-4o-transcribeやgpt-4o-mini-transcribeも同時公開されていて、Whisper v2やv3よりも文字起こし精度が上がったらしい (Introducing next-generation audio models in the API | OpenAI) (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)。雑音環境や訛りにも強くなったとか (Introducing next-generation audio models in the API | OpenAI) (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)。それと組み合わせれば音声→テキスト→音声の双方向がかなり高精度でできるわけで、これもまた大きな利点だね。」

花子: 「確かに。電話会議をリアルタイムで翻訳音声付きでやる、なんてことも夢じゃないかも？」

太郎: 「充分あり得る。そうしたマルチモーダルなエージェントが、OpenAIの目指す次のステップなんだと思う。 (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)でも“エージェント的な自動システム”というキーワードが語られていたしね。」

おわりに

花子: 「今日はGPT-4o-mini-ttsについて色々教えてもらって、私も試したくなっちゃった！」

太郎: 「ぜひぜひ！OpenAIのAPIキーさえ持っていれば、すぐにこの音声モデルを使って遊べるからね。まずはOpenAI.fmでデモを触ってみるといいよ。きっと自分の文章が生き生きと喋り出すのに感動すると思う。」

花子: 「ありがとう太郎。最後にまとめると、このGPT-4o-mini-ttsはテキストを自然な声で読むだけでなく、その場面にふさわしい話し方までデザインできる画期的なモデルというわけね (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所) (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)。価格も安く、すでに色んな開発者が実験を始めている (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P) ( New Home Assistant Integration: OpenAI GPT-4o Mini TTS ️ - Share your Projects! - Home Assistant Community)。これから私たちの周りのAIがますます人間らしく喋り出すかと思うとワクワクするわ！」

太郎: 「うん、僕もだよ。音声AIの進化で、人とAIのコミュニケーションがもっと自然で楽しいものになるといいね。では早速、一緒に試してみようか！」

参考文献

公式サイト・ドキュメント

OpenAI (2025) 「Introducing our next-generation audio models」 – 新たな音声認識・合成モデルのAPI提供開始 (Introducing next-generation audio models in the API | OpenAI) (Introducing next-generation audio models in the API | OpenAI)
OpenAI APIリファレンス (2025) 「Text-to-Speechモデル: GPT-4o-mini-tts」 – モデル概要と使用方法 (〖解説〗GPT-4o-mini-tts API入門：話し方をデザインするinstructions活用術｜ChatGPT研究所) (Introducing next-generation audio models in the API | OpenAI)

学術論文・技術情報

Chenら (2024) 「Towards Controllable Speech Synthesis in the Era of LLMs: A Survey」 – 大規模言語モデル時代の制御可能な音声合成技術の動向 (Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey) (Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey)
InfoQ (2025) 「OpenAI Introduces New Speech Models…」 – 新音声モデルの概要と専門家による評価 (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ) (OpenAI Introduces New Speech Models for Transcription and Voice Generation - InfoQ)

ニュース・メディア記事

TechCrunch (2025) 「OpenAI upgrades its … voice-generating AI models」 – OpenAIの音声モデル強化に関する報道 (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch) (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)
ASCII.jp (2025) 「落ち着いた口調も親しみやすい口調も思いのまま…」 – GPT-4o-mini-ttsを試用した記事 (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた) (ASCII.jp：落ち着いた口調も親しみやすい口調も思いのまま　OpenAIの新たな音声合成AIモデルを使ってみた)
Simon Willison’s Blog (2025) 「New audio models from OpenAI…」 – 開発者視点で見た新音声モデルと懸念点 (New audio models from OpenAI, but how much can we rely on them?) (New audio models from OpenAI, but how much can we rely on them?)

コミュニティ・SNS

@ai_shirohana (2025年3月23日) – GPT-4o-mini-ttsを用いたAI VTuber配信の感想ツイート (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P) (OpenAIの合成音声(TTS)APIを使ってみよう〖GPT-4o-Mini-TTS〗｜yuki@AIキャラ開発P)
Home Assistantフォーラム (2025) 「OpenAI GPT-4o Mini TTS Integration」 – スマートホームへのGPT-4o-mini-tts導入報告 ( New Home Assistant Integration: OpenAI GPT-4o Mini TTS ️ - Share your Projects! - Home Assistant Community) ( New Home Assistant Integration: OpenAI GPT-4o Mini TTS ️ - Share your Projects! - Home Assistant Community)
OpenAI Developers (2025年3月20日) – 「3つの最新音声モデル(API)公開」の公式X（旧Twitter）投稿 (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch) (OpenAI upgrades its transcription and voice-generating AI models | TechCrunch)