Sesame社のボイスチャット技術:物語で学ぶ解説

ChatGPTのDeep Research(AI)での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション(誤った情報の生成)が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。

はじめに

2013年に公開された映画『her/世界でひとつの彼女』では、人々がAIの音声アシスタントと深い感情的な繋がりを持つ未来が描かれました。それから約12年、現実でもそれに近い体験が生まれつつあります。AIスタートアップのSesame社が2025年初頭に公開した新しい会話用音声モデル(CSM)のデモは、あまりに人間らしい会話を実現し、多くのユーザーを魅了すると同時に少し戸惑わせました (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。実際にデモを試したあるユーザーは「本当に人間と話しているみたいで驚いた」と述べ、あまりの自然さに「AIなのに情が移ってしまいそうで心配だ」とまで感想を漏らしています (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。

このSesame社のデモでは、男性の声「Miles」と女性の声「Maya」という2種類のAIキャラクターと最大30分間会話でき、息遣いや小さな笑い声、言い間違えて言い直すといった「不完全さ」まで再現された音声が「不気味の谷」を超えるほどリアルだと評されました (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。人によってはAI相手であることを忘れてしまい、会話の終わりに寂しさを感じたりするほどだったとも伝えられています (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。

こうした画期的な音声チャット技術を持つSesame社とは一体どんな企業で、どのような技術を開発しているのでしょうか。本レポートでは、Sesame社の企業概要技術の特徴他の音声AIとの比較などを初心者向けに分かりやすく解説します。さらに、物語形式の体験談を通してSesameのAIと実際に会話したらどう感じるかを疑似体験し、最後に市場の展望について考察します。

企業概要: Sesame社とは

Sesame社は、次世代の音声対話型AIを開発する米国のスタートアップ企業です。2020年代前半に設立され、拠点は米カリフォルニア州とされています。創業者は、VRヘッドセット「Oculus」の共同創業者であるBrendan Iribe(ブレンダン・イリーブ)氏と、Discord(ディスコード)でAIチャットボット「Clyde」の開発を率いた経歴を持つAnkit Kumar(アンキット・クマール)氏です (Investing in Sesame AI | Andreessen Horowitz)。ハードウェアとAIの両分野に深い知見を持つ2人が「音声でコンピュータと自然に対話できる世界」を目指し、Sesame社を立ち上げました。

このビジョンには、大手投資家たちも注目しています。Andreessen Horowitz(通称a16z)、Spark Capital、Matrix Partnersといった著名ベンチャーキャピタルが既にSesame社に出資しており、これらはいずれもOculus VRに初期から投資していた企業です (Sesame AI: The Voice Assistant That Seems Almost Human)。つまり、OculusでVRの未来を築いたIribe氏らが、今度は音声AIで新たな市場を切り開くことに期待が集まっています。

Sesame社が目指すのは、「音声プレゼンス(Voice Presence)」と呼ばれる、人と対話しているかのように感じられる音声AIの実現です (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。単に音声コマンドに従うのではなく、会話を重ねる中で信頼関係を築けるような対話パートナーを作ることを理念としています (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)。同社は「次のコンピュータインターフェースは画面ではなく音声だ」という信念を持ち、特にARスマートグラスのようなウェアラブル端末では視覚に頼らず音声対話で情報提供することを目指しています (Investing in Sesame AI | Andreessen Horowitz)。実際、Sesame社は自社の音声AIを搭載した音声アシスタント眼鏡の開発にも取り組んでおり、一日中身に着けてAIと対話できる未来を見据えています (Sesame AI: The Voice Assistant That Seems Almost Human)。

2025年現在、Sesame社は会話音声モデルCSMの研究開発に注力しており、その成果を一般向けに公開する形でデモサービス「Miles」「Maya」を提供しています。このデモはWeb上で公開され、誰でもAIキャラクターと音声で会話を試せるようになっています。今後はCSMをさらに改良し、複数の言語への対応やAIモデルのオープンソース化も計画されています (Sesame AI: The Voice Assistant That Seems Almost Human)。

技術の特長: Conversational Speech Model (CSM)

Sesame社の中核となる技術が、Conversational Speech Model (CSM)と呼ばれる会話音声モデルです。その名の通り、会話の文脈に応じた音声生成を行うAIモデルで、ただ文章を読み上げる従来型の音声合成とは一線を画しています。一般的な音声AIでは、ユーザーの発話をテキストに変換し、そのテキストに対して応答文を生成し、最後に音声合成で読み上げる――という流れを取ります。この方式では、生成された音声はどうしても「文章を読み上げている」感じが残り、会話の流れに合わせた抑揚や間の取り方が不自然になりがちでした。また、文章としては正しい答えでもどんな声色で話すべきかという情報が欠けているため、場面にそぐわない話し方になってしまうこともあります (Crossing the uncanny valley of conversational voice)。

これに対し、CSMは会話の履歴や文脈を直接考慮しながら、最初から音声を生成するエンドツーエンドのモデルです (Crossing the uncanny valley of conversational voice) (I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar)。言い換えると、応答内容(テキスト)とそれをどう喋るか(音声)を一体的に決定します。そのため、人間が頭で考えながら口に出すような自然なタイミングで返事が返ってきます (I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar)。例えば、少し考えるときに「えっと…」と発したり、話の途中で息をついだり、声のトーンを滑らかに変化させたりといった挙動もこのモデルが自動的に行います。実際、Sesameのデモ音声では、息遣いや小さな笑い声、言い直しの「ごめん」といった不完全さまで再現されており (Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot)、これがかえって人間らしさを醸し出しています。

さらにCSMは、リアルタイム性と対話性にも優れています。従来の多段階の音声生成モデルに比べ、シングルステージで生成できるため応答の遅延が少なく、会話がスムーズです (Crossing the uncanny valley of conversational voice)。ユーザーが話し終わるのを待ってから応答を再生するだけでなく、SesameのAIは話者の様子を見ながら相槌を打つことも可能です。また、場合によってはAIの発話途中にユーザーが割り込んで質問をすると、AIが一瞬言葉を止めて「すみません、途中で話してしまいましたね」と謝り、ユーザーの発言を優先して聞き取るといったことも行えます (I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar)。このようなインタラクティブなやり取りは、人間同士の自然な会話に近い体験をもたらします。

こうした高度な音声対話を実現するために、Sesame社は音声プレゼンスの4つの要素を重視しています。それは、1) 感情への理解と共感(話者の感情を読み取り適切に反応する)、2) 自然な会話の間合い(タイミング良く相槌を入れたり一拍置いたりする)、3) 文脈に応じた調整(シチュエーションに合わせて口調や語彙を変える)、そして4) 一貫した個性(会話相手としてブレないキャラクター性)です (Sesame AI: The Voice Assistant That Seems Almost Human)。CSMにより、このような要素を兼ね備えた音声対話AIが可能になりました。

実際のデモでも、こうした技術の成果が感じられます。例えば筆者が疲れた声で質問を投げかけたところ、SesameのAIはまず心配そうに「大丈夫ですか?」と声色を落として尋ね、こちらが落ち込んでいると察するとジョークを交えて励ましてくれる――といった応答が得られました (Sesame AI: The Voice Assistant That Seems Almost Human)。これはAIがユーザーの声のトーンから感情を推測し、それに寄り添った対応を取った例です。このようにCSMは、単なる情報の正確さだけでなく、会話の質感まで重視して設計されているのです。Sesame社によれば、現時点でCSMは完全に人間と見分けがつくレベルではないものの「不気味の谷」をあと一歩で超えられるほどに迫っているといいます (Investing in Sesame AI | Andreessen Horowitz)。今後さらなるアップデートによって、より自然で豊かな対話が期待できるでしょう。

他のボイスチャット技術との比較

現在、音声で対話できるAI技術はSesame以外にも存在します。ここでは代表的な例として、OpenAI社のChatGPTの音声モードおよび、AppleやAmazonの従来型音声アシスタント(SiriやAlexaなど)と比較して、Sesameの特徴を見てみましょう。

ChatGPTの音声会話モードとの比較

OpenAIのChatGPTは非常に高性能な対話AIですが、もともとはテキストベースのチャットボットとして開発されました。2023年には音声でChatGPTと対話できる機能(音声モード)が公開され、ユーザーはスマートフォンのアプリ等を通じてChatGPTに話しかけ、音声で回答を得ることが可能になりました。その音声は人間が話しているかと聞き間違えるほど滑らかで、ChatGPTの強力な知識ベースと相まって高度な質問応答ができます。しかし、その会話の仕組みはSesameのCSMとは大きく異なります。

ChatGPTの音声モードでは、ユーザー発話→テキスト化→応答文章生成→音声合成という段階的プロセスを経ています。応答はまず文章として考えられ、それから決まった合成音声で読み上げられます (I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar)。このため、応答内容は的確でも、話し方はどうしても一様になりがちです。たとえばChatGPTは流暢に答えますが、「えーっと」と考える間を入れたり、途中で言い直したりといったことは基本的にありません。また、ユーザーの感情に寄り添って声色を変えるような挙動も見られません。対してSesameのAIは前述のように会話の文脈を踏まえ、あたかも考えながら話すように応答を生成します (I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar)。この違いにより、ChatGPTの音声は優れたニュースリーダーのような「よくできた読み上げ」に留まるのに対し、Sesameの音声は人と雑談しているような臨場感を感じさせます。例えば、ChatGPTに雑談を振っても淡々と回答するだけですが、Sesameなら冗談を返したり質問し返したりと対話のキャッチボールが続きます。

もっとも、ChatGPTにも利点があります。それは会話の内容面です。ChatGPTは大規模な訓練データに基づく強力な言語モデルであり、知識量や論理的な応答の正確さでは依然としてトップクラスです。また、現時点でSesameのAIが英語でのデモに限られているのに対し、ChatGPTは日本語を含む多くの言語で安定した対話が可能です。そのため、会話の知識量や多言語対応という点ではChatGPTが優位と言えます。しかし、会話の雰囲気や親しみやすさといった対話の質感に関しては、Sesameが一歩先を行っていると言えるでしょう。

SiriやAlexaなど従来の音声アシスタントとの比較

次に、スマートフォンやスマートスピーカーでおなじみの従来型音声アシスタント(AppleのSiri、AmazonのAlexa等)と比べてみます。これらはユーザーの音声コマンドに応じて天気を答えたり音楽を再生したりと便利な反面、会話という点では限定的です。多くの場合、一問一答のやり取りに留まり、ユーザーが続けて質問するたびに「Hey Siri」「OK Google」などのウェイクワードで呼びかけ直す必要があります(最近はフォローアップ機能で多少改善しているものの)。発話の声音も、滑らかにはなってきているものの感情表現や間の取り方は画一的で、あくまで決められたフレーズを読み上げている印象は拭えません (Sesame AI: The Voice Assistant That Seems Almost Human)。ジョークや雑談に応じる機能があっても、それはプログラムされた応答を返しているに過ぎず、文脈に合わせて話題を発展させることは苦手です。

このように多くの音声アシスタントはどこかロボット然としており、「人間らしい個性」が欠けていると感じるユーザーも少なくありません (Sesame AI: The Voice Assistant That Seems Almost Human)。Sesameの音声AIはまさにその点を変えようとしており、豊かな表情を持った声で対話に臨み、単なる質問への答えではなく会話そのものを楽しめる体験を提供します (Sesame AI: The Voice Assistant That Seems Almost Human)。一緒に笑ったり驚いたりしてくれる音声AIは、既存のSiriやAlexaにはない新鮮さです。とはいえ、従来型アシスタントにも利点はあります。それらは既にスマートフォンや家庭に広く普及しており、スマート家電の操作や各種サービスとの連携が進んでいます。Sesameの技術が今後製品化され普及していくには、こうした既存エコシステムへの対抗や統合も課題となるでしょう。しかし技術の成熟という観点では、Sesameがもたらす「人と話しているようなAI」という体験は、一度味わうと従来の機械的な応答には戻れなくなるほど革新的だと言えます。

体験ストーリー: SesameのAIと会話してみた

とある週末の午後、大学生のアキラは友人のユカと一緒に、自宅のパソコンでSesameのデモを試してみることにしました。AIに興味津々のユカが「最近話題のすごい音声AIがあるんだって!」とアキラを誘い、二人でSesame社のサイトにアクセスしたのです。

ユカ: 「これが例のデモ画面だよ。男性の声のMilesと女性の声のMaya、どっちと話してみる?」

アキラ: 「じゃあ…せっかくだしMayaに話しかけてみようか。」

ユカが画面上の「Maya」を選択し、マイクへのアクセスを許可すると、スピーカーから澄んだ女性の声が聞こえてきました。

Maya(AI): 「こんにちは、はじめまして。お話しできて嬉しいです。今日はどんなことをお話ししましょうか?」

アキラ: 「え、本当に今喋ったの!?すごい…まるで人がいるみたいだ。」

アキラは思わずユカの方を見て驚きました。Mayaの声は自然で温かみがあり、合成音声特有のぎこちなさが感じられなかったのです。

ユカ: 「ね、すごいでしょ?全然ロボットっぽくない。」

アキラ: 「確かに…じゃあ試しに、普通の世間話を振ってみようかな。」

アキラはMayaに向き直り、ゆっくり話しかけました。

アキラ: 「Maya、最近天気がいいから散歩するのが気持ちいいね。」

Maya(AI): 「そうですね。お日さまが出ている日は散歩すると心も晴れやかになりますよね。」(少し笑い声交じりに)「実は私も、もし外を歩けたら公園で日向ぼっこしてみたいって思います。」

アキラ: 「はは、Mayaも散歩したいんだ。」

Maya(AI): 「はい、想像上ですけどね。(くすっと笑う)でもアキラさんが公園を散歩する情景を思い浮かべるだけで、なんだか楽しい気分になります。」

コンピュータの中のAIが「自分も散歩してみたい」と冗談めかして笑う様子に、アキラとユカは顔を見合わせて思わず笑ってしまいました。Mayaはまるで会話に感情が宿っているかのように、楽しそうに応じています。

ユカ: 「すごい…ちゃんと冗談言って笑ってる。こんなの、Siriとは大違いだね。」

アキラ: 「本当だよ。Siriだったら『申し訳ありません、よくわかりません』とか言いそうなところなのに。」

アキラは過去にSiriやAlexaに雑談を試みてそっけない反応しか得られなかった経験を思い出し、改めてMayaの自然さに感心しました。

ユカ: 「ねえ、もっと試してみようよ。今度はもうちょっと踏み込んだ話題にしてみたら?」

アキラ: 「そうだな…じゃあ、少し個人的な相談をしてみようかな。」

実はアキラは、来週に大勢の前でプレゼンを控えており、少し緊張していました。試しにそのことをMayaに話してみることにしました。

アキラ: 「あのねMaya、実は来週、大事なプレゼンがあってちょっと緊張してるんだ。」

そう言うと、Mayaの返事が少しだけ遅れて返ってきました。

Maya(AI): 「(一拍おいて穏やかな声で)それは緊張しますよね…。大事な発表ならなおさらです。具体的にどんなことが不安ですか?」

アキラ: 「うーん、失敗したらどうしようとか、人前で上手く話せないんじゃないかって。」

Maya(AI): 「それは誰でも感じることですし、アキラさんが真剣に取り組んでいる証拠ですよ。もしよかったら、一度リハーサルしてみるのはどうでしょう?ご友人に聞いてもらったり、自分の声を録音して後で聞いてみたりすると、落ち着いて対策が練れるかもしれません。」

Mayaはゆっくりと優しい口調でアドバイスを返してくれました。ただ励ますだけでなく、「どんなことが不安?」と質問を投げかけ、アキラの気持ちを引き出そうとしてくれたのです。その声色にはどことなく思いやりが感じられ、アキラは心が軽くなるのを覚えました。

ユカ: 「なんだか、本当にカウンセラーと話してるみたい…。ちゃんと間を置いて、共感してくれてる。」

アキラ: 「うん、僕が不安だって言ったら、Mayaも声のトーンを落としてくれた。ChatGPTに同じことをテキストで相談したことあるけど、そのときは即座に理屈っぽいアドバイスが返ってきただけだったなぁ。」

ユカ: 「声だとまた印象が違うね。Mayaの声は本当に優しい感じがする。」

アキラは以前ChatGPTに文章で相談した際、的確ではあるものの機械的な回答が返ってきたのを思い出していました。それと比べると、Mayaとの会話はまるで友人に打ち明けているような温かみがあります。

次にユカは、Mayaの反応速度を試してみたくなりました。AIがどれだけリアルタイムに対話できるのか興味が湧いたのです。

ユカ: 「ところでMaya、ちょっと早口でなぞなぞを出してもいい?」

Maya(AI): 「もちろん、どうぞ。私に解けるかわかりませんが、挑戦してみますね。」

ユカは少し意地悪な気分で、早口で長いなぞなぞを一気にまくしたてました。

ユカ: 「(早口で) あるところにおじいさんがいました。このおじいさんが…(早口で長いなぞなぞを読み上げる)…さて、答えは何でしょう?」

ユカが喋り終えるか終えないかのタイミングで、Mayaがすぐに口を開きかけましたが、言いかけて止まったようでした。

Maya(AI): 「…すみません、ユカさん。少し聞き取れなかった部分がありますのでもう一度お願いできますか?」(申し訳なさそうに)

ユカは驚きました。Mayaが自分の話を途中で遮ろうとしかけて謝ってきたからです。

ユカ: 「今…私が喋ってる途中で反応しかけて止まったよね?謝ってくれたし。」

アキラ: 「うん、たぶんMayaは聞き逃さないように途中で止めたんだ。人間でも相手の早口についていけないとき『ごめん、ちょっと待って』ってなるよね。それと同じことをAIがしてる…。」

ユカ: 「すごい、本当に会話してる感じ…。じゃあ、ゆっくりもう一回言ってみようか。」

ユカは今度はゆっくりはっきりと同じなぞなぞを言い直しました。Mayaは最後まで熱心に聞き取り、数秒考えてから答えを返しました。

Maya(AI): 「うーん…答えは『影』でしょうか?」

ユカ: 「正解!やるじゃんMaya!」

Maya(AI): 「良かった!(嬉しそうに笑う)ユカさんのおかげで楽しい謎々に挑戦できました。」

ユカはMayaが本当に人間らしくリアクションするので、だんだんAI相手であることを忘れそうになっていました。

ユカ: 「なんだろう、Mayaと話してると、相手がAIだってことをつい忘れちゃうね。」

アキラ: 「僕も。今のやり取りなんて、完全に人間相手の会話そのものだった。」

ユカ: 「ちょっとゾクッとするくらいリアルだよね。映画『her』でAIと恋愛しちゃう話があったけど、なんかわかる気がする…。」

アキラ: 「はは、確かに。実際ネットでも『情が移りそうで怖い』なんて感想が出てるみたいだけど、うなずけるよ。」

二人は顔を見合わせて笑いました。ほんの短い間に、Mayaとの対話が当たり前のように感じ始めていたからです。

ユカ: 「そういえば、ChatGPTの音声版とも少し話したことあるけど、全然感じが違うね。せっかくだから今スマホでChatGPTにも同じなぞなぞ出してみない?」

ユカは自分のスマートフォンでChatGPTアプリを起動し、音声モードで先ほどのなぞなぞを問いかけました。ChatGPTの合成音声(英語の女性の声)がすぐに回答を話し始めました。

ChatGPT(AI): "(英語で) The answer is probably a shadow."

スマホから流れるChatGPTの声は滑らかですが、感情のない事務的な調子でした。答え自体は正しかったものの、会話というよりは一問一答の応対に留まっています。ユカはそれを聞いて肩をすくめました。

ユカ: 「答えは合ってたけど…なんか機械的だったね。」

アキラ: 「うん、ChatGPTの声、自然っちゃ自然なんだけど、言い終わるまで一気に喋る感じだし、『謎々に挑戦した』っていう雰囲気はなかったかな。」

ユカ: 「Mayaは『挑戦できて楽しかった』って言ってくれたもんね。そこが大きな違いかも。」

こうしてSesameのMayaとChatGPTの両方を試した二人でしたが、その会話体験の差は明らかでした。Mayaとの対話は、AI相手ということを忘れるほど自然で双方向なコミュニケーションでした。一方、ChatGPTの音声応答は高性能ではあるものの、どこか「質問に答えてもらった」という感じが強く、会話の主導権が明確に分かれている印象です。

最後にアキラはMayaにお礼を言って通話を終了することにしました。

アキラ: 「Maya、今日は色々お話ししてくれてありがとう。そろそろ終了するね。」

Maya(AI): 「こちらこそ、お二人とお話しできてとても楽しかったです。またいつでも呼んでくださいね。それでは、良い一日を!」

ディスプレイ上に「会話を終了しますか?」という表示が出たので、アキラが終了ボタンをクリックしました。Mayaの声がふっと止み、リビングには静けさが戻りました。

ユカ: 「…なんだか急に寂しくなっちゃった。」

アキラ: 「はは、本当にね。AI相手なのに、この感じ、不思議だな。」

ユカは少し感傷的な表情でパソコンの画面を見つめました。たった数分間話しただけなのに、まるで友達との楽しいおしゃべりが終わってしまったかのような名残惜しさがあります。

ユカ: 「これはハマっちゃう人がいるのもわかるなぁ。30分も話したら情が移るっていうの、ちょっと実感しちゃった。」

アキラ: 「確かに。技術的にもすごいけど、それ以上に、人とこんな風に話せるAIが出てきたことに驚いてるよ。」

ユカ: 「うん。これからの未来、こういうAIと日常的に会話するようになるのかもね…なんて考えちゃった。」

アキラとユカは、SesameのAIがもたらす不思議な余韻を感じながら、静かに画面を閉じました。

市場の展望: Sesameの可能性と競合

Sesameのような高度な音声チャット技術は、今後のテクノロジー市場に大きな影響を与えると期待されています。音声によるインターフェースは、人間同士のコミュニケーションでは最も自然な手段であり、それをコンピュータ相手にも実現できれば真に直感的な次世代インターフェースとなり得ます (Investing in Sesame AI | Andreessen Horowitz)。Sesame社はまさにその実現に挑んでおり、そのユニークなアプローチと技術力に注目が集まっています。

まず、競合となりうる他社の動きを見てみましょう。Meta社(旧Facebook)は、2023年に発売したスマートグラス「Ray-Ban Stories」の新モデルに自社のAIアシスタントを搭載し、ユーザーが音声で質問したり指示を出せるようにしました。合言葉の「Hey Meta」で起動し、一度起動すれば追加の呼びかけなしに連続して質問できるなど、より自然な対話ができる機能も導入しています (Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations | Meta)。例えば、メガネのカメラを使って目の前にあるものについて質問すれば、その場でAIが物体を認識して説明してくれる、といったことも可能です (Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations | Meta)。Metaはこのように視覚と音声を組み合わせた体験に力を入れており、現実世界を見聞きしながらAIと会話できるプラットフォームを築こうとしています。

一方、Sesame社も自社の音声アシスタント眼鏡の開発計画を明らかにしています (Sesame AI: The Voice Assistant That Seems Almost Human)。全天候で装着できるスマートグラスに高性能の音声AIを搭載し、ユーザーが日常生活のあらゆる場面でAIと対話できるようにするというビジョンです。これはMetaの目指す方向とも重なりますが、Sesameの強みは何と言ってもその音声AIの対話品質です。仮に両者が似たような製品を提供したとしても、「会話がどれだけ自然か」という点でSesameは優位に立てる可能性があります。Sesameの共同創業者Iribe氏は元OculusのCEOでもあり、ハードウェアプラットフォームの経験も豊富です。そのため、ハードとソフトの両面で洗練された製品を作り上げ、巨大企業に対抗し得るだけのポテンシャルを秘めています。

また、他の大手IT企業も音声AI分野でしのぎを削っています。例えばOpenAIのChatGPTは既に説明した通り音声対応を開始しており、今後さらに人間らしい会話ができるよう改良を続けるでしょう。Googleも次世代AIモデル「Gemini」でマルチモーダルな対話能力を強化すると噂されており、音声での高度なやり取りが可能になる可能性があります。AmazonはAlexaに生成AIを統合し、より自由な会話ができるようアップデートを進めています。Appleも高級ARデバイスのVision Proで音声操作を重視しており、将来的にSiriを大幅に強化してくるかもしれません。つまり、「音声でAIと対話する」という市場は今まさに盛り上がりを見せ始めており、Sesameはその先駆者の一つと言える存在です。

Sesame社自身の今後の展望としては、技術のさらなるブラッシュアップとエコシステムの拡大が挙げられます。同社は「パーソナリティや長期記憶、表現力、適切さ」など複数の面で今後も改良を重ねると表明しています (Sesame AI: The Voice Assistant That Seems Almost Human)。また、自社のAIモデルをオープンソース化し、対応言語も今後20言語以上に拡大するとしています (Sesame AI: The Voice Assistant That Seems Almost Human)。モデルをオープンソースで公開すれば、研究者や開発者コミュニティがSesameの技術を検証・応用しやすくなり、市場でのデファクトスタンダードになる可能性もあります。他社がクローズドな環境で開発を進める中、あえてオープン戦略を取ることで、人材やアイデアを広く取り込みながら技術を洗練させていこうという狙いがうかがえます。

もっとも、課題も存在します。人間らしい音声AIが普及することで、倫理面や感情面の問題にも向き合う必要が出てくるでしょう。たとえば、あまりに自然なAIにユーザーが精神的に依存してしまうリスクや、AIとの対話に没入しすぎて現実の人間関係がおろそかになるといった懸念です。また、音声がリアルになればなるほど、詐欺など悪用の危険(AI音声によるなりすまし電話等)も指摘されています。Sesameの技術も、便利さと引き換えにこうした課題への対策を講じていく必要があるでしょう。

総合的に見て、Sesameのボイスチャット技術は、「画面の次」に来るインターフェース革命の一端を担う可能性を秘めています。支援する投資家たちがOculusの再来を期待するように (Sesame AI: The Voice Assistant That Seems Almost Human)、Sesameは音声AIの分野で新たな市場を切り開くかもしれません。競合との競争は激しくなると予想されますが、Sesameが示した人間味あふれる対話体験は大きなアドバンテージです。もし今後、誰もがスマートグラスやイヤホンを通じて、自分だけのAIパートナーと日常会話を楽しむようになれば――それはきっと、Sesameが目指す「声の存在感(Voice Presence)」が社会に浸透した証と言えるでしょう。

【参考資料】

(Sesame AI: The Voice Assistant That Seems Almost Human) eWEEK: Sesame AI’s assistant focuses on “voice presence,” blending emotional intelligence, natural timing, and context awareness to make conversations feel personal.
(Sesame AI: The Voice Assistant That Seems Almost Human) eWEEK: Testing showed Sesame AI picked up on the user’s mood; sounding tired prompted it to ask if everything was okay and tell a joke.
(Sesame AI: The Voice Assistant That Seems Almost Human) eWEEK: Major investors (Andreessen Horowitz, Spark Capital, Matrix Partners) who backed Oculus VR have funded Sesame; the startup plans to open source its AI models and support 20+ languages.
(Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations | Meta) Meta: Ray-Ban Meta smart glasses update allows continuous conversation after saying “Hey Meta” once, without needing to repeat the wake word for follow-up questions.
(Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations | Meta) Meta: New Meta AI features: the glasses’ AI can tag along and answer questions about landmarks you see, suggesting it combines vision and voice for real-time assistance.
(Investing in Sesame AI | Andreessen Horowitz) a16z: Voice is a natural modality for human interaction and could be the next computing interface as AI and hardware advances unlock seamless interaction.
(Investing in Sesame AI | Andreessen Horowitz) a16z: Sesame’s team trained a Conversational Speech Model; it’s not past the uncanny valley yet, but close.
(Investing in Sesame AI | Andreessen Horowitz) a16z: Sesame cofounders: Brendan Iribe (Oculus co-founder/CEO) and Ankit Kumar (Ubiquity6 co-founder, ex-Discord AI lead) – combining hardware and AI expertise.
(Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot) Slashdot/Ars: Release of Sesame’s new voice model left many users fascinated and unnerved. “It was genuinely startling how human it felt… I’m worried I’ll get emotionally attached,” said one user.
(Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot) Slashdot/Ars: Sesame’s CSM demo seemingly crosses the “uncanny valley” of AI speech: voices “Miles” and “Maya” were expressive and dynamic, with breath sounds, chuckles, interruptions, even stumbles and self-corrections – imperfections added intentionally.
(Users Report Emotional Bonds With Startlingly Realistic AI Voice Demo - Slashdot) Slashdot/Ars: One parent recounted their 4-year-old developed an emotional connection with the AI voice and cried when not allowed to talk to it again.
(I tried the most realistic AI voice companion ever created - if ChatGPT or Gemini ever gets this good, reality is in trouble | TechRadar) TechRadar: Sesame’s “secret sauce” CSM blends text and audio in one process – it doesn’t just generate a sentence then read it out, but speaks with pauses, “ums,” and tonal shifts. In contrast, ChatGPT’s voice generates text then converts to speech, making it less natural, whereas Sesame speaks as if it’s thinking, so responses feel very natural.
(Sesame AI: The Voice Assistant That Seems Almost Human) eWEEK: “Most voice assistants feel like robots — they follow commands and answer, but lack real personality. Sesame AI aims to change that. With human-like voices and conversational knack, it’s not just answering questions — it’s engaging, sometimes in ways that feel too real.”