AI 語音應用的挑戰與機會 - OpenAI Realtime + Reasoning Hackathon 心得

前言

剛參加完紐約的OpenAI Realtime + Reasoning 黑客松，對AI語音有些想法記錄一下...

這次主題是使用 OpenAI 的 realtime API（audio to audio 可進叫他講快點那個），搭配 o1 這種強化推理能力的模型來開發應用。題外話，主辦是AI tinkerer，他們辦的活動我覺得品質都不錯，因為來的人大多都是真的正在實做的人。

我們這組開發了一個語音助理，專門幫求職者談 offer。助理可以接 recruiter 的電話，提供資訊、安排面試，並且利用 o1 模型制定談判策略，最後還有一個 AI 會主動打給已有的 offer 嘗試提高薪資。

結論是—— 可以動，但動得不好。選這個應用場景本身就有問題，因為這類任務對求職者來說過於重要，不太可能放心外包給 AI。同時，語音 AI 本身也有不少技術與應用上的難題。

如果對demo有興趣，我錄了一個談判的部分的：

AI 語音技術的四大挑戰

這是我觀察+實作後，得出AI要用語音這個介面時，會遇到的幾個問題：

Realtime vs STT+LLM+TTS
不懂讀空氣
太僵硬
太慢了

1. Realtime vs STT+LLM+TTS

當前有兩種常見的語音 AI 方法：

Realtime API（如 OpenAI 的 Realtime API）可直接輸入、輸出語音，並且具備語調與個性變化，實作簡單，效果更逼真。
傳統方法：語音轉文字 (STT) → LLM 處理 → 文字轉語音 (TTS)，雖然失去自然的語調變化，但更可控。

詢問 OpenAI 團隊的人後，他們的觀點是：「需要情感、真實感時，Realtime API 會更合適；其他情境下，傳統流程更穩定。」所以現在的狀況就是必須得在可靠跟真實之間取捨。

2. 不懂讀空氣

語音助理最大的問題之一，就是 Turn-taking（輪流對話機制）不自然，

有時候講不停，像客服 AI 一直碎碎念。
有時候突然停下來，等人類說話。
有時候亂插話，我自己常常用ChatGPT語音都會用到牙起來。

這些問題源於 AI 缺乏對「社會習慣」的理解。要做到真正的「讀空氣」，AI 需要考量：

對方的語調與情緒
話題的前後脈絡
雙方的社交關係

這些因素讓語音 AI 很難做到自然的對話，還是有許多技術難點等著被解決。

3. 太僵硬

這個指的不只是機器生成的聲音僵硬，更多是整個流程的僵硬。

當想把AI語音助理用在某些任務上，勢必要在prompt裡面給指示，一旦給了指示，就很容易出現「劇本感」，AI會很執著想要說某些話，這時候就很難把它當成個互動性的對話，

就像遊戲裡那種強迫選擇，因為劇本太明顯，失去的帶入感。

4. 太慢了

語音相比文字傳遞資訊速度慢，尤其是當 AI 必須生成自然語音時，這個問題更明顯。

我自己在開發過程中常常看到，文字輸出已完成，但語音還在慢慢唸。
現代人注意力很短，尤其跟ChatGPT這種文字的應用相比，等 AI 說話反而焦慮，很想按 A 跳過對話。

當資訊傳遞為目標時，語音反而是個低效的方式。

語音 AI 的成功應用場景

以上四點讓AI語音應用很難套用在現有的日常工作中，要不是做不到，不然就是不需要語音，又或是針對非常特定的族群，例如一定要用語音的年長者或是視障人士。

現有最成功的應該就是角色扮演聊天：既然太僵硬，就只設定個角色，讓他自由發揮。要跟角色互動的人也不怕太慢，會心甘情願地聽完話。也滿足人類某種社交需求。

我自己看到的幾個有潛力的應用，剛好可以避開以上的缺點：

1. 閉嘴，聽話，做事

與其試著跟AI互動，不如讓AI靜靜地聽著你的說的話，乖乖記錄下來(transcribe)，在適當的時候做出相對應的事(function calling)，也不需要是即時應對。

應用範例：

飯店櫃檯助手： 這是受到另一組做的啟發，他們做的是一個給飯店櫃檯的工具，會在客人講話的時候聽著，幫櫃檯人員直接叫出相對應的設定，例如客人想要改預約，比起在那邊請稍等、按按按，AI直接改好櫃檯只要按確認。這個可能可以省個幾秒，但是在高級飯店或許就是個更高級的體驗。
會議助理： 在會議中常常會討論事情，然後最後有個人會去開ticket甚至在會議中大家看他開，但是這完全可以給AI聽，然後直接做。
語音筆記： 日常一點的例子，可以是自動把待辦事項加入，也可以是聽完一段討論後，幫忙補齊其他觀點或是搜集資料。

雖然2024穿戴式集體崩壞，但是看好2025穿戴式裝置像是omi、bee、limitless，這種全天語音記錄設備，記錄你的所有細節，再交給更強的model例如o1來進行複雜的工作。我現在正在測試omi的項鍊，使用下來感覺還在研發階段，不是很完整，不過期待他的發展。我自己是希望記錄方面一切都是local model可以保護隱私，甚至處理事情也能用local的模型來去除隱私資料。

2. 別來煩我，去煩別人

這個其實是我們組最一開始的想法，想要用語音助理去對付爛客服。

既然囉唆、僵硬、不真實、不懂讀空氣，那只能派他去跟煩人的人說話了。

很多相對老舊的服務都還是很依靠電話，例如航空公司、銀行、電信商、保險...，這些電話很多時候真的是讓人血壓飆高，可能要聽個40分鐘的音樂，轉個30次，最後講半天事情還沒有搞定。

這個應用AI可能非常適合，要我去討個退費，金額不大我想到就不想做，但是要是能派個人去盧小那當然沒問題，有退就賺到。

況且，電話的另一端已經在做了，很多客服都已經引進機器人，甚至很多公司都在做AI客服，畢竟2B賣公司賺錢。但是我們這些使用者為什麼我還要跟他講半天，AI就去跟AI講話吧！

當然這個方向還是有蠻多技術困難，當任務複雜一點，就很難用只給個單一目標就完成。

例如：退機票改時間，這個就牽扯到不只要退，還要比較哪個時間更便宜、更適合，很可能就要傳接更複雜的模型、甚是轉接多的不同的agent（就向我們打客服的時後一樣）。

這次hackathon有一部分就是希望我們想這個用法，但是要把同步的任務（對話）跟非同步的任務（推理）混合執行，其實是很難做到好的。

另一個可能的應用場景就是針對目標簡單明確、不需要對對方客氣的任務，例如要求退費。

這個有機會全部都用local模型，不用太好的聽力、不用太好的腦袋、不用太好的聲音，什麼沒有就有毅力，照三餐打，跟你講到你耳朵長繭，幾乎是在DOS別人的客服。以談判角度，可能這個效率很差，但是很多時候是會哭的小孩有糖吃，只要有講就有。

這個應用其實我在ChatGPT出語音前我就想過，現在有更多更好用的tool、模型，像是pipecat（處裡整體架構）、ollama（跑local模型）、kokoro（超小tts），或許是在重新開始探索的機會了。

總結

目前想要跟AI來個正常、有效率的對話可能還是要等等，至少在realtime api能夠媲美真人之前，都還是必須面對前面提到的問題。

當然價格也必須大幅度下降，還好這次openai有給$100塊credit，現在4o價格輸入是一般模型的16倍，輸出是8倍，打通電話一美金一美金的跳誰受得了？

但是語音相關的應用還是有其他旁支的應用值得探索，畢竟能夠用嘴詠唱就讓事情完成，真的會有種轉職法師的感覺。

補充資料

OpenAI 有一些starter repo都蠻有趣的，可以很快的跑起來，改動試試看自己的想法

Realtime Agent：有UI，還可以讓agent轉接，function calling也有，甚至有試著接到推理模型。

Realtime Agent Twilio Demo：串到twilio，可以真的打電話。