- Published on
AI 語音應用的挑戰與機會 - OpenAI Realtime + Reasoning Hackathon 心得
- Authors
- Name
- Joey Wang 王斯右
- @joeysywang
前言

剛參加完紐約的OpenAI Realtime + Reasoning 黑客松,對AI語音有些想法記錄一下...
這次主題是使用 OpenAI 的 realtime API(audio to audio 可進叫他講快點那個),搭配 o1 這種強化推理能力的模型來開發應用。題外話,主辦是AI tinkerer,他們辦的活動我覺得品質都不錯,因為來的人大多都是真的正在實做的人。
我們這組開發了一個語音助理,專門幫求職者談 offer。助理可以接 recruiter 的電話,提供資訊、安排面試,並且利用 o1 模型制定談判策略,最後還有一個 AI 會主動打給已有的 offer 嘗試提高薪資。
結論是—— 可以動,但動得不好。選這個應用場景本身就有問題,因為這類任務對求職者來說過於重要,不太可能放心外包給 AI。同時,語音 AI 本身也有不少技術與應用上的難題。
如果對demo有興趣,我錄了一個談判的部分的:
AI 語音技術的四大挑戰
這是我觀察+實作後,得出AI要用語音這個介面時,會遇到的幾個問題:
- Realtime vs STT+LLM+TTS
- 不懂讀空氣
- 太僵硬
- 太慢了
1. Realtime vs STT+LLM+TTS
當前有兩種常見的語音 AI 方法:
Realtime API(如 OpenAI 的 Realtime API)可直接輸入、輸出語音,並且具備語調與個性變化,實作簡單,效果更逼真。
傳統方法:語音轉文字 (STT) → LLM 處理 → 文字轉語音 (TTS),雖然失去自然的語調變化,但更可控。
詢問 OpenAI 團隊的人後,他們的觀點是:「需要情感、真實感時,Realtime API 會更合適;其他情境下,傳統流程更穩定。」所以現在的狀況就是必須得在可靠跟真實之間取捨。
2. 不懂讀空氣
語音助理最大的問題之一,就是 Turn-taking(輪流對話機制)不自然,
有時候講不停,像客服 AI 一直碎碎念。
有時候突然停下來,等人類說話。
有時候亂插話,我自己常常用ChatGPT語音都會用到牙起來。
這些問題源於 AI 缺乏對「社會習慣」的理解。要做到真正的「讀空氣」,AI 需要考量:
對方的語調與情緒
話題的前後脈絡
雙方的社交關係
這些因素讓語音 AI 很難做到自然的對話,還是有許多技術難點等著被解決。
3. 太僵硬
這個指的不只是機器生成的聲音僵硬,更多是整個流程的僵硬。
當想把AI語音助理用在某些任務上,勢必要在prompt裡面給指示,一旦給了指示,就很容易出現「劇本感」,AI會很執著想要說某些話,這時候就很難把它當成個互動性的對話,
就像遊戲裡那種強迫選擇,因為劇本太明顯,失去的帶入感。
4. 太慢了
語音相比文字 傳遞資訊速度慢,尤其是當 AI 必須生成自然語音時,這個問題更明顯。
我自己在開發過程中常常看到,文字輸出已完成,但語音還在慢慢唸。
現代人注意力很短,尤其跟ChatGPT這種文字的應用相比,等 AI 說話反而焦慮,很想按 A 跳過對話。
當資訊傳遞為目標時,語音反而是個低效的方式。
語音 AI 的成功應用場景
以上四點讓AI語音應用很難套用在現有的日常工作中,要不是做不到,不然就是不需要語音,又或是針對非常特定的族群,例如一定要用語音的年長者或是視障人士。
現有最成功的應該就是角色扮演聊天: 既然太僵硬,就只設定個角色,讓他自由發揮。要跟角色互動的人也不怕太慢,會心甘情願地聽完話。也滿足人類某種社交需求。
我自己看到的幾個有潛力的應用,剛好可以避開以上的缺點:
1. 閉嘴,聽話,做事
與其試著跟AI互動,不如讓AI靜靜地聽著你的說的話,乖乖記錄下來(transcribe),在適當的時候做出相對應的事(function calling),也不需要是即時應對。
應用範例:
飯店櫃檯助手: 這是受到另一組做的啟發,他們做的是一個給飯店櫃檯的工具,會在客人講話的時候聽著,幫櫃檯人員直接叫出相對應的設定,例如客人想要改預約,比起在那邊請稍等、按按按,AI直接改好櫃檯只要按確認。這個可能可以省個幾秒,但是在高級飯店或許就是個更高級的體驗。
會議助理: 在會議中常常會討論事情,然後最後有個人會去開ticket甚至在會議中大家看他開,但是這完全可以給AI聽,然後直接做。
語音筆記: 日常一點的例子,可以是自動把待辦事項加入,也可以是聽完一段討論後,幫忙補齊其他觀點或是搜集資料。
雖然2024穿戴式集體崩壞,但是看好2025穿戴式裝置像是omi、bee、limitless,這種全天語音記錄設備,記錄你的所有細節,再交給更強的model例如o1來進行複雜的工作。我現在正在測試omi的項鍊,使用下來感覺還在研發階段,不是很完整,不過期待他的發展。我自己是希望記錄方面一切都是local model可以保護隱私,甚至處理事情也能用local的模型來去除隱私資料。
2. 別來煩我,去煩別人
這個其實是我們組最一開始的想法,想要用語音助理去對付爛客服。
既然囉唆、僵硬、不真實、不懂讀空氣,那只能派他去跟煩人的人說話了。
很多相對老舊的服務都還是很依靠電話,例如航空公司、銀行、電信商、保險...,這些電話很多時候真的是讓人血壓飆高,可能要聽個40分鐘的音樂,轉個30次,最後講半天事情還沒有搞定。
這個應用AI可能非常適合,要我去討個退費,金額不大我想到就不想做,但是要是能派個人去盧小那當然沒問題,有退就賺到。
況且,電話的另一端已經在做了,很多客服都已經引進機器人,甚至很多公司都在做AI客服,畢竟2B賣公司賺錢。但是我們這些使用者為什麼我還要跟他講半天,AI就去跟AI講話吧!
當然這個方向還是有蠻多技術困難,當任務複雜一點,就很難用只給個單一目標就完成。
例如:退機票改時間,這個就牽扯到不只要退,還要比較哪個時間更便宜、更適合,很可能就要傳接更複雜的模型、甚是轉接多的不同的agent(就向我們打客服的時後一樣)。
這次hackathon有一部分就是希望我們想這個用法,但是要把同步的任務(對話)跟非同步的任務(推理)混合執行,其實是很難做到好的。
另一個可能的應用場景就是針對目標簡單明確、不需要對對方客氣的任務,例如要求退費。
這個有機會全部都用local模型,不用太好的聽力、不用太好的腦袋、不用太好的聲音,什麼沒有就有毅力,照三餐打,跟你講到你耳朵長繭,幾乎是在DOS別人的客服。以談判角度,可能這個效率很差,但是很多時候是會哭的小孩有糖吃,只要有講就有。
這個應用其實我在ChatGPT出語音前我就想過,現在有更多更好用的tool、模型,像是pipecat(處裡整體架構)、ollama(跑local模型)、kokoro(超小tts),或許是在重新開始探索的機會了。
總結
目前想要跟AI來個正常、有效率的對話可能還是要等等,至少在realtime api能夠媲美真人之前,都還是必須面對前面提到的問題。
當然價格也必須大幅度下降,還好這次openai有給$100塊credit,現在4o價格輸入是一般模型的16倍,輸出是8倍,打通電話一美金一美金的跳誰受得了?
但是語音相關的應用還是有其他旁支的應用值得探索,畢竟能夠用嘴詠唱就讓事情完成,真的會有種轉職法師的感覺。
補充資料
OpenAI 有一些starter repo都蠻有趣的,可以很快的跑起來,改動試試看自己的想法
Realtime Agent:有UI,還可以讓agent轉接,function calling也有,甚至有試著接到推理模型。
Realtime Agent Twilio Demo:串到twilio,可以真的打電話。