(資料圖)
OpenAI發(fā)布語音模型GPT-realtime。GPT-realtime是一個專用于語音AIAgent的多模態(tài)模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調(diào)、情感以及語速,支持圖像理解并將其與語音或文本對話相結(jié)合使用,非常適用于客服、教育、金融、醫(yī)療等領(lǐng)域打造語音智能體。GPT-realtime還新增了Marin與Cedar兩種極具特色的語音,同時對原有的8種語音也進行了全面升級。
與傳統(tǒng)純語音模型不同的是,GPT-realtime還具備智力、推理和理解能力,例如,能夠敏銳捕捉笑聲等非語言信號,在句子中間自如地切換語言,并根據(jù)場景需求靈活調(diào)整語氣。根據(jù)評估數(shù)據(jù)顯示,在多種語言環(huán)境下,GPT-realtime對字母數(shù)字序列的檢測準(zhǔn)確率大幅提升,在用于衡量推理能力的BigBenchAudio評估中,準(zhǔn)確率高達(dá)82.8%成為目前最強智能語音模型。
營業(yè)執(zhí)照公示信息