做了七年AI这行,天天跟各种模型、接口、API打交道,说实话,现在网上那些营销号写的东西,看多了真让人头大。今天不整那些虚头巴脑的概念,就聊聊大家最关心的一个实际问题:bing chatgpt4.0有语音对话吗?很多小白用户,特别是刚接触大模型的朋友,看到ChatGPT有语音功能,就下意识觉得Bing Copilot(也就是大家说的bing chatgpt4.0)肯定也有,或者觉得只要升级了就能用。其实吧,这事儿没那么简单,里面水挺深。
先说结论,直接点:目前的Bing Chat界面里,并没有像ChatGPT Plus那样明显的“耳机”图标让你直接点进去进行双向语音通话。你打开Bing搜索框,输入问题,它给你文字回复,这是标配。但是,这不代表它完全不能“听”和“说”。
这里得区分两个概念:输入和输出。在输入端,现在的Bing Copilot是支持语音输入的。你点击输入框旁边的麦克风图标,它可以把你的话转成文字,然后它再基于GPT-4的能力给你生成文字回答。这个过程是有的,很多用户可能没注意,或者以为这只是个辅助功能。但在输出端,也就是它回答你的时候,它主要是文字。虽然微软在Edge浏览器里集成了一些朗读功能,你可以选中它的回答点击“朗读”,但这跟那种流畅的、像打电话一样的实时语音对话,完全是两码事。
我最近帮几个客户做企业级的大模型应用集成,发现很多老板一上来就问:“能不能直接语音交互?”我一般先给他们泼盆冷水。你看,ChatGPT的语音模式,那是专门针对移动端App优化的,延迟低,体验好。而Bing Copilot,它的核心场景是“搜索+对话”,它更像是一个超级搜索引擎的增强版,而不是一个陪你聊天的语音助手。如果你指望像Siri或者小爱同学那样,随时喊一声它就回你,那在Bing网页版上你会失望。
再说说价格和功能对比。ChatGPT Plus每月20美元,除了无限制使用GPT-4,还解锁了高级语音模式。而Bing Chat(现在叫Copilot)是免费的,它背后也是GPT-4的技术支撑,甚至在某些搜索场景下,它的响应速度比ChatGPT还快。但是,免费的东西肯定有取舍。微软把资源主要放在了多模态理解(比如上传图片让它分析)和联网搜索上,语音对话这块,目前确实不是它的重点。
有些朋友可能会说,我看到网上有人演示Bing有语音啊?那可能是两种情况。第一,他们用的是Edge浏览器的“大声朗读”功能,这是浏览器自带的TTS(文本转语音)引擎,不是模型原生的语音对话能力。第二,他们可能是在测试版里,微软偶尔会灰度测试新功能,但这对绝大多数普通用户来说,不可用,也不稳定。
所以,回到那个问题:bing chatgpt4.0有语音对话吗?严格意义上,没有原生的、双向的、实时的语音对话功能。它支持语音输入,支持文字输出的朗读,但不支持像打电话那样的一问一答。
如果你真的需要语音对话,建议还是老老实实用ChatGPT App,或者国内的通义千问、文心一言等,这些国产模型在语音交互上做得更接地气,而且免费额度给得足。别为了追求所谓的“GPT-4”标签,去折腾那些并不成熟的语音功能。
最后提醒一句,买服务或者做技术选型的时候,别光看参数,要看场景。你是要写代码、查资料,还是要开车时听新闻?场景对了,工具才好用。别被那些“全能”的宣传语给骗了,AI再强,也有它的短板。咱们做技术的,得心里有数,不然容易踩坑。希望这篇大实话能帮到正在纠结的朋友,少走弯路,多省点钱。毕竟,现在的环境,每一分钱都得花在刀刃上。