说实话,刚看到那个新闻的时候,我整个人是懵的。

说是ChatGPT能视频通话了,还能实时互动。我第一反应是:卧槽,真的假的?

毕竟我在大模型这行混了九年,什么妖魔鬼怪没见过。从最早的只能打几个字,到后来能写代码、能画图,现在居然要跟我“面对面”聊天了?

我立马下载了最新版的App,准备搞个chatgpt视频通话做实验。心里其实挺期待的,毕竟谁不想有个随叫随到的数字人助手呢?

结果呢?

真的,气死我了。

我对着手机摄像头,假装在开会,想让它帮我总结一下刚才老板说的废话。它倒是接住了,画面里的AI小姐姐笑得那叫一个甜,声音也温柔。

但只要你稍微细看,就会发现全是破绽。

首先,眼神不对。

你看那眼神,直勾勾的,完全没有那种“人在看人”的灵动。就像是个提线木偶,或者说是个高级版的Siri穿上了人皮。

其次,反应有延迟。

虽然官方宣传说是毫秒级响应,但我这边说话,它那边嘴角动得明显慢半拍。这种微表情不同步,看着特别别扭,让人心里发毛。这就叫恐怖谷效应,懂吗?

我试着问了个稍微复杂点的问题,比如让我描述一下窗外现在的天气。

它居然开始胡扯了。

我说外面下着大雨,它说阳光明媚。

我当时就想把手机扔了。

这哪里是智能助手,这分明就是个还没训练好的实习生,在那儿瞎编乱造。

很多人可能觉得,这不挺好吗?能看能听。

但我告诉你,现在的技术,离真正的“视频通话”还差着十万八千里。

所谓的chatgpt视频通话做实验,更多是一种营销噱头。

大厂们需要故事,需要股价上涨,需要用户觉得他们又领先世界一步。

但对于我们这种天天跟数据打交道的人来说,一眼就能看出其中的门道。

背后的逻辑很简单。

它并不是真的在“看”你。

它是在分析你的视频流,提取关键帧,然后扔给多模态模型去理解。

理解完了,再合成一个表情,播放出来。

这一来一回,中间隔着多少层算法,多少层服务器延迟?

你以为你在跟AI聊天,其实你是在跟一堆代码和算力玩捉迷藏。

而且,隐私问题更是个大坑。

你想想,你要把摄像头对着它,把你的脸、你的背景、甚至你家里的陈设都暴露给一个黑盒模型。

它到底记下了什么?

它会不会把你的脸存下来,下次换个马甲继续跟你聊?

这些技术细节,官方从来不提。

他们只提那个光鲜亮丽的界面,只提那个流畅的对话体验。

我做了个简单的chatgpt视频通话做实验,发现它的逻辑能力还不如文字版。

文字版至少能推理,能查资料。

视频版呢?全靠“演”。

它演得像个人,但它没有脑子。

如果你指望它能帮你解决什么实际难题,趁早死心。

它连你刚才说的“左边的椅子”是哪把椅子都搞不清楚,因为它根本不懂空间关系,它只是根据概率猜你可能在说哪。

这种技术,现在拿来逗逗小孩,或者拍个短视频装装逼,还行。

真要拿来干活?

拉倒吧。

我甚至怀疑,这背后是不是有人工在偷偷操作?

毕竟,要让一个AI做到眼神不飘、表情自然、逻辑在线,以目前的技术水平,成本太高了。

与其说是AI进化了,不如说是特效技术进步了。

所以,别被那些花里胡哨的功能迷了眼。

大模型行业的水,深得很。

我们从业者看得很清楚,现在的很多“突破”,不过是旧瓶装新酒。

视频通话?

呵,不过是把文字转语音,再配个皮套罢了。

如果你真想体验,可以去试试。

但别抱太高期望。

你会发现,它除了长得像个人,说话像个客服,其他方面,一无是处。

这就是我的真实体验。

不吹不黑,全是干货。

希望这篇关于chatgpt视频通话做实验的文章,能帮你省下那点好奇的时间。

咱们还是老老实实写代码、写文案吧。

那才是AI真正能帮上忙的地方。

至于视频?

还是留给真人吧。

毕竟,真诚的眼神,是演不出来的。