多模态大模型有哪些？老鸟掏心窝子聊聊2024年到底该选谁-outao 严选

多模态大模型有哪些？

干这行十一年了，我见过太多老板一上来就问：“老师，多模态大模型有哪些？我要那个能看图又能写诗的。” 我心想，你连自家数据格式都没理顺，搞什么诗啊？

咱不整那些虚头巴脑的概念。多模态大模型有哪些？说白了，就是能同时听懂人话、看懂图、甚至听懂视频的大模型。以前我们做NLP（自然语言处理），现在得搞CV（计算机视觉）+ NLP + Audio（音频）混合双打。

先说几个市面上常见的“硬通货”，别被那些花里胡哨的PPT忽悠了。

第一类，闭源巨头派。像阿里的通义千问VL，百度的文心一言，还有国外的GPT-4o。这帮家伙厉害在哪？在于“通”。你扔给它一张复杂的财务报表截图，它能给你提炼出关键数据；你录一段嘈杂的会议录音，它能给你整理出会议纪要。但坑也在这，闭源模型贵啊！API调用费死贵，而且数据存在人家服务器上，敏感行业根本不敢用。我有个做金融的朋友，去年为了合规，硬是把基于GPT-4o的方案给砍了，转而搞私有化部署，结果服务器电费都交不起。

第二类，开源开源再开源。比如百川的Baichuan系列，还有智谱的GLM-4。这帮兄弟主打一个“灵活”。对于中小公司来说，多模态大模型有哪些选择？开源的就是你的救命稻草。你可以把模型下载下来，在自己机房跑。虽然调优麻烦点，得找懂算法的工程师去微调（Fine-tuning），但数据安全啊，隐私保护啊，全掌握在自己手里。不过，这里有个大坑：显存。跑一个大点的多模态模型，起码得A100或者H800显卡，一张卡好几万，你算算成本？

第三类，垂直领域专家。比如专门做医疗影像的，或者专门做工业质检的。这些模型可能通用能力不强，但在特定场景下，准确率能吊打通用大模型。比如你在工厂里做螺丝钉质检，用通用大模型看图片，它可能跟你扯半天哲学；但用垂直模型，0.1秒就能告诉你这螺丝有没有瑕疵。

那多模态大模型有哪些实际应用场景？

1. 智能客服：以前只能文字回复，现在能看图。客户拍张坏件照片，客服机器人直接识别并指导退换，效率翻倍。

2. 内容创作：短视频脚本生成。输入一段视频素材，模型自动分析画面，生成文案和配音建议。

3. 文档处理：PDF转结构化数据。特别是那些带复杂表格的PDF，传统OCR搞不定，多模态大模型能直接提取成Excel格式。

避坑指南，全是血泪教训：

1. 别盲目追求最新。最新的模型往往Bug最多，稳定性差。对于企业应用，稳定比聪明重要。

2. 别忽视数据质量。垃圾进，垃圾出。你喂给模型的数据要是乱七八糟的，它吐出来的也是废话。

3. 别低估算力成本。多模态模型比纯文本模型吃资源多了。别听销售忽悠“几千元就能搞定”，那是玩具价格。真实落地，算上推理成本、存储成本、人力成本，没个几十万起步别想玩得转。

最后给点实在建议。

如果你是小微企业，预算有限，建议先用闭源API试试水，成本低，见效快。等跑通了商业模式，再考虑私有化。

如果你是中大型企业，或者对数据敏感，建议走“开源模型+自研微调”的路子。找个靠谱的合作伙伴，别自己从头搞，容易死在半路上。