很多兄弟刚入手了AMD的显卡,兴冲冲地想跑个大模型,结果一查资料,全是NVIDIA的CUDA教程,心里瞬间凉半截。是不是觉得手里的卡变砖头了?别急,今天咱就掏心窝子聊聊,AMD到底可以部署哪些大模型,以及怎么让它们在自家硬件上跑起来。
首先得泼盆冷水,AMD在AI领域的生态确实不如NVIDIA成熟,但这不代表不能用。这几年ROCm的发展肉眼可见地变快,尤其是7000系列和最新的9000系列显卡,对大模型的支持越来越友好。如果你问AMD可以部署哪些大模型,答案其实是:绝大多数主流开源模型都能跑,只要你会折腾。
最常见的LLaMA系列、ChatGLM、Qwen(通义千问)、Baichuan(百川),这些在国内火得一塌糊涂的模型,在AMD显卡上基本都能跑。关键在于你用的框架和驱动。以前大家总说AMD跑AI是“劝退”,那是因为以前得手动编译各种库,门槛极高。现在好了,Hugging Face的Transformers库对ROCm的支持已经做得相当不错,很多模型直接就能加载。
但是,这里有个巨大的坑,也是很多新手翻车的地方:显存优化。NVIDIA有TensorRT-LLM这样的杀手锏,AMD这边虽然也有优化方案,但普及度没那么高。所以,如果你显存只有8G或者12G,想跑70B参数的模型,那基本没戏,别硬撑。建议至少16G显存起步,最好是24G,这样跑7B到13B的量化模型会比较从容。比如Qwen2-7B-Instruct,在24G显存的RX 7900 XT上,配合bitsandbytes量化,推理速度虽然比同价位的RTX 4070 Ti Super慢一点,但完全能接受,毕竟性价比摆在那。
再说说环境配置。这是最头疼的。Windows用户可能比较难受,虽然AMD推出了DirectML,但速度感人,基本只适合玩玩小模型。真想正经搞AI,Linux是必须的,或者WSL2。在Linux下,安装ROCm驱动是第一步。这一步经常报错,特别是内核版本不匹配的时候。一旦驱动装好,安装PyTorch时记得选ROCm版本,别下错了。很多教程里写的pip install torch,对于AMD用户来说,得去官网找对应的whl包,或者用conda安装,这一步搞错了,后面全是bug。
还有一个容易被忽视的点:模型格式。现在大模型大多用GGUF格式,配合llama.cpp运行,这对AMD显卡非常友好,因为llama.cpp对ROCm的支持一直在更新。相比Hugging Face的原始格式,GGUF加载更快,显存占用更可控。所以,如果你发现直接加载HF模型OOM(显存溢出),试试转成GGUF格式,用llama.cpp跑,可能会柳暗花明。
当然,AMD可以部署哪些大模型,还取决于你的具体需求。如果是做RAG(检索增强生成),对实时性要求不高,AMD显卡完全胜任。但如果是做实时对话,且对延迟极其敏感,那可能还是NVIDIA更稳妥。毕竟,生态的完善度决定了上限。
最后想说,用AMD跑大模型,是一种“极客”精神。你付出的时间成本,是为了获得更高的性价比。别指望像NVIDIA那样开箱即用,但当你成功让Qwen在自家显卡上流畅运行,那种成就感是无可替代的。别被网上的“AMD无用论”吓倒,多试几次,多查查最新的ROCm文档,你会发现,这条路其实没那么难走。毕竟,技术是在不断迭代的,今天的坑,明天可能就填平了。保持耐心,多动手,你也能成为那个在AMD显卡上跑通大模型的人。