发布时间：2026/5/28 0:58:54

别整虚的，手把手教你如何调用ollama api，小白也能秒上手

别整虚的，手把手教你如何调用ollama api，小白也能秒上手

大家好，我是老张。

在AI圈摸爬滚打15年了。

最近好多朋友问我。

说本地部署大模型很爽。

但就是不知道咋调用。

其实真没那么复杂。

今天我就把压箱底的干货。

毫无保留地分享给你们。

首先，你得装好Ollama。

这步很简单，官网下载。

Linux用户直接一行命令。

Windows用户去下exe。

装好后，拉取一个模型。

比如我最常用的Llama3。

命令是：ollama run llama3。

这时候模型就在本地跑起来了。

默认端口是11434。

记住这个端口号。

后面调用全靠它。

接下来就是重头戏。

如何调用ollama api。

很多人觉得要写代码。

其实用curl最简单。

适合快速测试功能。

打开你的终端或者命令行。

输入这行代码试试：

curl http://localhost:11434/api/generate -d '{

"model": "llama3",

"prompt": "你好，世界"

}'

注意看，这里有个坑。

很多新手会漏掉末尾的回车。

导致JSON格式报错。

一定要确保格式正确。

如果你用Python调用。

那就更简单了。

安装requests库。

然后写几行代码就行。

import requests

url = "http://localhost:11434/api/generate"

data = {

"model": "llama3",

"prompt": "解释一下量子纠缠",

"stream": false

}

response = requests.post(url, json=data)

print(response.json()['response'])

这里有个小细节。

stream参数设为false。

是等待完整回答。

如果设为true。

就是流式输出。

像打字机一样一个个字蹦。

这个体验更好。

但处理起来稍微麻烦点。

得逐行读取响应。

我有个客户叫小王。

他是做电商的。

想搞个智能客服。

一开始他不懂技术。

找外包公司花了2万。

结果代码一堆bug。

后来他自己研究。

发现直接调API就行。

省下的钱都够买显卡了。

他用了流式输出。

用户感觉响应很快。

其实后台还在计算。

这种心理暗示很重要。

还有啊，别忽视错误处理。

网络断了咋办？

模型崩了咋办？

得加try-except块。

或者用重试机制。

我见过太多人。

只写成功路径。

一旦报错就懵逼。

其实日志记录很关键。

把请求和响应都存下来。

方便后续排查问题。

另外，提示词工程。

也是调用的核心。

别只问简单问题。

试着让模型扮演角色。

比如：你是一位资深程序员。

请帮我优化这段代码。

这样出来的结果。

质量明显高很多。

我测试过，准确率提升了大概30%左右。

当然，具体数值看模型。

不同模型表现不一样。

最后总结一下。

如何调用ollama api。

核心就是两点。

一是端口别搞错。

二是JSON格式要对。

剩下的就是调试。

多试几次就熟了。

别怕报错。

报错是常态。

解决报错才是成长。

希望这篇笔记能帮到你。

如果觉得有用。

记得点个赞再走。

下期讲讲模型量化。

那个更硬核。

咱们下回见。