实体提取大模型的方法：别迷信Prompt，试试这3个土办法-outao 严选

本文关键词：实体提取大模型的方法

最近跟几个做数据清洗的朋友聊天，发现大家都有一个共同的焦虑：用大模型做实体提取，看着挺高大上，真落地的时候全是坑。你让GPT-4去抓合同里的甲方乙方，它偶尔能抓对，但更多时候是在“幻觉”，或者把一些根本不该出现的词硬塞进去。我也踩过这个坑，之前为了赶项目，直接扔给模型一堆Prompt，结果返回的数据格式乱七八糟，还得人工再清洗一遍，时间没省下来，头发倒掉了一把。

其实，所谓的“实体提取大模型的方法”，核心不在于模型有多强，而在于你怎么把它当工具用。别总想着让模型“理解”语义，它本质上就是个概率预测机。

第一个土办法，叫“少样本学习加约束”。别光给定义，给例子。比如你要提取新闻里的地点和人物，别只说“请提取地点”，你要给三个例子，一个是简单的，一个是带歧义的，一个是复杂的。我在一个医疗数据项目中试过，加了五个典型病例的输入输出示例后，准确率直接从60%飙到了85%。注意，这里的例子不用多，但要精。而且，一定要限制输出格式，比如强制要求JSON，甚至可以在Prompt里写死字段名，这样后续解析代码才不用写一堆正则表达式去猜它到底想干嘛。

第二个方法，是“分而治之”。很多团队喜欢让一个大模型一次性把文本里所有的实体都抓出来，结果往往顾此失彼。我的经验是，把任务拆细。先让模型识别出所有的人名，再单独跑一遍提取地名，最后再跑一遍机构名。虽然调用了三次API，成本稍微高了一点点，但每个任务的上下文更集中，模型的注意力更聚焦，准确率反而更高。特别是处理长文本时，这种分步策略能避免模型“记不住”前面的信息。当然，这需要你的后端逻辑稍微复杂点，得把三次结果合并去重，但这点代码工作量比起后期修Bug来说，简直是小菜一碟。

第三个方法，可能最不被看好，那就是“规则兜底”。别全信模型。对于某些极其专业的领域，比如金融合同里的特定条款编号，或者医疗记录里的特定药品通用名，大模型可能会因为训练数据偏差而搞错。这时候，你得结合传统的正则表达式或者词典匹配。比如，先让大模型提取出大概范围，然后用规则去校验格式。如果模型提取的日期格式不对，直接用正则修正；如果提取的药品名不在标准库里，直接报错或标记人工审核。这种“人机协同”的方式，才是目前最稳妥的工程实践。

我有个客户，做跨境电商的，需要提取商品评论里的优缺点。刚开始他们纯靠模型，结果把“不喜欢”和“喜欢”搞反了，因为模型对否定词的敏感度不够。后来他们加了一层逻辑判断，如果提取出的情感倾向与关键词出现的位置距离过远，就标记为低置信度，转人工复核。这一招下来，人工复核率降到了5%以下。

说到底，实体提取大模型的方法，没有银弹。别指望一个Prompt解决所有问题。你得根据业务场景，灵活组合少样本、分步处理和规则校验。数据质量决定了上限，而工程化的思维决定了你能不能稳定地跑到那个上限。

如果你也在为实体提取的准确率头疼，或者不知道该怎么设计Prompt结构，欢迎聊聊。我不卖课，也不推销软件，纯粹分享点踩坑后的实战经验。毕竟，数据清洗这事儿，没人能免俗，大家一起少走弯路才是正经事。