干了十五年AI,见过太多想靠“试卷切题”暴富的同行,最后大多灰溜溜地关了店。今天不整那些虚头巴脑的概念,就聊聊咱们普通人怎么低成本搞一套能用的试卷切题系统。很多人问试卷切题大模型怎么做,其实核心不在模型多牛,而在数据清洗和提示词工程。

先说个真事。去年有个做教辅的朋友找我,说搞了个开源模型,识别率只有60%,错得离谱,连“选择题”都认成“填空题”。我一看日志,好家伙,OCR识别出来的文字全是乱码,直接喂给LLM,那能不错吗?这就是典型的“垃圾进,垃圾出”。

要想做好试卷切题,第一步,别急着调大模型。你得先把图片处理干净。我现在的流程是:先用开源的PaddleOCR或者商业级的Tesseract,把试卷图片转成文本。这里有个坑,试卷上的手写体、公式、图表,OCR根本搞不定。我的土办法是:对于复杂的数学公式和化学方程式,单独截图,用专门的公式识别模型(比如Mathpix的API,虽然贵但准)处理,剩下的纯文本再用通用OCR。别省这点钱,否则后面大模型改bug的时间够你喝十杯咖啡。

第二步,构建你的“题库”思维链。很多人以为把文本扔给大模型就能自动切题,太天真了。大模型不懂“题号”的逻辑。你得写一套详细的Prompt(提示词)。比如,我现在的模板是:“你是一个资深教研员,请根据以下文本,识别出题号、题干、选项(如有)、正确答案和解析。注意:1. 忽略页眉页脚;2. 如果题干包含图片描述,请用[图片]代替;3. 保持原题格式。” 这里的关键是“少样本学习”(Few-shot Learning)。你得在Prompt里给3-5个完美的例子,让模型模仿。比如给一个标准的选择题切分示例,模型才知道什么叫“正确”。

第三步,人工复核+迭代。别信什么100%自动化,那是骗人的。我现在的流程是:机器初筛 -> 人工快速浏览 -> 错误数据回灌到微调数据集。这里有个细节,不要只记录错误的,要把那些“模棱两可”的也存下来。比如,有些题目题干很长,中间插了一段背景材料,模型容易把背景材料当成题干的一部分。这种case最有价值,能帮你优化Prompt。

关于试卷切题大模型怎么做,很多人纠结要不要微调。我的建议是:初期别微调。用RAG(检索增强生成)或者好的Prompt就能解决80%的问题。微调成本高,且容易过拟合。等你积累了1000+条高质量切题数据,再考虑用LoRA微调一个7B的小模型,性价比最高。

再分享个数据,我测试过,用GPT-4o做最终校验,比直接用Qwen-72B准确率高出15%左右。虽然贵,但为了质量,值得。你可以先用便宜的模型跑一遍,把置信度低的(比如模型自己都不确定的)挑出来,送给GPT-4o复核。这样既省钱,又保证质量。

最后,别指望一劳永逸。试卷格式千奇百怪,新题型层出不穷。你得建立一个“错题本”机制,每次发现切题错误,就分析原因:是OCR错了?还是Prompt没覆盖?还是题目本身有歧义?把这些case整理好,定期更新你的Prompt库。

如果你还在为试卷切题大模型怎么做而头疼,不妨从最简单的OCR+Prompt开始,别一上来就搞大工程。真实的生活里,粗糙但有效的方案,往往比精致但脆弱的系统走得更远。有具体技术卡点的,欢迎来聊,咱们一起避坑。