4月24日,DeepSeek V4正式开源发布。海外AI社区48小时内完成了第一轮系统性评测。
结论出来了,但出乎很多人意料。好消息是:V4-Pro在智能体(Agent)任务上排名所有已公开开源模型第一。坏消息是:它的幻觉率,比上一代有所上升。
这两件事放在一起,值得认真解读一下。
幻觉率是什么,为什么企业端比个人用户更在乎
「幻觉」是AI领域的专业术语,指的是:当模型不知道答案时,它会编造一个听起来很像真的回答,而不是说「我不知道」。注意:幻觉率94%,不是说V4有94%的回答是错的——它的含义是,在那些它本来不确定的问题上,有94%的概率选择给出回答而非拒绝回答。这个区别很重要。
对个人用户来说,这有时候只是个小麻烦——你问AI一道历史题,它编了个看似合理但其实不存在的事件,你查一下发现不对,重新问一遍就好了。
但对企业端来说,幻觉是一个合规性红线。医疗场景:AI给患者生成的用药建议,如果出现幻觉,可能引发医疗事故;法律场景:合同审查中AI引用了一条「并不存在」的法条,律师事务所面临违约风险;金融场景:AI生成的财报摘要中出现了错误数据,投资决策失误的责任归属极为复杂。这三个场景有一个共同特点:零容忍。
这就是为什么,幻觉率是企业选AI模型的核心指标之一——有时甚至比「聪明程度」更重要。
▸ V4-Pro幻觉率:94%(不确定时选择回答而非拒绝的概率)(来源:Artificial Analysis评测,2026年4月)
▸ V4-Flash幻觉率:96%(来源:Artificial Analysis评测,2026年4月)
▸ V4-Pro Agent评分:GDPval-AA 1554分,位列开源模型第一,超越Kimi K2.6(1484)(来源:Artificial Analysis,2026年4月)
▸ API定价:输入12元/百万token,输出24元/百万token(来源:DeepSeek API文档,2026年4月24日)
V4为什么在Agent能力提升的同时,幻觉率有所上升
▍Agent任务的本质:更长的推理链条
传统的「问答型」AI,一次对话通常完成一次推理。而Agent任务(如:帮我查三个供应商的报价,对比优劣,起草询价邮件)需要AI自主规划多个步骤,每一步调用工具、处理结果、再规划下一步。推理链条可以延伸到十步、二十步甚至更多。链条越长,每一步的小误差越有机会积累放大——类似「传话游戏」效应。这在一定程度上解释了为什么Agent能力强的模型,幻觉率也更难控制。
▍DeepSeek的技术取舍
根据Artificial Analysis的评测数据,V4-Pro在知识准确性(AA-Omniscience)上比V3.2有所提升,得分从-21改善至-10。但同时,当模型不确定时,它选择「大胆回答」而非「保守拒绝」——这正是幻觉率高的根本来源。这是一个明确的设计取舍:Agent场景中,一个「什么都不说」的模型会频繁卡住工作流,而一个「大胆推进」的模型能完成更复杂的任务,但引入了更高的出错风险。这不是V4的失误,而是技术路线的选择。
更强的工具,需要更谨慎的使用者。
企业端应该怎么用V4
「Agent第一+幻觉率偏高」的组合,并不意味着V4不适合企业使用,而是需要分场景部署。
▍适合大量使用的场景
①内容创作与研究辅助(文章起草、市场分析、竞品调研)——幻觉的代价是可接受的,人工审阅是最后一道关;②代码生成与调试——有工程师建议,代码层面的幻觉可以通过测试用例快速暴露,验证成本相对较低;③多步骤任务自动化(数据处理流程、格式转换、批量操作)——幻觉风险可以通过结果验证机制控制。
▍需要加强核查的场景
①法律文书生成与合同审查——幻觉引用法条是高风险行为,应作为辅助而非判断主体;②医疗建议与临床决策支持——监管合规要求明确,AI输出必须经过专业人员复核;③财务数据分析与合规报告——数字错误在财务场景代价极高。
对于企业AI负责人来说,真正的价值判断不是「V4幻觉率偏高,所以不能用」,而是「在哪些场景下,V4的幻觉风险是可控的,在哪些场景下需要加强审查」。
▸ V4-Pro运行成本:Artificial Analysis全套测评耗费约1,071美元,高于V3.2的71美元(来源:Artificial Analysis,2026年4月)
▸ V4-Pro输出token量:190M(仅测评套件),Token消耗显著高于同级开源模型
▸ 开源状态:V4-Pro与V4-Flash均已开源,支持本地私有化部署(来源:DeepSeek API文档,2026年4月24日)
Agent时代的幻觉问题,比过去更值得关注
过去,AI的幻觉问题主要是个人用户的体验问题。现在,随着AI进入Agent时代(AI自主完成多步骤工作流程),幻觉问题正在升级为更复杂的系统性挑战。
在Agent工作流中,每一步的输出都是下一步的输入。幻觉一旦出现,可能被后续步骤放大,而不是被隔离。这是整个AI行业正在面对的核心技术难题:如何在提升Agent能力的同时,把幻觉率有效压低。目前没有模型同时做到了两者的最优化。V4选择了「Agent优先」,另一些模型选择了「幻觉率优先」,这是不同的技术路线,适配不同的使用场景。
DeepSeek V4更聪明了,也更敢说话了。但「敢说话」和「说对话」,从来不是同一件事。
Agent能力排名开源第一,这是DeepSeek V4真实的技术突破。幻觉率偏高,这也是真实的技术代价。两件事都是真的,都值得认真对待。
对普通用户来说,V4用来写文章、做研究、辅助编程,完全没有问题。对企业端来说,在医疗、法律、金融这类「精确性要求极高」的场景部署之前,需要建立相应的人工核查机制。这不只是V4的局限,这是当前所有大模型都面临的现实。
作 者 |知予
免责声明:本文仅为信息分享与行业分析,不构成任何投资建议、投资分析意见或交易邀约。市场有风险,投资需谨慎。任何人依据本文内容作出的投资决策,风险与盈亏自行承担,作者及发布平台不承担任何法律责任。
信息来源
1. Artificial Analysis:《DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash》(2026年4月)
2. DeepSeek API官方文档:更新日志(2026年4月24日)
3. BentoML Blog:《The Complete Guide to DeepSeek Models》(2026年4月)
4. 每日经济新闻:《DeepSeek V4来了!"用国产算力跑国产模型"》(2026年4月25日)