前段时间各家龙虾该上场的基本都亮相了,世超也是顺便用了个爽,但最近又琢磨出个新问题:
这些大厂出品的“龙虾”虽然好上手又稳定,但闭源的总显得没那么自由。而原版的 OpenClaw 虽然是开源的,但个人维护,又没有那么稳定,属于一个大更新干掉一批插件的那种。
咋就不能像个成年人一样的全都要呢?
诶,就在这一堆产品中,给世超瞄见了一个走开源路子但大厂出品的项目:字节的“DeerFlow”,GitHub 上将近 6 万颗星星,已经迭代到 2.0 版本了。
这回终于不是水里游的虾了,上手把玩了几圈儿后,只能说,这只地上跑的鹿味道确实挺独特的。
咱先来个综合任务开开胃,看看它的处理逻辑是怎么样的,能不能像普通龙虾那样灵活的使用工具作为手脚。
图源小红书作者:想看演唱会
正好前段时间杭州的樱花开了,绿化带里还有很多郁金香,干脆让它梳理一下杭州绿化的常见花卉种类和花期。
能看出来,对于这种简单的任务,它不会过度调度工具,网络搜索一些信息后,就直接汇总了一份质量尚可的报告。
里面花卉科普,绿化标准,观赏指南乃至可视化都可圈可点,算是继承了上一代“深度调研”的优良传统。
接着稍微升级一下任务,让它尽可能多的调用工具,试着搭建一个用于展示的网页,要求主题相关,务必花里胡哨。
嘿,你别说,不看别的,就这满屏飘落的花瓣就有内味道了,没有什么多余的冗余分析,快速的拆分任务后,几个 Agent 按部就班的就把网页搓出来了,该有的信息展示也都有。
而且整个任务消耗才 15 万 token,作为对比,同样的模型,同样的提示词,默认配置下的 OpenClaw 差不多的效果要烧掉整整 30 万。
这就是大厂调教带来的优势了,工程管理这块儿确实能减轻点 Token 账单的负担。
其实,这次用的 DeerFlow 2.0 相比之前的 1.0 算是一次脱胎换骨的升级,代码没有一点共用的,整个都重写了,如果说以前是专精深度研究的专家,那现在更像是多层架构的任务执行引擎。
说大白话就是一套成品方案,用来调遣组合 Agent 帮你干活儿。
跟随叫随到的龙虾不同,它不太像呆在聊天框里什么都会点儿的管家,更像是一位专事专办的天选打工人,任务优先。
图源 X 用户:Gorden Sun
所以咱直接对号入座,看看怎么个任务优先法,观察一下多 Agent 协作的效果如何。
恰巧前些天 NASA 刚发射载人绕月的飞船,给世超羡慕的不行,这星辰大海的谁不想去看看,这回交给 DeerFlow,看它有没啥办法送咱登月。
一开始可能是提示词不够明确,它想走捷径坐商业化的飞船,小幽默了一下,然后拒绝了。那怎么行,咱这回可是认真的。
果然,没有嘻嘻哈哈后,它就转变画风开始调用技能包干活了,搜索分析可视化,十八般武艺都上阵了。
就结果来看,怎么说呢,太中规中矩了,由于难度有点高,报告基本就是把搜索的资料走马观花了一下,而且子 Agent 也就调用了一个,多少有点敷衍。
这里也能看出,虽然模型本身的性能决定了结果的上限,但这些工程化的调用手段才是保证活儿能跑通的底座。
在这方面,OpenClaw 这种个人项目往往激进一些,但大厂的调教会更偏向保守和稳妥,拆解和规划并不会上来就指派一大群 Agent 去干活儿。
当然咱不能止步于此,还得再压榨压榨,看看长线任务他到底能不能跑通。
一番解释后,主 Agent 终于意识到了事情的严重性,开始将任务拆分为更细的子任务,交给不同的 Agent 去完成,有资本积累,技术路线,商业市场,法律监管以及身体医学共 5 个部分。
在跑了半个小时,烧掉 150 万 Token 后,它终于给出来一份比较细的登月企划书。
整本计划二十万字,内容也不是简单的拼接,有索引总纲,跨章节也有交叉引用的地方,能看出来任务流程是能跑通的,世超接下来也就安心去准备了,2036 年咱就月球见哈。
诶等等,其实话说回来,看着能跑通其实不一定内容就真的妥当,当然咱不是说按着计划不能上天就算它失败了,而是内容本身其实还有不小的问题。
比如随便打开一篇文章,就能发现,除了目录文档,剩下的章节内容虽然十分详实,但语言却是英文的。
原因也好理解,就是在如此庞大的上下文任务中,光是输出就有 20 万字,全都一次性塞进模型是不现实的,会直接把上下文窗口给挤爆,所以依托 DeerFlow 的调教进行内容的管理和压缩才是更合理的解决方案。
而显然,这里的默认调教还是英文推理加中文显示,所以在一些环节就容易出现输出语言倾向的混乱。
后面世超又让它根据企划书中的航天技术章节生成了一份 PPT,结果消耗的 Token 比整个调研过程都多。
不过虽然从效果来看没有特别突出,但一些任务执行上的选择倒是比较成熟。
尤其是在隔离沙箱中执行,一些操作的权限它没有,但此时进程并不会卡顿停滞,它会根据情况或给出方案,或直接跳过先去干其他活儿,最后再汇报情况。
这种任务规划的方式虽然容易导致它“摸鱼”,但确实更可靠一些,不会陷入死循环搁那儿空烧 Token。
但说了这么多顺利执行的地方,DeerFlow 真就摆脱了 OpenClaw 的偶尔智障么?
那倒也没有,何况龙虾还有各个大厂去做降低门槛的产品,DeerFlow 这个本来就是面向开发者的开源项目,用起来反而更麻烦。
比如龙虾可以在网页上配置模型,参数或者接口,但 DeerFlow 里,就得老老实实在满是代码的配置文件中自己修改环境变量。
除此之外,一些小 Bug 也挺影响使用体验的,世超用的时候,就老是丢失前面的对话记录,遇到权限问题,还得反复回到后台去更改设置,一趟下来得修修改改的地方还挺多的。
现在的它好比一箱子非常专业的修理工具,各种型号的扳手卡钳一应俱全,但实际上咱日常里可能就是个拧螺丝的活儿,工具多了反而不好找了。
总的来说,DeerFlow 可玩性确实很强,各个部分都能单拿出来自己修改,但相应的使用门槛也挺高,所以现在并不推荐个人用户去费劲鼓捣。
不过就现在这个摸着石头过河的阶段,咱就索性让这些虾啊鹿啊在竞技场里边战斗边进化吧,总归会角逐出那个真正能实际干活儿的赛博帕鲁。
撰文:风华
编辑:早起 & 江江 & 面线
美编:焕妍
图片、资料来源:
Github,小红书,X,DeerFlow,网络