2026年6月12日,第八届“北京智源大会”在中关村国际创新中心开幕。



北京智源大会是智源研究院主办的“AI内行学术盛会”,以“技术前沿、国际视野、青年人才”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。本届大会,现代数字安全体系奠基者Whitfield Diffie线下参会,聚焦Agent时代的安全与可信挑战;强化学习奠基人Andrew Barto追问“交互驱动智能”对于下一代AI系统的意义。30余位30岁以下青年科学家,40余位AI企业CEO、创始人与首席科学家,200余位顶尖专家学者将齐聚北京,中国AI产业世界模型与Agent领域最具代表性的创新力量首次集中同台。20余家全球顶尖科技企业及高校科研机构,包括Meta、英伟达、哈佛、MIT等,将与阿里、腾讯、小米、生数科技、面壁智能、清华、北大、人大等中国AI行业最核心的创新力量同场交流。同时,大会还汇聚数百位全球AI领域学术中坚力量,一同围绕世界模型、通用智能体、具身智能、AI安全、AI Native教育、Token经济与OPC、智能计算底层架构等前沿方向展开精彩演讲和前瞻性对话。



开幕式由智源研究院理事长黄铁军主持。



智源研究院院长王仲远做2026年研究进展报告,发布智源研究院在基座大模型、智能体、基础软硬件生态等前沿技术领域的探索成果和开源生态建设的最新动态。

自2018年成立以来,智源研究院先后发布了“悟道”系列大模型和“悟界”系列大模型,构建了自底向上的全栈大模型开源技术体系。无论是在大模型发展的早期,还是在物理AI的全新时期,智源研究院始终在引领人工智能大模型的前沿研究探索。截至目前,智源开源模型超200个,全球总下载量累计超过10亿次。同时也孵化了一系列在大模型领域和具身智能领域非常具有代表性的创新创业企业。

2024年智源大会上,智源发布了对于人工智能尤其是大模型技术的演化路径的预判。当下,人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。过去一年里,智源在基座大模型、智能体以及基础软硬件生态三个领域取得令人瞩目的科研进展。基于智源在多模态大模型以及世界大模型上的探索,智源研究院系统性地梳理了世界模型发展历程,以及对现有世界模型技术的四大分类,并介绍了正在研发中的悟界·Physis。

基座大模型

2024年智源大会发布的“悟界”系列大模型,旨在解决人工智能从数字世界迈向物理世界的关键能力,并且构建面向物理世界的人工智能基座模型。2025年10月正式发布的悟界·Emu3.5仅基于“预测下一个词元(Next-Token Prediction)”,实现了大规模文本、图像和视频的统一学习,实现了多模态理解和生成任务的统一学习,这一原创性的成果在今年1月份刊发于Nature正刊,创造了国产多模态大模型的众多纪录。

今年,智源大会也带来了一系列创新成果发布:悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,将Next-Token Prediction范式扩展到神经科学领域所构建的多模态脑科学通用基座,由智源联合清华团队基于悟界·Brainμ开展的研究成果也已刊发于Science;与悟界·Brainμ1.0一同发布的还有全球最大最全的AI-Ready神经科学数据集和全球最大的AI-Ready数据平台BrainToken;悟界·OpenComplex2.5是可泛化、物理真实的下一代AI驱动药物发现模型,能精确解析IDP灵活构象,系统性赋能创新药物研发全链路,以单一模型覆盖制药四大关键步骤。悟界·Physis-v0.1是全球首个通用世界基座模型,以统一物理状态学习,实现物理正确、动作因果可溯、长程一致、通用泛化,最终达到全垂类场景应用。

智能体

针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难的四大挑战,智源构建了自底向上的全栈具身智能技术体系,并先后发布了悟界·RoboBrain和悟界·RoboOS。智源正在研发中的悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑,融合了大量Ego-centric交互数据,强化世界模型的具身表征,提升下游少样本和跨场景泛化的能力。同时,结合智源研究院作为科研机构的属性以及在科研项目上的布局,智源推出了四款自主研发的智能体,它们分别面向心脏辅助诊断、科学发现、个人专属助理以及生物安全防护等领域。

基础软硬件生态

智源与开源社区共建了众智FlagOS,将企业面临的“M款模型与N款芯片”适配难题简化为“多模型+多芯片”的统一接入解决方案。FlagOS2.1能够支持18家芯片厂商的32款芯片,是全球覆盖芯片数量最多的计算系统软件栈。FlagOS的算子总数已超过600个,并且仍然在快速增长。同时FlagOS还能够支持18家芯片厂商的统一编译器和12家芯片厂商的统一通信库。目前,FlagOS的生态成员已经超过80余家,全球下载量超过37.5万次,触及开发者5.6万人。

悟界系列大模型:面向物理世界构建的人工智能基座模型

如今,随着多模态模型的研究深入,人工智能正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。

智源研究院是国内最早提出并开展世界模型研究的科研机构。2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。基于在大模型领域持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0.1。悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。

智源认为,现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。



在智源看来,世界模型作为面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。