推理芯片、存算一体、灵巧手、智能眼镜、太空算力、AI数据基础设施、智能底盘、合成生物——这是杭州2026年最受追捧的八家科技公司的赛道。

外界给了它们一个名字:杭州新八骏。

跟两年前的“六小龙”放在一起看,变化肉眼可见。

六小龙出圈时,无论是大模型对话、四足机器人还是3A游戏,大家都能立刻想到一个具体的产品画面。新八骏的画风完全不同:这些赛道更深、更基础,大部分离日常生活很远,却离产业根基很近

从“软”到“硬”,杭州正在把产业重心从看得见的应用层,向下扎进看不见的基础设施。

杭州决定变“硬”

过去20多年,杭州讲了一个关于“软”的故事。

从湖畔花园的公寓,到全球最大的电商生态,从改写国人的支付习惯,到亚洲领先的云计算平台,杭州定义了数字经济。这座城市擅长用代码和算法,把商业效率提升到极致。

但“软”的繁荣有一个不常被提起的前提,即它需要一个坚实的硬件基础。服务器用别人的芯片,模型跑在进口的GPU上,开发工具链来自大洋彼岸。杭州把上层应用做到了世界一流,但楼盖得越高,那截看不见的桩基就越让人悬心。

特别当人工智能从实验室快速渗透到千行百业,这个问题变得无法回避:杭州能不能从上层往下延伸,拥有自己的产业底座?

新八骏的出现,正是这个转向的产物。

八条赛道,全部扎在底层。芯片、数据基础设施、生物代码、太空算力——越基础,也越不可或缺

一个经常被问到的问题是:为什么是杭州?

杭州给出了两样稀缺的资源支持。一是耐心资本。新八骏中,杭州金投投了4家,杭州资本通过基金及直投的方式投了7家。二是服务姿态——陪跑但不干预。相比锦上添花,硬科技公司更需要的是耐得住寂寞的土壤。

这些企业的底层需求,也在悄悄汇聚。“灵巧手”要实时响应触觉信号,智能眼镜要在端侧跑大模型,离不开端侧芯片;太空算力的核心场景,同样是推理。顺着这条线索看下去,最终都指向同一个地方——算力芯片。

而曦望,是这八家公司中唯一做推理GPU的。

曦望在生态中的定位是“心脏”。它不显眼,不在聚光灯下,但持续地为整个生态输送算力,是最深入地基、却最难被替代的一环。

今年2月,杭州举行“争创全国人工智能创新发展第一城”推进大会,12个投资额超10亿元的重大项目集中签约,总投资255亿元。曦望的“高性能GPU及推理芯片研发项目”,是其中唯一的推理GPU芯片项目。

杭州正在把推理算力写进城市的产业底座,而曦望做出这个选择时,行业风向远没有这么明朗。

反共识的选择

两年前,推理芯片这个选择看起来远没有现在这样顺理成章。

2024年底前,国产GPU赛道的共识非常明确,做训推一体,追峰值算力,对标英伟达的训练卡。训练是明星赛道,大模型军备竞赛的核心指标是算力集群的规模、参数量的上限。至于推理?那是训练完之后顺手做的事,不值得单独拎出来。

就在这时,曦望做了一个反共识的决定:砍掉所有训练模块,把全部资源押注推理

这意味着主动放弃训练集群采购的预算——当时最大的一块市场蛋糕。把所有的芯片架构资源、工程团队精力和战略筹码,押在一个尚未大规模爆发的需求上。

这条路线有迹可循。

曦望董事长徐冰,2024年底在香港金融科技周上,分析AI基础设施的演进方向,关键判断之一即是"推理崛起"。他说,“推理变得越来越重要和复杂,需要新的云基础设施,从数据中心到边缘设备都需要。”同一场合,他强调的另一个关键词是“降低计算成本”。

当行业还在围绕训推一体的通用GPU竞争时,“谁能训练最大的模型”已不再是曦望最关注的变量,影响行业最核心的变量是,谁能把Token稳定、便宜地生产出来。

2024年底,曦望从母公司正式分拆独立,把“All in推理”写进了公司战略。他们放弃了训推一体GPU路线,从头开始设计原生推理架构——这在国产GPU公司中,是第一个吃螃蟹的。

时间给出了答案。

2026年初,AI智能体“龙虾”(OpenClaw)风靡全球。与聊天机器人不同,它每完成一个任务,要执行几十次推理、调用不同的模型,7天24小时持续消耗Token。“Token工厂”成了AI基建的香饽饽,更关键的是,它从企业市场迅速渗透到消费市场,大量用户开始购置专用的“龙虾机”,让智能体替自己处理各种日常任务。

龙虾推出三个月,算力租赁成本上涨30%到40%,推理需求达到训练的4到5倍,供应链“一卡难求”。推理在整个AI算力成本结构中的占比飙升至70%。

同年3月,OpenAI宣布关停视频生成产品Sora,官方未给出明确理由,但外界普遍将其归结为推理成本过高——即便是OpenAI,大规模商用视频生成的算力开销也难以为继。

而且,降价解决不了这个问题。过去两年,Token的单价下降了不止一个数量级,但企业的AI账单反而上涨了数倍。Token越便宜,用的人越多、用法越复杂,总消耗吞噬了降价红利。这种需求扩张快于单价的下降的趋势,在当前阶段看起来短期内很难逆转。

连GPU之王也在做出应对。2025年底,英伟达以约200亿美元获取了推理芯片公司Groq的核心技术授权,并将其创始人及关键工程团队揽入麾下——这种“技术授权+人才收购”的结构,实质上是一次针对推理赛道的战略卡位。英伟达的动作做实了一点:训推一体GPU做推理不是最优解,推理需要原生架构

而曦望,早在龙虾爆发前一个月,就发布了第一代原生推理芯片S3。


S3把所有不用于推理的东西全部砍掉。传统训推一体GPU有大量晶体管用于训练,S3把这部分全部省下来,全部投入到推理的并发、延迟和功耗优化上。

在硬件路径上,S3做了两个在国产GPU中少见的选择。一是采用LPDDR6及LPDDR5X内存而非训练GPU常用的HBM,显存容量最高可达600GB,是目前国内最大的;二是率先搭载PCIe Gen6接口,系统通信带宽翻了一倍。

这两个选择解决了智能体场景的核心瓶颈:大量用户同时在线,对话记忆持续累积,上下文越拉越长,推理GPU要装得下、传得快、算得起。

曦望的目标是让推理成本下降90%,最终实现“百万Token一分钱”。

如果这一目标得以实现,AI应用企业的毛利率将大幅提升,许多现在无法盈利的AI场景,将第一次跑通商业闭环。

当Token变成水电

“百万Token一分钱”的真正意义,不仅仅是帮客户省钱。它指向的,是一个足以重构整个世界的未来。

徐冰预测,未来十年,地球上会出现数百亿个智能体,成为一种新的“数字人口”。它们具备智能,可自主完成任务,不眠不休,7X24小时运转。它们分为三类:几十亿个个人助理,帮我们处理日常事务;几十亿个物理智能体(具身智能),在工厂、医院、家庭工作;几十亿个专业智能体,成为AI医生、律师、工程师。

而所有这些智能体,都靠Token驱动。如果说电力是工业时代的基础能源,那么Token就是AI时代的基础能源。推理GPU,是AI时代的发电厂中,最关键的部件。

产业端的信号也在印证这个判断。英伟达CEO黄仁勋6月1号在GTC Taipei大会上,从商业角度重新定义了Token:Token就是资产,已经成为获利的营收单位。AI公司会想要生产更多Token,建造更多的AI工厂——这也是为什么算力需求正在火箭式飙升。

今天的推理成本,就像1990年代的手机话费、2000年代的宽带流量一样昂贵。只有当推理基础设施像光纤和基站一样铺遍全国,Token的成本降到可以忽略不计,数百亿个智能体才能真正走进我们的生活

它或许真的会成为一种基础资源,和水费、电费并列在每个人、每家企业的账单上。在这一框架下,推理GPU就不再是简单的芯片品类,它是支撑智能体安全、稳定、快速运转的基础设施。

但美好的愿景与实际的交付之间,距离是实实在在的。

芯片和内存的大规模交付,Token工厂的实际部署,推理计算网络的构建,是全行业接下来的硬仗。徐冰也不回避这一点:“龙虾热潮发生得太突然,AI行业整体准备严重不足,产能至少需要提升1个数量级。”

供应链同样承压。内存价格涨了数倍,光模块产能跟不上,GPU一卡难求。徐冰判断,这种状况在2027年前很难改变,大概率到2028年才能缓解——但届时对Token的需求又可能上了新的台阶。

这不是一家公司可以解决的问题。

“行业要形成合力,一起把AI时代的光纤、基站建遍全国”,推理基础设施的铺设,需要芯片企业、云计算平台、内存厂商、算力运营商等整个链条的协同,需要城市级的产业系统、资本的耐心,以及生态的长期配合。

而这,正是杭州正在做的事。

尾声

推理基础设施的铺设是一个系统工程,需要多方在同一个生态里协同推进。

杭州的产业链条恰恰在向这个方向生长——新八骏及生态中的其他企业,共同覆盖了从芯片到终端的多个环节,耐心资本在底层托住长周期的硬科技项目,政府给了创业者安静做事的空间。

不是所有条件都已齐备,但拼图正在一块一块到位。

从“六小龙”到“新八骏”,从前端的软应用到底层的硬科技,杭州的产业群像正在迭代。《浙江日报》旗下“潮新闻”说,如果“六小龙”是杭州在科技浪潮中抓住的“浪尖”,那么“新八骏”就是浪潮之下的“暗流”。

杭州的转型和曦望的选择,本质上共享了同一种精神气质——找到差异化的切入点,重新定义赛道本身。

在这股暗流中,最安静的那一个,可能也是最关键的那一个。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4863339.html?f=wyxwapp