杭州是怎么硬起来的？,杭州是怎么发展的

推理芯片、存算一体、灵巧手、智能眼镜、太空算力、AI数据基础设施、智能底盘、合成生物——这是杭州2026年最受追捧的八家科技公司的赛道。

外界给了它们一个名字：杭州新八骏。

跟两年前的“六小龙”放在一起看，变化肉眼可见。

六小龙出圈时，无论是大模型对话、四足机器人还是3A游戏，大家都能立刻想到一个具体的产品画面。新八骏的画风完全不同：这些赛道更深、更基础，大部分离日常生活很远，却离产业根基很近。

从“软”到“硬”，杭州正在把产业重心从看得见的应用层，向下扎进看不见的基础设施。

杭州决定变“硬”

过去20多年，杭州讲了一个关于“软”的故事。

从湖畔花园的公寓，到全球最大的电商生态，从改写国人的支付习惯，到亚洲领先的云计算平台，杭州定义了数字经济。这座城市擅长用代码和算法，把商业效率提升到极致。

但“软”的繁荣有一个不常被提起的前提，即它需要一个坚实的硬件基础。服务器用别人的芯片，模型跑在进口的GPU上，开发工具链来自大洋彼岸。杭州把上层应用做到了世界一流，但楼盖得越高，那截看不见的桩基就越让人悬心。

特别当人工智能从实验室快速渗透到千行百业，这个问题变得无法回避：杭州能不能从上层往下延伸，拥有自己的产业底座？

新八骏的出现，正是这个转向的产物。

八条赛道，全部扎在底层。芯片、数据基础设施、生物代码、太空算力——越基础，也越不可或缺。

一个经常被问到的问题是：为什么是杭州？

杭州给出了两样稀缺的资源支持。一是耐心资本。新八骏中，杭州金投投了4家，杭州资本通过基金及直投的方式投了7家。二是服务姿态——陪跑但不干预。相比锦上添花，硬科技公司更需要的是耐得住寂寞的土壤。

这些企业的底层需求，也在悄悄汇聚。“灵巧手”要实时响应触觉信号，智能眼镜要在端侧跑大模型，离不开端侧芯片；太空算力的核心场景，同样是推理。顺着这条线索看下去，最终都指向同一个地方——算力芯片。

而曦望，是这八家公司中唯一做推理GPU的。

曦望在生态中的定位是“心脏”。它不显眼，不在聚光灯下，但持续地为整个生态输送算力，是最深入地基、却最难被替代的一环。

今年2月，杭州举行“争创全国人工智能创新发展第一城”推进大会，12个投资额超10亿元的重大项目集中签约，总投资255亿元。曦望的“高性能GPU及推理芯片研发项目”，是其中唯一的推理GPU芯片项目。

杭州正在把推理算力写进城市的产业底座，而曦望做出这个选择时，行业风向远没有这么明朗。

反共识的选择

两年前，推理芯片这个选择看起来远没有现在这样顺理成章。

2024年底前，国产GPU赛道的共识非常明确，做训推一体，追峰值算力，对标英伟达的训练卡。训练是明星赛道，大模型军备竞赛的核心指标是算力集群的规模、参数量的上限。至于推理？那是训练完之后顺手做的事，不值得单独拎出来。

就在这时，曦望做了一个反共识的决定：砍掉所有训练模块，把全部资源押注推理。

这意味着主动放弃训练集群采购的预算——当时最大的一块市场蛋糕。把所有的芯片架构资源、工程团队精力和战略筹码，押在一个尚未大规模爆发的需求上。

这条路线有迹可循。

曦望董事长徐冰，2024年底在香港金融科技周上，分析AI基础设施的演进方向，关键判断之一即是"推理崛起"。他说，“推理变得越来越重要和复杂，需要新的云基础设施，从数据中心到边缘设备都需要。”同一场合，他强调的另一个关键词是“降低计算成本”。

当行业还在围绕训推一体的通用GPU竞争时，“谁能训练最大的模型”已不再是曦望最关注的变量，影响行业最核心的变量是，谁能把Token稳定、便宜地生产出来。

2024年底，曦望从母公司正式分拆独立，把“All in推理”写进了公司战略。他们放弃了训推一体GPU路线，从头开始设计原生推理架构——这在国产GPU公司中，是第一个吃螃蟹的。

时间给出了答案。

2026年初，AI智能体“龙虾”（OpenClaw）风靡全球。与聊天机器人不同，它每完成一个任务，要执行几十次推理、调用不同的模型，7天24小时持续消耗Token。“Token工厂”成了AI基建的香饽饽，更关键的是，它从企业市场迅速渗透到消费市场，大量用户开始购置专用的“龙虾机”，让智能体替自己处理各种日常任务。

龙虾推出三个月，算力租赁成本上涨30%到40%，推理需求达到训练的4到5倍，供应链“一卡难求”。推理在整个AI算力成本结构中的占比飙升至70%。

同年3月，OpenAI宣布关停视频生成产品Sora，官方未给出明确理由，但外界普遍将其归结为推理成本过高——即便是OpenAI，大规模商用视频生成的算力开销也难以为继。

而且，降价解决不了这个问题。过去两年，Token的单价下降了不止一个数量级，但企业的AI账单反而上涨了数倍。Token越便宜，用的人越多、用法越复杂，总消耗吞噬了降价红利。这种需求扩张快于单价的下降的趋势，在当前阶段看起来短期内很难逆转。

连GPU之王也在做出应对。2025年底，英伟达以约200亿美元获取了推理芯片公司Groq的核心技术授权，并将其创始人及关键工程团队揽入麾下——这种“技术授权+人才收购”的结构，实质上是一次针对推理赛道的战略卡位。英伟达的动作做实了一点：训推一体GPU做推理不是最优解，推理需要原生架构。

而曦望，早在龙虾爆发前一个月，就发布了第一代原生推理芯片S3。

S3把所有不用于推理的东西全部砍掉。传统训推一体GPU有大量晶体管用于训练，S3把这部分全部省下来，全部投入到推理的并发、延迟和功耗优化上。

在硬件路径上，S3做了两个在国产GPU中少见的选择。一是采用LPDDR6及LPDDR5X内存而非训练GPU常用的HBM，显存容量最高可达600GB，是目前国内最大的；二是率先搭载PCIe Gen6接口，系统通信带宽翻了一倍。

这两个选择解决了智能体场景的核心瓶颈：大量用户同时在线，对话记忆持续累积，上下文越拉越长，推理GPU要装得下、传得快、算得起。

曦望的目标是让推理成本下降90%，最终实现“百万Token一分钱”。

如果这一目标得以实现，AI应用企业的毛利率将大幅提升，许多现在无法盈利的AI场景，将第一次跑通商业闭环。

当Token变成水电

“百万Token一分钱”的真正意义，不仅仅是帮客户省钱。它指向的，是一个足以重构整个世界的未来。

徐冰预测，未来十年，地球上会出现数百亿个智能体，成为一种新的“数字人口”。它们具备智能，可自主完成任务，不眠不休，7X24小时运转。它们分为三类：几十亿个个人助理，帮我们处理日常事务；几十亿个物理智能体（具身智能），在工厂、医院、家庭工作；几十亿个专业智能体，成为AI医生、律师、工程师。

而所有这些智能体，都靠Token驱动。如果说电力是工业时代的基础能源，那么Token就是AI时代的基础能源。推理GPU，是AI时代的发电厂中，最关键的部件。

产业端的信号也在印证这个判断。英伟达CEO黄仁勋6月1号在GTC Taipei大会上，从商业角度重新定义了Token：Token就是资产，已经成为获利的营收单位。AI公司会想要生产更多Token，建造更多的AI工厂——这也是为什么算力需求正在火箭式飙升。

今天的推理成本，就像1990年代的手机话费、2000年代的宽带流量一样昂贵。只有当推理基础设施像光纤和基站一样铺遍全国，Token的成本降到可以忽略不计，数百亿个智能体才能真正走进我们的生活。

它或许真的会成为一种基础资源，和水费、电费并列在每个人、每家企业的账单上。在这一框架下，推理GPU就不再是简单的芯片品类，它是支撑智能体安全、稳定、快速运转的基础设施。

但美好的愿景与实际的交付之间，距离是实实在在的。

芯片和内存的大规模交付，Token工厂的实际部署，推理计算网络的构建，是全行业接下来的硬仗。徐冰也不回避这一点：“龙虾热潮发生得太突然，AI行业整体准备严重不足，产能至少需要提升1个数量级。”

供应链同样承压。内存价格涨了数倍，光模块产能跟不上，GPU一卡难求。徐冰判断，这种状况在2027年前很难改变，大概率到2028年才能缓解——但届时对Token的需求又可能上了新的台阶。

这不是一家公司可以解决的问题。

“行业要形成合力，一起把AI时代的光纤、基站建遍全国”，推理基础设施的铺设，需要芯片企业、云计算平台、内存厂商、算力运营商等整个链条的协同，需要城市级的产业系统、资本的耐心，以及生态的长期配合。

而这，正是杭州正在做的事。

尾声

推理基础设施的铺设是一个系统工程，需要多方在同一个生态里协同推进。

杭州的产业链条恰恰在向这个方向生长——新八骏及生态中的其他企业，共同覆盖了从芯片到终端的多个环节，耐心资本在底层托住长周期的硬科技项目，政府给了创业者安静做事的空间。

不是所有条件都已齐备，但拼图正在一块一块到位。

从“六小龙”到“新八骏”，从前端的软应用到底层的硬科技，杭州的产业群像正在迭代。《浙江日报》旗下“潮新闻”说，如果“六小龙”是杭州在科技浪潮中抓住的“浪尖”，那么“新八骏”就是浪潮之下的“暗流”。

杭州的转型和曦望的选择，本质上共享了同一种精神气质——找到差异化的切入点，重新定义赛道本身。

在这股暗流中，最安静的那一个，可能也是最关键的那一个。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4863339.html?f=wyxwapp