开云体育app官方网站:
我们总是高估新技术一两年内带来的变化,却低估其十年以上的深远影响。这条定律同样适用于AI领域,大模型的快速迭代更容易受到青睐,而AI对生产力提升的价值则不那么显眼。
从历次工业革命的进程来看,蒸汽机、发电机和计算机分别在发明118年、91年和49年,在商业化54年、40年和21年后,才开始明显推动生产率提高。AI自诞生迄今已近70年,经历了漫长的蛰伏期后,生成式AI成为新一轮变革的火种,其对生产力的再造被寄予厚望,但过程的艰辛远超一般想象。
与工业时代的“原子”、信息时代的“比特”类似,“token”堪称AI时代最小的计量单位——它连接了算力、数据和算法,是大模型API服务的结算依据,更是衡量生产力水平的核心标尺。根据国家数据局发布的报告,从2024年初到今年6月底,我国日均token的消耗量由1000亿飙升至30万亿以上,以智能体(Agentic AI)为代表的应用浪潮进入加速渗透的新阶段。
显而易见,在“token为王”的背景下,智能体必须转化为具备实际效用的产品与服务,才能真正达成落地生根的目标。然而,伴随多智能体协同与复杂任务推理迈向纵深,token生成速度与单位成本日益成为横亘在前行道路上的两大阻碍,亟需通过算力底座创新谋求突围路径。
在近日举办的2025AI计算大会上,浪潮信息交出了自己的答卷。基于元脑SD200超节点AI服务器,DeepSeek R1大模型token生成速度仅需8.9毫秒,创造国内最快纪录;而最新发布的元脑HC1000超扩展AI服务器,实现每百万token成本首次击破1元。这是AI计算架构创新的卓越成果,为数智化技术驱动生产力释放创造了必要条件,并树立起从应用出发解决产业难题的新标杆。
以工业革命的视角来看,对速度和效率的追求始终是其前进的核心动力,“以快为美”的生存哲学催生一系列技术创新。遥想当年,“飞梭”的发明使织布速度加快,立刻造成纺纱环节的纱荒,从而倒逼出珍妮纺纱机,引发生产力的全面爆发。
在智能体产业化进程中,交互速度亦是决定其能否在真实场景中发挥作用的首要因素。与传统的“人-机交互”不同,“智能体-智能体”之间的高频协作对速度提出前所未有的高要求,欺诈防控、具身智能等应用场景尤需毫秒级响应,找到破解token生成速度的算力密码可谓迫在眉睫。
浪潮信息首席AI战略官刘军认为,影响智能体速度或延迟的因素很复杂,必须对全链条的所有的环节进行深入的量化分析并集中力量攻克难关,才能取得预期成果。以智能体交互中的通信场景为例:由于通信数据包通常不大,因此超大的带宽对提升交互效果的作用比较有限。就像从A地到B地,高速公路是8车道还是16车道并非影响车速的关键,上高速和下高速时所用的时间才是最重要的因素——只有在产品研制中抓住类似的“肯綮”,方能化解智能体交互速度的难题。
在找准症结的基础上,从技术架构与互联协议等底层逻辑入手,更有助于达成实质性的突破。元脑SD200基于创新研发的多主机低延迟内存语义通信架构,在单机内支持64路本土AI芯片的高速统一互连,可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用,实现多模型协同执行复杂任务;同时,元脑SD200还采用精简高效的三层协议栈,原生支持多种内存语义操作,避免冗余数据拷贝,将基础通信延迟降至百纳秒级,硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。
据了解,目前全球典型的大模型API服务商的DeepSeek每token生成速度(TPOT)约为10~20毫秒,而国内的相关数值普遍高于30毫秒。实测多个方面数据显示,元脑SD200在运行DeepSeek-R1模型时,其TPOT指标达到8.9ms,实现计算与通信资源的高效均衡,为多智能体实时协作的商业化应用落地奠定基石。
如果说提升token生成速度是智能体协同运作的必由之路,那么最大限度降低token成本则是实现AI普惠的不二法门。在PC、互联网、云计算等新兴技术普及的过程中,不能离开底层基础设施的范式变革,如今的AI时代也不例外。
相关统计显示,企业每部署一个智能体,当前的平均token成本为1000~5000美元/每月,对多数中小公司而言难堪重负。透过国内外大模型推理的成本差异,也许会发现降低智能体落地门槛的路径:OpenAI的GPT-5在处理复杂任务时,每百万Token的输入和输出成本分别为1.25、10美元,而DeepSeek-V3在推理任务中的每百万Token输出成本仅为12块钱——这一方面源自模型算法能力的不同,另一方面则取决于底层计算架构的技术路径选择。
事实上,超过10元的百万Token成本依然无法让智能体跨过大爆发的临界点,业界期待更具突破性的计算架构创新。刘军认为,从客户的真实需求的“第一性”原理出发,改变过往大而全的设计思路,通过详细拆解大模型推理环节和计算流程,提出与之对应的解决方案,才能达成架构极简、成本极低的目标。
元脑HC1000超扩展AI服务器正是基于这样的理念应运而生,其采用富有开创性的全对称DirectCom极速架构,无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量,推理成本首次击破1元/每百万token,为智能体打破token成本瓶颈扫除了障碍,AI普惠有望迎来开花结果的收获期。
尤值一提的是,与前几次工业革命中成本降低衍生的链式反应类似,元脑HC1000还开辟出计算架构突围的新范式,为AI变革的演进铺平道路。一是全面优化降本,创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅度降低单卡及每卡系统分摊成本;二是软硬协同增效,借助算网深度协同、全域无损技术,实现推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。
站在更长远的视角,当智能体走向千行万业,token消耗量必将呈现几何级数增长——“AI重做一切”的宏大叙事已深入人心,没有一点一个权威机构能准确预测出token狂飙的速度,未来几年出现百倍、千倍、万倍甚至百万倍的增量均有可能。
面对这样的大变局,AI计算架构的颠覆性创新尤为值得期待。由于路径依赖等综合因素的影响,通用的计算架构主要围绕芯片而非大模型进行设计,即使针对这个架构去做极致的优化,里面任旧存在不少冗余因子,唯有开展颠覆性创新才能跟上token狂奔的脚步。
“天底下没有新鲜的事,从通用到专用的过程一直在发生,只要形成了一定的产业规模,最终的结果一定是极致的定制化和专业化设计。”刘军看好AI计算架构创新的发展前途,并表示一些规模化的应用场景会一步步成型,基于算法硬件化的专用计算架构将大行其道。
这是从应用出发的计算架构创新,走得再远也不会忘记脚下的土地与出发的初衷。作为开路先锋,元脑SD200和元脑HC1000已在“token为王”的时代闯出了一片新天地,更精彩的故事将在无垠的旷野中继续上演。
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。