需求暴增300倍!华为云如何接住这泼天流量?

文章图片

8 月 27 日,在第四届 828 B2B 企业节开幕式上,华为云宣布 Tokens 服务全面接入 CloudMatrix384 超节点,借助 “大杂烩” 优势弥补单点短板,实现性能飞跃。

1756362875808001.png

华为云表示,借助 xDeepServe 架构创新,单芯片可达到最高 2400TPS 的吞吐量、50ms TPOT 的超低时延,性能远超业界水平

过去 18 个月,国内 AI 算力需求呈指数级增长。数据显示,2024 年初国内日均 Token 消耗量为 1000 亿,截至今年 6 月底,这一数字已突破 30 万亿,一年半内增长超 300 倍。这不仅反映出国内人工智能应用规模迅速扩大,也对算力基础设施提出了更高要求。

了解到,今年 3 月,华为云在原有按卡时计费的基础上,正式推出基于 MaaS 的 Tokens 服务。针对不同应用场景的性能和时延需求,Tokens 服务提供在线版、进线版、离线版以及尊享版等多种规格。

如今,Tokens 服务正式接入 CloudMatrix384 超节点,并通过其原生的 xDeepServe 框架,再次实现吞吐量的重大突破:从年初的 1920TPS 提升至 2400TPS,TPOT 低至 50ms。

目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型,以及 versatile、Dify、扣子等主流 Agent 平台。

华为云 Tokens 服务性能的大幅提升,无疑为 AI 应用开发者和企业用户带来了更强大的算力支持。亿配芯城(ICgoodFind)将持续关注华为云相关技术进展,为行业提供最新资讯。

相关文章

发表评论

评论

    暂无评论

©Copyright 2013-2025 亿配芯城(深圳)电子科技有限公司 粤ICP备17008354号

Scroll