新闻资讯

你的位置:开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 > 新闻资讯 > 开云体育导致不同GPU的众人计较负载不平衡-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

开云体育导致不同GPU的众人计较负载不平衡-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

发布日期:2025-08-11 06:50    点击次数:166

开云体育导致不同GPU的众人计较负载不平衡-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

(原标题:DeepSeek一天能赚几许钱?官方倏得揭秘!潞晨科技暂停DeepSeek API就业)开云体育

一齐慈祥一下对于DeepSeek的最新音信!

DeepSeek初度泄露:表面资本利润率545%

当阛阓认为DeepSeek的开源周内容发布已矣之后,3月1日,DeepSeek秘书了“One More Thing”,倏得揭秘V3/R1推理系統,公开了大限制部署资本和收益。

阐发《DeepSeek-V3/R1推理系统概览》的著述,假设GPU租借资本为2好意思元/小时,总资本为87072好意思元/天;若是所有tokens全部按照DeepSeek R1的订价计较,表面上一天的总收入为562027好意思元/天,资本利润率为545%。

据官方泄露,DeepSeek-V3/R1推理系统的优化意见是:更大的蒙胧,更低的蔓延。

为了竣事这两个意见,DeepSeek使用大限制跨节点众人并行(Expert Parallelism / EP)。最初EP使得batch size大大加多,从而进步GPU矩阵乘法的服从,进步蒙胧。其次EP使得众人分散在不同的GPU上,每个 GPU 只需要计较很少的众人(因此更少的访存需求),从而缩短蔓延。

但EP同期也加多了系统的复杂性。复杂性主要体当今两个方面:

EP引入跨节点的传输。为了优化蒙胧,需要设想符合的计较进程使得传输和计较不错同步进行。

EP触及多个节点,因此自然需要Data Parallelism(DP),不同的DP之间需要进行负载平衡。

因此,DeepSeek先容了何如使用EP增大batch size,何如荫藏传输的耗时,何如进行负载平衡。

大限制跨节点众人并行(Expert Parallelism / EP)

由于DeepSeek-V3/R1的众人数目开阔,而况每层256个众人中仅激活其中8个。模子的高度寥落性决定了必须选拔很大的overall batch size,能力给每个众人提供满盈的expert batch size,从而竣事更大的蒙胧、更低的延时。需要大限制跨节点众人并行(Expert Parallelism / EP)。

选拔多机多卡间的众人并行政策来达到以下意见:

Prefill:路由众人EP32、MLA和分享众人DP32,一个部署单位是4节点,32个冗余路由众人,每张卡9个路由众人和1个分享众人。

Decode:路由众人EP144、MLA和分享众人DP144,一个部署单位是18 节点,32个冗余路由众人,每张卡2个路由众人和1个分享众人。

计较通讯重迭

多机多卡的众人并行会引入比拟大的通讯支拨,是以使用了双batch重迭来隐敝通讯支拨,进步全体蒙胧。

对于prefill阶段,两个batch的计较和通讯交错进行,一个batch在进行计较的本事不错去隐敝另一个batch的通讯支拨;

对于decode阶段,不同阶段的现实本事有所差别,是以把attention部分拆成了两个stage,忖度5个stage的活水线来竣事计较和通讯的重迭。

尽可能地负载平衡

由于选拔了很大限制的并行(包括数据并行和众人并行),若是某个GPU的计较或通讯负载过重,将成为性能瓶颈,拖慢所有这个词系统;同期其他GPU因为恭候而空转,变周密体运用率下跌。因此需要尽可能地为每个GPU分拨平衡的计较负载、通讯负载。

PrefillLoadBalancer

中枢问题:不同数据并行(DP)实例上的恳求个数、长度不同,导致core-attention计较量、dispatch发送量也不同。

优化意见:各GPU的计较量尽量调换(core-attention计较负载平衡)、输入的token数目也尽量调换(dispatch发送量负载平衡),幸免部分GPU处理本事过长。

DecodeLoadBalancer

中枢问题:不同数据并行(DP)实例上的恳求数目、长度不同,导致core-attention计较量(与KVCache占用量干系)、dispatch发送量不同。

优化意见:各GPU的KVCache占用量尽量调换(core-attention计较负载平衡)、恳求数目尽量调换(dispatch发送量负载平衡)。

Expert-ParallelLoadBalancer

中枢问题:对于给定MoE模子,存在一些自然的高负载众人(expert),导致不同GPU的众人计较负载不平衡。

优化意见:每个GPU上的众人计较量平衡(即最小化所有GPU的dispatch接收量的最大值)。

线上系统的本色统计数据

DeepSeekV3和R1的所有就业均使用H800GPU,使用和窥探一致的精度,即矩阵计较和dispatch传输选拔和窥探一致的FP8关键,core-attention计较和combine传输选拔和窥探一致的BF16,最猛进度保证了就业服从。

另外,由于白日的就业负荷高,晚上的就业负荷低,因此竣事了一套机制,在白日负荷高的本事,用所有节点部署推理就业。晚上负荷低的本事,减少推理节点,以用来作念推敲和窥探。在最近的24小时里(北京本事2025/02/27 12:00至2025/02/28 12:00),DeepSeek-V3和R1推理就业占用节点总和,峰值占用为278个节点,平均占用226.75个节点(每个节点为8个H800GPU)。假设GPU租借资本为2好意思金/小时,总资本为87072好意思元/天。

在24小时统计时段内,DeepSeek-V3和R1:

输入token总额为608B,其中342Btokens(56.3%)掷中KVCache硬盘缓存。

输出token总额为168B。平均输出速度为20~22tps,平均每输出一个token的KVCache长度是4989。

平均每台H800的蒙胧量为:对于prefill任务,输入蒙胧约73.7ktokens/s(含缓存掷中);对于decode任务,输出蒙胧约14.8ktokens/s。

以上统计包括了网页、APP和API的所有负载。若是所有tokens全部按照DeepSeek-R1的订价计较,表面上一天的总收入为562027好意思元,资本利润率为545%。虽然本色上莫得这样多收入,因为V3的订价更低,同期收费就业只占了一部分,另外夜间还会有扣头。

有网友将DeepSeek与OpenAI进行对比,示意:“‘资本利润率545%’,等一下,是以你是说我被OpenAI攫取了?”

潞晨科技暂停DeepSeek API就业

就在DeepSeek泄露大限制部署资本和收益之后,潞晨科技倏得秘书:“尊敬的用户,潞晨云将在一周后住手提供DeepSeek API就业,请尽快用完您的余额。若是没用完,咱们全额退款。”

此前2月4日晚间,华为计较微信公众号发文示意,DeepSeek-R1系列模子的开源,因其出色的性能和便宜的诞生资本,已激发公共的进攻探究和慈祥。潞晨科技联袂昇腾,连合髻布基于昇腾算力的DeepSeek-R1系列推理API,及云镜像就业。

但近期潞晨科技CEO尤洋指出,满血版DeepSeek-R1每百万token(输出)订价16元,若是逐日输出1000亿token,一个月算下来接入方企业可取得4800万元收入。据他测算,完成1000亿token的输出,需要约4000台搭载H800的机器,以目下H800的市价大致折旧来计较,每月仅机器资本就达4.5亿元,因此企业方可能靠近每月4亿元的耗费,“用户越多,就业资本越高,耗费越多”。

3月1日下昼4点,潞晨科技CEO尤洋发文回答DeepSeek公布的表面资本利润率。

公开贵寓浮现,潞晨科技是一家勤勉于于“目田AI分娩力”的公共性企业开云体育,团队中枢成员来自好意思国加州大学伯克利分校,斯坦福大学,清华大学,北京大学等国表里盛名高校。主贸易务包括散播式软件系统,大限制东谈主工智能平台,以及企业级云计较科罚有贪图。公司旨在打造一个开源低资本AI大模子诞生系统Colossal-AI,动作深度学习框架的内核,匡助企业最大化东谈主工智能窥探服从的同期最小化东谈主工智能的窥探资本。