(原标题:周末DeepSeek扔出“王炸”!初次裸露了本钱利润率 影响多大?)
周六,国内AI大模子公司DeepSeek官方账号在知乎初次发布《DeepSeek-V3/R1推理系统概览》时刻著述,不仅公开了其推理系统的中枢优化有缠绵,更是初次裸露了本钱利润率等要津数据,激勉行业飘浮。
数据显现,若按表面订价诡计,其单日本钱利润率高达545%,这一数字刷新了大家AI大模子边界的盈利天花板。
业内分析指出,DeepSeek的开源计谋与本钱适度本领正在冲破AI边界的资源把持。DeepSeek这次“透明化”裸露,不仅展示了当时刻实力与生意后劲,更向行业传递明肯定号:AI大模子的盈利闭环已从理念念照进试验。
DeepSeek最新发布
3月1日,DeepSeek于知乎开设官方账号,发布《DeepSeek-V3/R1推理系统概览》时刻著述,初次公布模子推理系统优化细节,并裸露本钱利润率要津信息。
著述写谈:“DeepSeek-V3/ R1推理系统的优化宗旨是:更大的朦拢,更低的延伸。”
为结束这两个宗旨,DeepSeek的有缠绵是使用大限制跨节点众人并行(EP),但该有缠绵也增多了系统复杂性。著述的主要内容等于对于怎样使用EP增长批量大小(batch size)、荫藏传输耗时以及进行负载平衡。
值得堤防的是,著述还首先裸露了DeepSeek的表面本钱和利润率等要津信息。
把柄DeepSeek官方裸露,DeepSeek V3和R1的系数就业均使用H800 GPU,使用和锻练一致的精度,即矩阵诡计和dispatch 传输接管和锻练一致的FP8技艺,core-attention诡计和combine传输接管和锻练一致的BF16,最猛进度保证了就业着力。
另外,由于白昼的就业负荷高,晚上的就业负荷低,因此DeepSeek结束了一套机制,在白昼负荷高的时期,用系数节点部署推理就业。晚上负荷低的时期,减少推理节点,以用来作念探究和锻练。
在最近24小时(2025年2月27日12:00至28日12:00)的统计周期内:GPU租借本钱按2好意思元/小时诡计,日均本钱为87072好意思元;若系数输入/输出token按R1订价(输入1元/百万token、输出16元/百万token)诡计,单日收入可达562027好意思元,本钱利润率高达545%。
不外,DeepSeek官方坦言,骨子上莫得这样多收入,因为V3的订价更低,同期收费就业只占了一部分,另外夜间还会有扣头。
DeepSeek的高利润率源于其改进的推理系统瞎想,中枢包括大限制跨节点众人并行(EP)、诡计通讯重复与负载平衡优化三大时刻支捏:众人并行(EP)晋升朦拢与反馈速率,针对模子稀薄性(每层仅激活8/256个众人),接管EP计谋彭胀总体批惩办限制(batch size),确保每个众人赢得弥散的诡计负载,显赫晋升GPU诳骗率;部署单元动态调遣(如Prefill阶段4节点、Decode阶段18节点),平衡资源分派与任务需求。
诡计与通讯重复荫藏延伸,Prefill阶段通过“双batch交错”结束诡计与通讯并行,Decode阶段拆分attention为多级活水线,最大收尾袒护通讯支拨。
全局负载平衡幸免资源阔绰,针对不同并行花样(数据并行DP、众人并行EP)瞎想动态负载平衡器,确保各GPU的诡计量、通讯量及KVCache占用平衡,幸免节点空转。
浅易来说,EP就像是“多东谈主联接”,把模子中的“众人”踱步到多张GPU上进行诡计,大幅晋升Batch Size,榨干GPU算力,同期众人踱步,镌汰内存压力,更快反馈。
DeepSeek在工程层面进一步压缩本钱。日夜资源调配:白昼岑岭时段全力支捏推理就业,夜间闲置节点转用于研发锻练,最大化硬件诳骗率;缓存射中率达56.3%:通过KVCache硬盘缓存减少重复诡计,在输入token中,有3420亿个(56.3%)径直射中缓存,大幅镌汰算力破钞。
影响多大?
有分析称,DeepSeek这次裸露的数据,不仅考证了当时刻道路的生意可行性,更为行业配置了高效盈利的标杆:其模子锻练本钱仅为同类产物的1%—5%,此前发布的DeepSeek-V3模子锻练本钱仅557.6万好意思元,远低于OpenAI等巨头;推理订价上风方面,DeepSeek-R1的API订价仅为OpenAI o3-mini的1/7至1/2,低本钱计谋加快商场渗入。
业内分析指出,DeepSeek的开源计谋与本钱适度本领正在冲破AI边界的资源把持。DeepSeek这次“透明化”裸露,不仅展示了当时刻实力与生意后劲,更向行业传递明肯定号:AI大模子的盈利闭环已从理念念照进试验,记号着AI时刻从实验室迈向产业化的要津转动。
中信证券以为,Deepseek在模子锻练本钱镌汰方面的最好践诺,料将刺激科技巨头接管更为经济的样貌加快前沿模子的探索和探究,同期将使得渊博AI应用得以解锁和落地。算法锻练带来的限制报恩递加效应以及单元算力本钱镌汰对应的杰文斯悖论等,均意味着中短期维度科技巨头接续在AI算力边界进行捏续、限制干预仍将是高笃定性事件。
本周以来,DeepSeek开启“开源周”,给东谈主工智能边界扔下数颗“重磅炸弹”。回来DeepSeek这五天开源的内容,信息量很大,具体来看:
周一,DeepSeek文书开源FlashMLA。FlashMLA是DeepSeek用于Hopper GPU的高效MLA解码内核,并针对可变长度序列进行了优化,现已干预出产;
周二,DeepSeek文书开源DeepEP,即首个用于MoE模子锻练和推理的开源EP通讯库,提供高朦拢量和低延伸的all-to-all GPU内核;
周三,DeepSeek文书开源DeepGEMM。其同期支捏密集布局和两种MoE布局,十足即时编译,可为V3/R1模子的锻练和推理提供浩荡支捏等;
周四,DeepSeek文书开源Optimized Parallelism Strategies。其主要针对大限制模子锻练中的着力问题;
周五,DeepSeek文书开源Fire-Flyer文献系统(3FS),以及基于3FS的数据惩办框架Smallpond。
因此,有网友指摘称:“《DeepSeek-V3/R1推理系统概览》时刻著述是‘开源周彩蛋’,径直亮出了底牌!”
至此开云体育(中国)官方网站,DeepSeek“开源周”的连载简略要告一段落了,但DeepSeek后续算作还是值得捏续关心。