k8凯发(中国)天生赢家·一触即发
股票代码 301236
China
  • 集团官网
    公司介绍、新闻动态、服务与行业等信息
  • k8凯发计算机
    信创产业IT基础设施整体方案及产品提供商
  • 智通国际
    深耕高性能PC市场十余年,引领行业创新的国货游戏本品牌——机械革命
  • 鸿湖万联
    专注智能物联网操作系统研发和产业化服务
  • k8凯发教育
    专注于ICT人才供给与培养
k8凯发(中国)天生赢家·一触即发

k8凯发一触即发-DeepSeek不惜代价保住它!V4关键特性被挖出来了

2026-05-07 13:08:31

首页财产ai正文 DeepSeek不吝价钱保住它!V4要害特征被挖出来了 DeepSeek V4为保留焦点设计“batch invariance”不计价钱,虽捐躯GPU使用率等,却包管了练习等阶段可复现和长上下文体系不变。 2026-04-28 17:13 ·微信公家号:量子位存眷前沿科技 AI投资人解读· DeepSeek V4经由过程batch invariance实现了“超长上下文”“繁杂后练习/推理管线”“自研高机能kernel栈”。其利益是包管线上推理成果不变、预练习等阶段对于齐、是繁杂上下文体系底座、让后练习更不变。· 价钱是捐躯了GPU使用率、小批量/小引列速率、原生算子兼容性、部门稀少加快自由度等。总结:DeepSeek V4的batch invariance虽带来诸多上风,但也有较着价钱。该技能于不变性及可复现性上体现凸起,但于工程实现上较为繁杂,需综合评估其对于投资价值与潜于危害的影响。内容由AI天生,仅供参考

DeepSeek V4技能陈诉,还有于被深挖。

常看常新的那种——一个引起存眷的新发明是,V4于工程上为了保留焦点设计「batch invariance」,都有点不计价钱了。

怎么说?

DeepSeek V4同时做到了「超长上下文」「繁杂后练习/推理管线」「自研高机能kernel栈」这几件很轻易打斗的事,而暗地里的要害,恰是batch invariance(批次稳定性)。

但batch invariance并不是没有价钱,甚至价钱还有挺年夜:GPU使用率、推理速率降落,工程繁杂度还有更高了……

以是,为何DeepSeek V4会对于这一设计云云执着?咱们详细来拆析一下。

甚么是batch invariance

先来看看batch invariance的界说:

对于在统一个token,不管它于批次里排第几、不管批次多年夜、不管及谁一路批处置惩罚,输出都能连结逐比特彻底一致。

论文提到,其焦点设计目的,是确保预练习、后练习及推理全流程的可复现性,包管各个环节之间的对于齐。

如许做的利益是,起首,能包管线上推理成果不变。

线上办事会动态batching,统一个用户哀求,今天可能及A、B哀求拼于一路,明天可能及C、D哀求拼于一路。

假如没有batch invariance,一样的提醒词就可能由于batch组合差别、底层kernel归约挨次差别等因素,被放年夜成彻底差别的谜底。

也就是说,batch invariance能让统一个输入,只管即便获得严酷一致的输出。

其次,包管预练习、后练习、推理之间的对于齐。

DeepSeek V4有预练习、SFT、RL、on-policy distillation、推理办事等多条链路。

这就致使了一个问题:模子举动变化究竟是来自数据、RL、蒸馏、量化,还有是来自batch shape/ kernel路径变化?

有了batch invariance,工程团队更易判定,是否是batch构造方式转变了数值成果。

当问题可以或许被正确定位,异样也就更易复现,提高了可复现性及可调试性。

别的,batch invariance也是繁杂上下文体系的底座之一。

V4同时用了长上下文attention、压缩KV、稀少留意力、MoE、FP4/FP八、Muon、mHC、自研 kernel等许多繁杂组件。

组件越多,数值不确定性的来历越多。batch invariance相称在给底层履行体系加了一条硬约束:可以优化机能,但不克不及由于batch变了,就让统一个token的成果变了。

batch invariance还有能让后练习更不变。

RL、蒸馏、长链推理对于细微差异很敏感。一点点数值差异,可能转变采样路径;采样路径一变,reward、teacher-student对于齐、练习旌旗灯号城市变。

batch invariance可以或许削减随机数值扰动,让模子举动更可控。

总结一下,就是batch invariance是DeepSeek V4的底层工程不变器,可以于于极繁杂的长上下文练习、后练习及推理体系里,包管统一输入的数值举动不被batch构造、kernel调理及归约挨次污染,实现可复现、可调试、可对于齐、可不变部署的工程确定性。

捐躯了甚么

如许看来,batch invariance确凿很主要。

但,就像前面说的,价钱不少。

为了batch invariance,V4不克不及随意利用一些常见机能优化了,好比split-KV、split-K。

于attention里,split-KV会把单条序列的留意力计较分摊到多个SM上,以提高负载平衡及GPU使用率。但这类做法会转变并行归约路径,难以包管统一个token于差别batch构造方式下的逐比特一致性。

于GEMM里,split-K的做法是把矩阵乘法的归约维度K切开并行计较。多路并行乞降以后还有要再归约,而浮点加法的归约挨次一变,终极成果的bi 就可能差别,是以也及batch invariance存于冲突。

为此,DeepSeek于attention侧提出了dual-kernel:为统一个留意力解码使命预备两套计较步伐,别离处置惩罚“GPU吃患上满”及“GPU吃不满”的环境,同时包管两套步伐算出来的成果逐比特一致。

矩阵乘法方面,V4于年夜大都场景中抛却split-K,转而做更受约束的 batch-invariant GEMM。他们用自研DeepGEMM替换了通用的cuBLAS。

这些都致使了工程繁杂度的较着上升:许多原本可以交给通用库或者通例优化计谋的事情,都必需由自研kernel及更严酷的计较路径来负担。

云云种种,简朴总结起来象征着DeepSeek V4于如下几个方面做了捐躯:

GPU 使用率(波前量化问题)

小批量/小引列速率

原生算子兼容性

部门稀少加快的自由度

以换取:

练习/推理/RL三阶段逐比特可复现

长上下文、Agent、RL练习不变度

多机多卡跑出来的成果彻底对于齐

One More Thing

DeepSeek V4发布了这么些天,但这个技能陈诉属实是越挖越有。

看点还有包括,把10个以上专家西席模子蒸馏成一个学生模子等等。

而且每一个问题暗地里都有坚实的数学注释。

Hugging Face的Transformers卖力人Arthur Zucker就感触:

把数月以致数年的努力全数免费公然,让任何人都能受益,这是真实的GOAT(Greatest of All Times)。

参考链接:[1]https://x.com/teortaxesTex/status/2048707398886404524?s=20[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

【本文由投资界互助伙伴微信公家号:量子位授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。

-k8凯发一触即发

行业资讯