股票代码 301236

China Global

投资者关系联系我们友情链接

股票代码 301236

集团官网
公司介绍、新闻动态、服务与行业等信息
k8凯发计算机
信创产业IT基础设施整体方案及产品提供商
智通国际
深耕高性能PC市场十余年，引领行业创新的国货游戏本品牌——机械革命
鸿湖万联
专注智能物联网操作系统研发和产业化服务
k8凯发教育
专注于ICT人才供给与培养

关于我们

k8凯发一触即发-DeepSeek不惜代价保住它！V4关键特性被挖出来了

2026-05-07 13:08:31

首页财产ai正文 DeepSeek不吝价钱保住它！V4要害特征被挖出来了 DeepSeek V4为保留焦点设计“batch invariance”不计价钱，虽捐躯GPU使用率等，却包管了练习等阶段可复现和长上下文体系不变。 2026-04-28 17:13 ·微信公家号：量子位存眷前沿科技 AI投资人解读· DeepSeek V4经由过程batch invariance实现了“超长上下文”“繁杂后练习/推理管线”“自研高机能kernel栈”。其利益是包管线上推理成果不变、预练习等阶段对于齐、是繁杂上下文体系底座、让后练习更不变。· 价钱是捐躯了GPU使用率、小批量/小引列速率、原生算子兼容性、部门稀少加快自由度等。总结：DeepSeek V4的batch invariance虽带来诸多上风，但也有较着价钱。该技能于不变性及可复现性上体现凸起，但于工程实现上较为繁杂，需综合评估其对于投资价值与潜于危害的影响。内容由AI天生，仅供参考

DeepSeek V4技能陈诉，还有于被深挖。

常看常新的那种——一个引起存眷的新发明是，V4于工程上为了保留焦点设计「batch invariance」，都有点不计价钱了。

怎么说？

DeepSeek V4同时做到了「超长上下文」「繁杂后练习/推理管线」「自研高机能kernel栈」这几件很轻易打斗的事，而暗地里的要害，恰是batch invariance（批次稳定性）。

但batch invariance并不是没有价钱，甚至价钱还有挺年夜：GPU使用率、推理速率降落，工程繁杂度还有更高了……

以是，为何DeepSeek V4会对于这一设计云云执着？咱们详细来拆析一下。

甚么是batch invariance

先来看看batch invariance的界说：

对于在统一个token，不管它于批次里排第几、不管批次多年夜、不管及谁一路批处置惩罚，输出都能连结逐比特彻底一致。

论文提到，其焦点设计目的，是确保预练习、后练习及推理全流程的可复现性，包管各个环节之间的对于齐。

如许做的利益是，起首，能包管线上推理成果不变。

线上办事会动态batching，统一个用户哀求，今天可能及A、B哀求拼于一路，明天可能及C、D哀求拼于一路。

假如没有batch invariance，一样的提醒词就可能由于batch组合差别、底层kernel归约挨次差别等因素，被放年夜成彻底差别的谜底。

也就是说，batch invariance能让统一个输入，只管即便获得严酷一致的输出。

其次，包管预练习、后练习、推理之间的对于齐。

DeepSeek V4有预练习、SFT、RL、on-policy distillation、推理办事等多条链路。

这就致使了一个问题：模子举动变化究竟是来自数据、RL、蒸馏、量化，还有是来自batch shape/ kernel路径变化？

有了batch invariance，工程团队更易判定，是否是batch构造方式转变了数值成果。

当问题可以或许被正确定位，异样也就更易复现，提高了可复现性及可调试性。

别的，batch invariance也是繁杂上下文体系的底座之一。

V4同时用了长上下文attention、压缩KV、稀少留意力、MoE、FP4/FP八、Muon、mHC、自研 kernel等许多繁杂组件。

组件越多，数值不确定性的来历越多。batch invariance相称在给底层履行体系加了一条硬约束：可以优化机能，但不克不及由于batch变了，就让统一个token的成果变了。

batch invariance还有能让后练习更不变。

RL、蒸馏、长链推理对于细微差异很敏感。一点点数值差异，可能转变采样路径；采样路径一变，reward、teacher-student对于齐、练习旌旗灯号城市变。

batch invariance可以或许削减随机数值扰动，让模子举动更可控。

总结一下，就是batch invariance是DeepSeek V4的底层工程不变器，可以于于极繁杂的长上下文练习、后练习及推理体系里，包管统一输入的数值举动不被batch构造、kernel调理及归约挨次污染，实现可复现、可调试、可对于齐、可不变部署的工程确定性。

捐躯了甚么

如许看来，batch invariance确凿很主要。

但，就像前面说的，价钱不少。

为了batch invariance，V4不克不及随意利用一些常见机能优化了，好比split-KV、split-K。

于attention里，split-KV会把单条序列的留意力计较分摊到多个SM上，以提高负载平衡及GPU使用率。但这类做法会转变并行归约路径，难以包管统一个token于差别batch构造方式下的逐比特一致性。

于GEMM里，split-K的做法是把矩阵乘法的归约维度K切开并行计较。多路并行乞降以后还有要再归约，而浮点加法的归约挨次一变，终极成果的bi 就可能差别，是以也及batch invariance存于冲突。

为此，DeepSeek于attention侧提出了dual-kernel：为统一个留意力解码使命预备两套计较步伐，别离处置惩罚“GPU吃患上满”及“GPU吃不满”的环境，同时包管两套步伐算出来的成果逐比特一致。

矩阵乘法方面，V4于年夜大都场景中抛却split-K，转而做更受约束的 batch-invariant GEMM。他们用自研DeepGEMM替换了通用的cuBLAS。

这些都致使了工程繁杂度的较着上升：许多原本可以交给通用库或者通例优化计谋的事情，都必需由自研kernel及更严酷的计较路径来负担。

云云种种，简朴总结起来象征着DeepSeek V4于如下几个方面做了捐躯：

GPU 使用率（波前量化问题）

小批量/小引列速率

原生算子兼容性

部门稀少加快的自由度

以换取：

练习/推理/RL三阶段逐比特可复现

长上下文、Agent、RL练习不变度

多机多卡跑出来的成果彻底对于齐

One More Thing

DeepSeek V4发布了这么些天，但这个技能陈诉属实是越挖越有。

看点还有包括，把10个以上专家西席模子蒸馏成一个学生模子等等。

而且每一个问题暗地里都有坚实的数学注释。

Hugging Face的Transformers卖力人Arthur Zucker就感触：

把数月以致数年的努力全数免费公然，让任何人都能受益，这是真实的GOAT（Greatest of All Times）。

参考链接：[1]https://x.com/teortaxesTex/status/2048707398886404524?s=20[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

【本文由投资界互助伙伴微信公家号：量子位授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-k8凯发一触即发

行业资讯

精选解答|财务公司业务系统的服务价值是什么？...

数字人民币智能合约：未来哪些领域的工作会受区块链技术影响？...