距離四月下旬已不足數(shù)日,DeepSeek V4大模型的發(fā)布節(jié)奏持續(xù)引發(fā)關(guān)注。就在昨日,該公司研究人員悄然更新了DeepGEMM算子庫,這一動(dòng)作被業(yè)內(nèi)普遍視為V4臨近發(fā)布的信號(hào)之一。
為避免外界過度解讀,團(tuán)隊(duì)在更新后特別補(bǔ)充說明:此次調(diào)整僅聚焦于DeepGEMM底層算子的開發(fā)與優(yōu)化,與內(nèi)部大模型的發(fā)布時(shí)間表無直接關(guān)聯(lián)。換言之,該次技術(shù)演進(jìn)并非V4即將推出的明確預(yù)告。
但恰恰是這類克制的澄清,反而進(jìn)一步激發(fā)了公眾對V4的期待。原因在于,本次DeepGEMM升級(jí)本身亮點(diǎn)突出,多項(xiàng)關(guān)鍵技術(shù)改進(jìn)與大模型架構(gòu)演進(jìn)高度契合,很難不讓人聯(lián)想到V4的底層支撐邏輯。
具體來看,此次更新在精度支持方面新增FP8_FP4混合計(jì)算能力,并深度適配NVIDIA Blackwell架構(gòu);在結(jié)構(gòu)層面則重點(diǎn)引入Mega MoE與HyperConnection兩大新機(jī)制。其中,Mega MoE尤為關(guān)鍵,有望推動(dòng)MoE架構(gòu)實(shí)現(xiàn)質(zhì)的躍升。
根據(jù)公開分析,Mega MoE將顯著提升單次推理中被激活的專家數(shù)量。相較V3版本固定啟用256個(gè)專家,V4預(yù)計(jì)可動(dòng)態(tài)調(diào)度數(shù)千個(gè)專家單元,在保障模型響應(yīng)靈活性的同時(shí),大幅增強(qiáng)表達(dá)能力與推理質(zhì)量,且對計(jì)算資源和顯存占用的增幅控制在合理區(qū)間。
更值得關(guān)注的是,此次算子庫更新所透露的參數(shù)規(guī)模線索也日趨清晰。有分析指出,V4單層MoE結(jié)構(gòu)參數(shù)約為25.37B,若沿用60層設(shè)計(jì),整體參數(shù)量將達(dá)約1.6萬億;即便采用48層結(jié)構(gòu),參數(shù)總量亦可達(dá)1.25萬億。相較此前市場普遍預(yù)期的1萬億參數(shù),1.6萬億意味著提升幅度達(dá)60%,性能潛力遠(yuǎn)超原有預(yù)估。
即便最終落地版本為1.25萬億參數(shù),也已較V3的6700億實(shí)現(xiàn)翻倍增長。疊加Mega MoE帶來的數(shù)千專家協(xié)同機(jī)制,V4不僅將刷新MoE類大模型的技術(shù)邊界,更可能成為該架構(gòu)發(fā)展進(jìn)程中具有標(biāo)志意義的一次跨越。