寒武紀(jì)完成DeepSeek-V4“Day 0”適配
關(guān)鍵詞: 寒武紀(jì) DeepSeek-V4 模型適配 Day0
4月24日,寒武紀(jì)宣布,基于自研NeuWare軟件生態(tài)與vLLM推理框架,已完成對深度求索公司最新開源大模型DeepSeek-V4的“Day 0”適配,適配代碼已同步開源至GitHub社區(qū)。這是寒武紀(jì)連續(xù)第二次在DeepSeek新模型發(fā)布首日便推出國產(chǎn)芯片適配方案。

此次適配針對DeepSeek-V4的全新模型結(jié)構(gòu),寒武紀(jì)通過自研高性能融合算子庫Torch-MLU-Ops,對模型中的Compressor、mHC等模塊進(jìn)行了專項(xiàng)加速;并運(yùn)用BangC編程語言編寫了稀疏/壓縮Attention、GroupGemm等熱點(diǎn)算子的極致優(yōu)化Kernel,以充分釋放其MLU系列芯片的硬件底層潛力。此前,雙方通過持續(xù)的軟硬件協(xié)同優(yōu)化,已在DeepSeek系列模型的部署中實(shí)現(xiàn)了業(yè)界領(lǐng)先的算力利用率水平。
深度求索于同日正式發(fā)布并開源了DeepSeek-V4預(yù)覽版。該模型擁有百萬字(約100萬Token)的超長上下文處理能力,在Agent能力、世界知識和推理性能上均實(shí)現(xiàn)了國內(nèi)與開源領(lǐng)域的領(lǐng)先。模型按規(guī)模分為兩個版本:面向高性能的DeepSeek-V4-Pro(總參數(shù)1.6T)和主打高性價(jià)比的DeepSeek-V4-Flash(總參數(shù)284B)。
寒武紀(jì)表示,DeepSeek-V4能夠原生運(yùn)行于寒武紀(jì)芯片,對中國AI產(chǎn)業(yè)具有里程碑意義。這一成就得益于其長期構(gòu)建的NeuWare軟件棧,該平臺全面擁抱開源生態(tài),原生支持PyTorch、vLLM、Diffusers等主流AI框架,并與眾智FlagOS生態(tài)深度合作,旨在降低模型在不同架構(gòu)芯片間的遷移成本。(校對/鄧秋賢)