首個系統(tǒng)級上下文稀疏化高效創(chuàng)新模型。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
據(jù)IPO早知道消息,面壁智能于日前舉行的2025智源大會上發(fā)布了新一代「面壁小鋼炮」MiniCPM4.0端側(cè)模型發(fā)布。一款8B稀疏閃電版,帶來端側(cè)性能創(chuàng)新式大躍升;一款0.5B實力演繹以小博大,適配廣泛終端場景。
值得一提的是,第四代小鋼炮推出了首個原生稀疏模型,5%的極高稀疏度加持系統(tǒng)級創(chuàng)新技術(shù)的大爆發(fā),讓長文本、深思考在端側(cè)真正跑起來,宣告了端側(cè)長文本時代到來;220倍極限加速,一半?yún)?shù)翻倍性能的表現(xiàn),則繼續(xù)帶來端側(cè)基模最極致表現(xiàn)。
具體來講,面對此前端側(cè)模型長文本「龜速推理」業(yè)界難題,MiniCPM 4-8B「閃電稀疏版」,采用了新一代上下文稀疏高效架構(gòu),相較于同等參數(shù)規(guī)模端側(cè)模型實現(xiàn)了長文本推理速度5倍常規(guī)加速以及最高220倍加速(顯存受限極限場景下測出),真正讓端側(cè)模型長文本推理實現(xiàn)了「快如閃電」的質(zhì)變。此外,注意力機制上實現(xiàn)了高效雙頻換擋,長文本用稀疏,短文本用稠密,切換快如流。
同時,MiniCPM 4.0推出端側(cè)性能“大小王”組合,擁有8B 、0.5B兩種參數(shù)規(guī)模,延續(xù)「以小博大」特性,實現(xiàn)了同級最佳的模型性能。其中,MiniCPM 4.0-8B模型為稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基準測試中,以僅22%的訓(xùn)練開銷,性能比肩Qwen-3-8B,超越Gemma-3-12B。MiniCPM 4.0-0.5B在性能上相較更大的Qwen-3-0.6B、Llama 3.2, 僅2.7%的訓(xùn)練開銷,一半?yún)?shù)性能翻倍,并實現(xiàn)了最快600 Token/s的極速推理速度。
此外,MiniCPM 4.0持續(xù)衛(wèi)冕全球最強端側(cè)模型,并進一步實現(xiàn)了長文本緩存的大幅銳減,在128K長文本場景下,MiniCPM 4.0-8B相較于Qwen3-8B僅需1/4 的緩存存儲空間。量化版高達90%的模型瘦身,性能依然十分穩(wěn)健。在速度、性能飆升的同時,又做到了模型極致壓縮,讓端側(cè)算力不再有壓力。
在應(yīng)用上,端側(cè)長文本的突破帶來更多可能。基于8B版本,面壁智能團隊微調(diào)出兩個特定能力模型,分別可以用做MCP Client和純端側(cè)性能比肩Deep Research的研究報告神器MiniCPM4-Surve。
截至目前,MiniCPM 4.0已實現(xiàn) Intel、高通、MTK、華為昇騰等主流芯片的適配,并可在vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等開源框架部署。同時加強了對MCP的支持,且性能超過同尺寸開源模型,進一步拓展了模型開發(fā)、應(yīng)用潛力。
整體而言,本次MiniCPM 4.0的發(fā)布,是面壁智能持續(xù)探索高效大模型道路上的又一重要里程碑,通過多維度、高密度的優(yōu)化,真正做到行業(yè)唯一的端側(cè)可落地的系統(tǒng)級軟硬件稀疏化高效創(chuàng)新。截至目前,面壁小鋼炮MiniCPM系列全平臺下載量累計破1000萬。未來,面壁智能還將基于「大模型密度定律Densing Law」,持續(xù)提高大模型的知識密度與智能水平,推動端側(cè)智能高效發(fā)展與規(guī)?;a(chǎn)業(yè)應(yīng)用。
本文來源:IPO早知道
來源:IPO早知道
重要提示:本文僅代表作者個人觀點,并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點擊【聯(lián)系客服】
樂居財經(jīng)APP
?2017-2025 北京怡生樂居財經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號院1號樓1層101內(nèi)3層S3-01房間756號 100016
京ICP備2021030296號-2京公網(wǎng)安備 11010502047973號