每日點新聞 點解香港事
下載APP
標籤

字節跳動豆包團隊提出全新稀疏架構 推理成本較MoE最高可降83%

字節跳動豆包大模型團隊提出了全新的稀疏模型架構UltraMem,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。(點新聞資料圖片)

【點新聞報道】隨着模型規模的擴大,推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸。近期,字節跳動豆包大模型團隊提出了全新的稀疏模型架構UltraMem,該架構有效解決了MoE推理時高額的訪存問題,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。該研究還揭示了新架構的Scaling Law,證明其不僅具備優異的Scaling特性,更在性能上超越了MoE。

實驗結果表明,訓練規模達2000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢了新路徑。

收藏收藏
取消收藏取消收藏
稿件由上傳 · 文責自負 · 不代表本網立場

字節跳動豆包團隊提出全新稀疏架構 推理成本較MoE最高可降83%

收藏收藏
取消收藏取消收藏
稿件由上傳 · 文責自負 · 不代表本網立場

相關推薦