近日,卡内基梅隆大学、普林斯顿大学与Together AI等机构联合推出全新状态空间模型(SSM)——Mamba-3。该模型在保持强大语言建模能力的同时,将隐状态规模压缩至前代的一半,显著降低内存占用;更关键的是,其专为多输入多输出(MIMO)场景优化的硬件解码设计,大幅提升了推理吞吐量与能效比。与当前主流Transformer架构相比,Mamba-3规避了自注意力机制固有的O(N²)计算复杂度和线性显存增长问题,在长文本处理、边缘部署及实时生成等对延迟敏感的应用中展现出明显优势。研究团队强调,此次突破并非单纯参数压缩,而是通过重构状态转移逻辑与硬件协同编译策略,实现了“更小状态、更高效率”的双重目标。目前相关技术细节已公开,预计将进一步推动高效AI模型在终端设备与云边协同场景的落地。
来源:MarkTechPost
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END


请登录后查看评论内容