登录
首页 > 大众汽车 > 蚂蚁百灵开卷模型性价比!长文本推理只要1/10成本,6.1B激活撬动40B性能

蚂蚁百灵开卷模型性价比!长文本推理只要1/10成本,6.1B激活撬动40B性能

发布时间:2025-09-27 14:34:16

9月26日报道,蚂蚁百灵团队近日正式开源两款全新混合线性推理模型——Ring-mini-linear-2.0与Ring-flash-linear-2.0。相比前代,这一轮升级在延续高稀疏MoE结构的基础上,引入了混合线性注意力(Linear Attention)机制,专为长文本、低成本推理等场景提效而设计。

眼下,大模型开始真正走进应用场景,推理成本却成了横在企业面前的一道坎。一边是用户希望更快、更久地交互,另一边却是又贵又慢的模型部署现实。在不牺牲效果的前提下降本提效,已经成了各家模型团队绕不开的问题。

据蚂蚁团队的实测数据,在保持SOTA精度的前提下,本轮开源的Ring-linear系列模型最大上下文长度512k,将推理成本压缩至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并发解码任务中吞吐量可达Qwen3-8B的12倍、Qwen3-32B的10倍以上。

此外,蚂蚁团队还引入了精细化的推理优化融合算子RL训练对齐机制等系统级工具,直指当前推理成本与训练稳定性的关键瓶颈。

除了推理效率的显著提升,Ring-linear系列模型在多项标准评测中的表现也不容忽视,尤其在数学推理、结构代码生成、通用语言理解与写作任务中,展现出与主流大模型相比具有竞争力的准确率。实测结果包括:

Ring-mini-linear-2.0:

 

Ring-flash-linear-2.0:

Copyright 2018-2025 汽车星 版权所有  京ICP备2019162790号