当前位置:100EC>数字生活>蚂蚁百灵发布新模型Ling-2.6-flash 推理成本仅为同类十分之一
蚂蚁百灵发布新模型Ling-2.6-flash 推理成本仅为同类十分之一
网经社发布时间:2026年04月22日 15:43:24

(网经社讯)4月22日,蚂蚁集团百灵大模型团队推出新款Instruct模型Ling-2.6-flash。据网经社AI台(AI.100EC.CN)获悉,该模型总参数量1040亿,激活参数量74亿,采用混合线性架构,是一种高度稀疏化的MoE设计。模型已通过API开放,输入每百万tokens定价0.1美元,输出0.3美元,首周提供免费试用。

此前一周,一个名为Elephant Alpha的匿名模型在OpenRouter平台上线,调用量迅速攀升,连续多日位列Trending榜首,日均tokens调用量达100亿级别,周增长超过5000%。百灵今日确认,Elephant Alpha正是Ling-2.6-flash的匿名测试版本。

在性能方面,Ling-2.6-flash在4卡H20环境下推理速度最快可达每秒340个tokens,稳定输出为每秒215个tokens。其Prefill吞吐量达到Nemotron-3-Super的2.2倍。在Artificial Analysis的完整评测中,该模型仅消耗1500万tokens完成全部评测任务,而同类模型需要1.1亿tokens以上,消耗约为后者的十分之一。此外,模型针对Agent场景做了定向增强,在BFCL-V4、TAU2-bench、SWE-bench Verified等多项基准测试中达到同尺寸模型的最佳水平。

从行业对比来看,MoE架构已成为大模型的主流技术路线。DeepSeek-V3总参数6710亿,激活参数370亿;阿里通义千问Qwen3.5-35B-A3B总参数350亿,激活参数30亿;字节跳动豆包2.0 Pro总参数7440亿,激活参数约40至44亿。各家都在围绕激活参数优化,试图在模型能力与推理成本之间寻找更优平衡点。当模型厂商纷纷将成本效率作为核心卖点时,用户在实际业务场景中究竟更看重单位token成本,还是模型解决复杂任务的鲁棒性?这个问题的答案,可能比任何技术参数都更能决定下一代大模型的市场走向。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【关键词】 蚂蚁百灵原创
【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
          微信公众号
          微信二维码 打开微信“扫一扫”
          微信小程序
          小程序二维码 打开微信“扫一扫”