近日,国内人工智能领军企业极思科技正式对外发布其自研大语言模型的全新版本——Leanstral 1.5。这是继去年Leanstral 1.0面世以来最具里程碑意义的一次迭代。官方宣称,新版本在推理效率、上下文长度以及多模态融合能力上实现了“代际跨越”,同时将单位Token的推理成本压缩至上一代的30%,有望彻底改写企业在AI应用部署中的算力账本。
在位于北京中关村的发布会上,极思科技CTO张明远通过实时演示展示了Leanstral 1.5的“杀手锏”:当被要求同时处理一份长达12万字的行业研报、一段30分钟的视频访谈以及一组复杂的数据表格时,模型仅用4.2秒便完成跨模态信息抽取与逻辑推理,并生成了结构清晰的摘要报告。而在同样的硬件环境下,上一代模型需要近15秒才能完成类似任务,且容易出现上下文丢失。
“Leanstral 1.5的核心突破在于架构层面的轻量化稀疏注意力机制(LightSparse Attention),”张明远在演讲中解释道,“我们重新设计了注意力头分配策略,使模型能够在保持128K超长上下文的同时,将计算复杂度从O(n²)降至接近O(n)。这意味着无论对话历史多长,回答速度都不会明显衰减。”
除了推理效率,成本优势是此次发布最受外界关注的焦点。据极思科技公布的内部测试数据,Leanstral 1.5在主流云服务商A100显卡上的单Token推理成本已降至0.0007元,较1.0版本下降约70%。同时,该模型在MMLU、GSM8K、HumanEval等13个权威基准测试中的平均得分为86.3分,较上一代提升12个百分点,在代码生成、数学推理和中文理解等细分领域甚至超越了同等参数量级的开源模型Llama-3-70B。
行业分析人士指出,Leanstral 1.5的发布正值大模型行业从“军备战”向“落地战”转型的关键节点。过去一年,国内数十家企业相继推出千亿甚至万亿参数模型,但高昂的推理成本与复杂的部署流程严重阻碍了企业级应用的规模化落地。极思科技此番选择在“性价比”上做文章,显然是瞄准了金融、医疗、法律等对实时性与成本敏感的场景。
“我们收到了大量中小企业的反馈,他们不是不需要大模型,而是承受不起每百万Token动辄几十元的调用费。”极思科技商业化副总裁李婉婷在接受采访时表示,“Leanstral 1.5的API定价已经低至每百万输入Token 2.8元、每百万输出Token 8.4元,与GPT-4o相比节省了近90%的成本。我们的目标是让任何一家公司,哪怕只有几台服务器,也能轻松接入顶尖的通用智能。”
在具体应用场景上,Leanstral 1.5还引入了原生多智能体协作框架。企业用户可一键调用多个“专家子模型”,分别负责数据清洗、逻辑校验、风格转换等任务,再由主模型进行协调汇总。极思科技同步开源了配套的Agent编排工具,允许开发者以低代码方式构建定制化工作流。
不过,也有专家对快速迭代中的模型稳定性持谨慎态度。北京智源研究院研究员王涛指出,Leanstral 1.5在长文档上的幻觉率较上一代有何变化,官方尚未公布第三方评测数据。“效率提升固然重要,但安全性与可靠性才是大模型走向核心生产系统的前提。”
对此,极思科技回应称,Leanstral 1.5在内部安全红队测试中通过了超过20万条对抗性样本的检验,幻觉率控制在2.1%以内,同时新增了可定制的“安全输出过滤器”,允许企业根据自身行业规范对回答边界进行动态调整。
据了解,Leanstral 1.5即日起向所有开发者开放API接入,同时支持阿里云、华为云和腾讯云镜像一键部署。极思科技还宣布启动“星火计划”,向100家入选的初创企业提供总值500万元的免费算力额度。业内普遍认为,Leanstral 1.5的登场或将引发新一轮大模型降价潮,并加速AI技术从“炫技”向“赋能”的实质性转变。