
报告题目:大型语言模型在自动化运筹优化建模中的演进:从ORLM到STORM
报 告 人:唐正阳
报告时间:2025年10月17日(星期五),10:00-11:30
报告地点:明哲楼517
主办单位:东北财经大学现代供应链管理研究院
【报告人简介】
唐正阳现为香港中文大学(深圳)计算机与信息工程专业博士研究生,师从王本友教授。目前他在阿里巴巴通义千问团队实习,参与了Qwen3系列开源模型的开发,是Qwen3技术报告作者之一。此前他曾在微软亚洲研究院、腾讯QQ浏览器搜索以及阿里巴巴夸克搜索等多个团队有过实习与工作经验。
他的研究聚焦于大型语言模型(LLMs)的基础能力构建与高级推理,致力于探索如何系统性地将模型的潜在知识与推理能力转化为解决复杂真实世界问题的专家技能, 已在NeurIPS, ICML, ICLR, COLM, TMLR, Operations Research, ACL, COLING等顶级机器学习会议和期刊上发表多篇论文,其中在Operations Research发表的论文是该期刊创刊70余年来首次收录关于大语言模型的研究论文。
他开发的算法已成功应用于多个领域,包括在2022年MSMARCO段落排序权威榜单中名列第三,以及在2022全球语言与智能挑战赛中斩获亚军。
【摘要】
运筹优化(Operations Research, OR)在现代商业决策中扮演着关键角色,但将复杂的现实问题转化为精确的数学模型,长期以来是依赖专家经验的瓶颈环节。大型语言模型(LLM)的崛起为此提供了自动化的新路径。本次报告将系统介绍我们在LLM赋能自动化OR建模领域的一系列探索,重点聚焦于两个里程碑式的工作:ORLM 与 STORM,它们分别代表了我们利用不同类型大模型解决此问题的范式演进。
首先,我们将介绍ORLM项目,这是我们首次尝试训练一个专注于OR领域的开源大型语言模型(LLM)。为了解决高质量训练数据匮乏的难题,我们设计并实现了半自动化的数据合成框架OR-INSTRUCT。基于此框架,我们成功训练了ORLM,它不仅打破了当时研究对闭源模型的依赖,也为社区提供了首个可用于OR建模任务的开源模型和数据方案。在此基础上,SIRL引入OR求解器作为奖励来源的强化学习,能够有效提升模型的性能。
接着,随着具备强大原生推理能力的大型推理模型(Large Reasoning Models, LRM)的出现,我们发现传统的微调方法难以完全释放其潜力。为此,我们提出了CALM(Corrective Adaptation with Lightweight Modification)框架,并基于此开发了STORM——首个旨在利用并优化LRM原生推理能力的OR建模模型。与直接生成最终答案的LLM不同,LRM具备多步、反思性的思考能力。CALM框架通过一种轻量级的动态提示机制,在保留模型原生推理模式的同时,对其进行引导和修正。基于这一新范-式,我们通过引导式微调与强化学习两阶段训练,最终打造出4B参数的STORM模型。值得一提的是,STORM-4B在多个主流OR建模基准上,取得了与671B参数的DeepSeek-R1-0528模型相当的SOTA性能,充分证明了我们新范式在参数效率和性能上的巨大优势。
本次报告将详细阐述ORLM与STORM的设计哲学与实现细节,分享我们从LLM到LRM的技术演进之路,并探讨其在工业界与学术界的潜在应用。