报告题目:ORGEval: 基于图论的大模型建模评估工具和基准
报告专家:孙若愚 副教授 (香港中文大学(深圳))
时间:2025年11月24日 10:30-11:30
地点:国产主播
425
邀请人:陈亮
报告摘要:在工业应用中,构建优化模型通常需要大量人工投入与专业领域知识。尽管大语言模型(LLMs)在自动化优化建模方面展现出
巨大潜力,但由于缺乏统一且稳健的评估指标,其性能评估仍然面临挑战。现有基于求解器的评估方法常受到评估结果不一致、优化问题
不可行以及计算成本高等问题的影响。为此,我们提出 ORGEval ——一种基于图论的评估框架,用于评估 LLMs 在线性规划(LP)与混合
整数线性规划(MILP)问题中的建模能力。ORGEval 将优化模型形式化为图结构,并将模型等价性判定问题转化为图同构检测。我们提出
并证明了一个充分条件:当被测模型图满足**对称可分解(Symmetric Decomposable, SD)**性质时,Weisfeiler–Lehman(WL)测试可
保证同构判定的正确性。在此基础上,ORGEval 结合改进的 WL 测试与 SD 检测算法,实现了鲁棒且高效的模型等价性评估。与依赖数值
精度的求解器方法不同,ORGEval 聚焦于模型的结构一致性,因此对数值具有天然的鲁棒性。实验结果表明,ORGEval 能够在任意给定数
值下稳定检测模型等价性,实现 100% 的一致性,且评估时间显著低于基于求解器的评估方法,尤其在处理复杂模型时表现突出。我们进
一步构建了 Bench4Opt 数据集,以系统评测当前主流 LLMs 在优化建模任务中的表现。结果显示,DeepSeek-V3 与 Claude-Opus-4 在零
样本提示(zero-shot prompt)设置下取得了最高准确率,甚至超越部分领先的推理模型。
专家简介:孙若愚现为香港中文大学(深圳)数据科学学院长聘副教授、博士生导师,深圳市大数据研究院高级研究科学家。他曾任伊利
诺伊大学香槟分校(UIUC)助理教授、博士生导师;脸书人工智能研究所访问科学家;斯坦福大学博士后研究员。在美国明尼苏达大学获
得博士学位,北京大学数学科学学院获得本科学位。研究方向包括神经网络理论和优化算法、生成模型、大规模优化算法、学习优化、通
信网络优化等。他曾获得INFORMS (国际运筹与管理协会) George Nicolson学生论文竞赛第二名,以及INFORMS优化协会学生论文竞争荣
誉奖。