五阶段自进化流程
系统以 Generate、Validate、Score、Reflect、Evolve 为核心循环,每一轮都在真实实验反馈的基础上修正策略,而不是盲目相信大模型的单次输出。
识别问题规模、约束密度、资源分布和潜在瓶颈,为策略选择提供结构化上下文。
根据实例特征与历史经验自动生成候选 solver,而不是固定调用单一算法。
通过沙箱执行、约束检查、异常捕获和目标函数评分筛选高质量候选。
将实验结果沉淀进 MemoryStore 与 FrameworkStore,驱动下一轮策略优化。
Agent 会把大模型提出的候选方案转化为真实可运行的 solver,再通过沙箱验证、评分器评估和记忆系统反馈进行多轮迭代。这使系统从普通文本生成升级为可执行、可验证、可进化的算法设计流程。
系统以 Generate、Validate、Score、Reflect、Evolve 为核心循环,每一轮都在真实实验反馈的基础上修正策略,而不是盲目相信大模型的单次输出。
它会观察输入实例,提出算法假设,生成候选代码,运行实验,比较结果,并将成功与失败经验沉淀为下一轮推理的知识基础。
agent.classify(case) agent.generate(candidate_solver) sandbox.validate(candidate) score.rank(candidate) memory.update(feedback) finalize(best_solver)
保存问题建模范式、算法模板、启发式策略和可复用组件,是 Agent 的长期方法论知识库。
记录每轮实验得分、失败原因和历史最优策略,并通过 UCB bandit 平衡探索与利用。
管理候选 solver、执行日志、评分报告和最终产物,保证求解过程可追踪、可复现、可比较。
该系统不是简单的大模型应用,而是 LLM Agent、AutoSolver、程序合成、神经符号推理、在线学习和自动化实验平台的融合。它的价值在于让大模型不只“会写”,还要“能跑、能验、能比较、能进化”。
| Dimension | 传统固定求解器 | AutoSolver Agent |
|---|---|---|
| 算法来源 | 由人工预先设计,策略固定,对不同实例的适应性有限。 | 根据实例特征自动生成、组合、改写并筛选候选 solver。 |
| 优化过程 | 依赖人工调参、人工测试和手动比较实验。 | 通过沙箱执行、评分反馈和多轮迭代形成自动化实验闭环。 |
| 可靠性机制 | 通常依赖人工测试,缺少统一的执行隔离与约束验证。 | 候选代码必须经过隔离运行、约束检查、异常捕获和量化评分。 |
| 长期能力 | 经验难以结构化迁移,每个问题往往重新开始。 | 通过 FrameworkStore、MemoryStore 和 ArtifactStore 积累可迁移经验。 |
本项目的核心不是“用大模型写一个 solver”,而是构建一个能够自动理解问题、生成 solver、验证 solver、比较 solver,并在多轮实验中持续进化的智能求解体。
它将大语言模型的创造性、传统优化系统的严谨性和自动化实验平台的可复现性统一到一个闭环架构中。