AutoSolver Agent｜Intelligent Solver System

系统以 Generate、Validate、Score、Reflect、Evolve 为核心循环，每一轮都在真实实验反馈的基础上修正策略，而不是盲目相信大模型的单次输出。

01Generate

02Validate

03Score

04Reflect

05Evolve

Verifier-in-the-loop 真实执行反馈多轮候选搜索策略自修正

它会观察输入实例，提出算法假设，生成候选代码，运行实验，比较结果，并将成功与失败经验沉淀为下一轮推理的知识基础。

agent.classify(case)
agent.generate(candidate_solver)
sandbox.validate(candidate)
score.rank(candidate)
memory.update(feedback)
finalize(best_solver)

保存问题建模范式、算法模板、启发式策略和可复用组件，是 Agent 的长期方法论知识库。

记录每轮实验得分、失败原因和历史最优策略，并通过 UCB bandit 平衡探索与利用。

管理候选 solver、执行日志、评分报告和最终产物，保证求解过程可追踪、可复现、可比较。

Dimension	传统固定求解器	AutoSolver Agent
算法来源	由人工预先设计，策略固定，对不同实例的适应性有限。	根据实例特征自动生成、组合、改写并筛选候选 solver。
优化过程	依赖人工调参、人工测试和手动比较实验。	通过沙箱执行、评分反馈和多轮迭代形成自动化实验闭环。
可靠性机制	通常依赖人工测试，缺少统一的执行隔离与约束验证。	候选代码必须经过隔离运行、约束检查、异常捕获和量化评分。
长期能力	经验难以结构化迁移，每个问题往往重新开始。	通过 FrameworkStore、MemoryStore 和 ArtifactStore 积累可迁移经验。

Dimension

传统固定求解器

AutoSolver Agent

算法来源

由人工预先设计，策略固定，对不同实例的适应性有限。

根据实例特征自动生成、组合、改写并筛选候选 solver。

优化过程

依赖人工调参、人工测试和手动比较实验。

通过沙箱执行、评分反馈和多轮迭代形成自动化实验闭环。

可靠性机制

通常依赖人工测试，缺少统一的执行隔离与约束验证。

候选代码必须经过隔离运行、约束检查、异常捕获和量化评分。

长期能力

经验难以结构化迁移，每个问题往往重新开始。

通过 FrameworkStore、MemoryStore 和 ArtifactStore 积累可迁移经验。

让 Agent 自己发明 solver