文章目录论文信息论文主要贡献论文创新点方法4.14.2实验分析消融实验图表展示消融实验整体结论复盘论文信息论文题目 LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization论文作者 Muhammad U. Nasir Sam Earle Christopher W. Cleghorn Steven James Julian Togelius发表会议 GECCO 2024代码链接 https://github.com/umair-nasir14/LLMatic论文主要贡献本论文主要提出了一种将大语言模型的代码生成功能与QD质量多样性检测结合引入有意义的变异并生成多样的鲁棒性解的、全新的基于大语言模型并依托于双质量多样性存档的神经架构搜索算法——LLMatic。本算法并在CIFAR-10 与 NAS‑bench‑201 基准测试集上进行了实验验证结果证明即便不具备该基准领域的先验知识也未接触过该基准上任何已有的顶尖模型LLMatic 仅需评估 2000 个候选网络就能生成性能极具竞争力的网络。论文创新点将大语言模型的编码功能与QD质量多样性检测进行结合不局限于生成单一的最优解而是一系列的高架构、多样性、高性能的新型架构。用大语言模型取代传统意义上MAP-Elites算法中的进化算子利用大语言模型实现代码有意义的进化生成。提出了全新的双档案协同质量多样性方法。设立两个档案互补存在组合完成特定任务。改变了提示词档案库中的特征维度。方法4.1从一个非常基础的神经网络开始训练实验证明刚开始训练的模型越简单最后得到的效果越好。设立了两个独立的档案分别存储内容两者的组成内容互补可组合完成特定任务。第一个档案库是网络档案库。其中储存着所有的神经网络架构。将网络的宽深比和每秒的浮点数作为行为描述符。网络的宽深比是网络的宽度所有曾输出特征维度的最大值与深度网络总层数的比值用浮点数而非参数值是因为浮点数与网络实际训练的关联度更高。网络档案库的更新指标是库中网络的适应度函数其定义为训练后的准确率。按照行为描述符分成的小生态位若是空的则将新生成的神经网络架构填入若存有一个架构则比较更新指标差者直接淘汰。最后每个生态位只保留性能最好的解。第二个档案库是提示词档案库其中以提示词内容文本特征通常编码为数值和温度作为行为描述符。温度越高发散能力越强得到的架构多样性越高反之则确定性越强。后续过程中提示词和温度的选择取决于好奇心评分即生成的网络是否被加入网络档案库。提示词档案库的更新指标取决于个体的集体适应度分数。在每一轮变异后计算出提示词个体的适应度加入集体适应度分数。而集体适应度分数决定着每个个体的整体适应度会赋值给个体一个分数。4.2第一代由一个卷积加一个全连接层的简单神经网络和随机选择的提示词开始生成初始批次的网络该批次网络会被评估是否能加入网络档案库作为MAP-Elites的随机初始化。根据网络的适应度对温度进行变异适应度越高温度提高反之降低。若希望大语言模型自我探索温度升高大语言模型对已有的模型进行利用则温度降低。当任一档案库到指定容量后引入神经网络训练和进化算子。接下来每一代中系统都会以一定概率执行交叉操作0.3还是变异操作0.7以产生N个新后代。交叉操作随机N个神经网络在档案库中找到最相近的网络架构。按提示词操作。在交叉操作中提示词档案库不变。变异操作选择好奇心评分最高的提示词和一个随机网络个体进行变异。当促进探索时也会随机选择提示词这两种情况下网络训练一定轮次尝试添加网络档案库中持续预设的代数。最后得到一系列多样性、高性能的神经网络架构。实验分析消融实验图表展示上图为柱状对比图横轴为各组消融实验纵轴为CIFAR-10测试准确率直观展示完整模型vs各消融组的性能差距。MethodCIFAR-10CIFAR-100ImageNet16-120DARTS54.30±0.0015.61±0.0016.32±0.00Random Search93.70±0.3671.04±1.0744.57±1.25GENIUS93.79±0.0970.91±0.7244.96±1.02Λ -DARTS94.36±0.0073.51±0.0046.34±0.00LLMatic94.26±0.1371.62±1.7345.87±0.96Optimal94.4774.1747.33上表为对应数值表同步标注准确率、档案填充率、评估效率三项核心指标。消融实验整体结论复盘全组件必要性验证任意剔除一个核心组件都会导致模型的测试准确率、网络多样性或搜索效率出现明显下滑证明 LLMatic 的双档案库、进化算子、温度调控、好奇心筛选、MAP-Elites 机制均为核心必要模块无冗余设计。核心组件优先级提示词档案库、MAP-Elites 择优归档、好奇心分数对算法效果影响最大其次是交叉算子与温度自适应纯LLM直接搜索完全无法胜任NAS任务。实验核心价值通过消融实验彻底证明LLM代码生成能力QD质量多样性优化的结合思路成立且程序化的进化迭代方式远优于直接用LLM提示词做NAS为后续LLM驱动的神经架构搜索提供了可靠的设计依据。