强化学习:从自动驾驶汽车到自动驾驶实验室
原文towardsdatascience.com/reinforcement-learning-self-driving-cars-to-self-driving-labs-018f465d6bbc?sourcecollection_archive---------2-----------------------#2024-12-06理解生物领域中 AI 应用对于机器学习工程师的意义https://medium.com/meghanheintz?sourcepost_page---byline--018f465d6bbc--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--018f465d6bbc-------------------------------- Meghan Heintz·发表于 Towards Data Science ·9 分钟阅读·2024 年 12 月 6 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b48d11c88e2a6efaead33aeccaa4dad0.png图片来源Ousa Chea 在 Unsplash任何尝试教狗狗新把戏的人都知道强化学习的基本原理。我们可以通过不断奖励狗狗的服从行为并惩罚其不良行为来改变它的行为。在强化学习RL中狗狗就是一个智能体它在环境中进行探索并根据可用的动作获得奖励或惩罚。这个非常简单的概念已经通过数学形式化并扩展到推动自动驾驶和自动驾驶/自主实验室领域的发展。作为一名纽约人我在开车时常常感到焦虑拥有一个冷静的机器人司机的好处显而易见。而当我考虑到新一代生成式人工智能生物工具的巨大潜力时自动化实验室的好处才变得明显。我们可以生成大量高质量的假设目前的瓶颈是实验验证。如果我们能利用强化学习RL教会一辆车自我驾驶我们是否也能用它来处理人工智能生成的创意实验验证呢本文将继续我们的系列文章为机器学习工程师理解 AI 在生物学中的应用通过学习强化学习如何应用于自动驾驶汽车和自主实验室例如AlphaFlow。自动驾驶汽车理解强化学习的最一般方式是将其视为一种通过实践来学习的方法。代理与环境互动学习哪些行为能产生最高的奖励并通过试错避免惩罚。如果通过试错的方式在一辆重达 2 吨的金属盒子中以 65 英里每小时的速度行驶听起来有些可怕像是某个监管机构不会批准的事情那么你是对的。大多数强化学习的驾驶实验是在模拟环境中进行的而当前的自动驾驶技术仍然侧重于监督学习方法。但是Alex Kendall证明了只需几台廉价的摄像头、一个庞大的神经网络和二十分钟的时间汽车就能自学如何驾驶。那么他是如何做到的呢Alex Kendall展示了如何使用强化学习教一辆车在真实道路上行驶。更主流的自动驾驶方法使用专门的模块来处理每个子问题车辆管理、感知、地图绘制、决策等。但 Kendall 团队采用了深度强化学习方法这是一种端到端学习方法。这意味着不是将问题拆解成多个子问题并为每个子问题训练算法而是通过一个算法根据输入做出所有决策输入- 输出。这种方法被提议作为对监督学习方法的改进因为将多个不同的算法组合在一起会导致复杂的相互依赖关系。强化学习是一类旨在解决马尔可夫决策过程MDP的问题MDP 是一个决策问题其结果部分是随机的部分是可控的。Kendall 团队的目标是将驾驶定义为一个 MDP特别是通过简化目标——车道跟踪来进行定义。以下是强化学习的各个组成部分如何映射到自动驾驶问题中的解析代理A即决策者。这就是司机。环境即代理与之互动的所有事物。例如汽车及其周围环境。状态S智能体当前情况的表示。汽车在道路上的位置。可以使用许多传感器来确定状态但在肯达尔的示例中只使用了单目相机图像。这样它更接近人类驾驶时所拥有的信息。然后图像通过变分自编码器VAE在模型中表示。动作A智能体做出的影响环境的选择。在哪里以及如何刹车、转弯或加速。奖励来自环境对之前动作的反馈。肯达尔团队选择了“车辆在没有安全驾驶员介入的情况下行驶的距离”作为奖励。策略智能体用来决定在给定状态下采取何种行动的策略。在深度强化学习中策略由深度神经网络控制在本案例中为深度确定性策略梯度DDPG。这是一种现成的强化学习算法没有特定任务的适配也称为演员网络。价值函数智能体从给定状态或状态-动作对能够获得的期望奖励的估计。也称为评论家网络。评论家通过在训练过程中提供反馈帮助引导演员评估动作的质量。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/86bf66f9c8b15abc0f28d32e84d88ce5.png用于学习驾驶策略和价值函数的演员-评论家算法来自于《一天学会驾驶》。这些部分通过迭代学习过程结合在一起。智能体使用其策略在环境中采取行动观察结果状态和奖励并更新策略通过演员和价值函数通过评论家。以下是逐步的工作原理初始化智能体从随机初始化的策略演员网络和价值函数评论家网络开始。它没有关于如何驾驶的先验知识。探索智能体通过采取包含一定随机性的动作来探索环境探索噪声。这确保智能体尝试广泛的动作来学习它们的效果同时令监管者感到恐慌。状态转移根据智能体的动作环境作出响应提供一个新的状态例如下一张相机图像、速度和转向角度和奖励例如未干预或没有驾驶违规的行驶距离。奖励评估智能体通过观察奖励来评估其动作的质量。积极的奖励鼓励期望的行为如保持在车道内而稀疏或没有奖励则促使改进。学习更新智能体使用奖励和观察到的状态转移来更新其神经网络评论网络价值函数评论网络通过更新其对 Q 函数的估计Q 函数是估计在给定动作和状态下的奖励的函数最小化时序差分TD误差以改善其对长期奖励的预测。行动者网络策略行动者通过使用评论者的反馈来更新其策略逐渐倾向于评论者预测将带来更高奖励的动作。6. 重放缓冲区经验状态、动作、奖励、下一状态存储在重放缓冲区中。在训练过程中智能体从该缓冲区中采样以更新其网络从而确保数据的高效使用和训练的稳定性。7. 迭代该过程反复进行。智能体通过试验和错误不断完善其策略和价值函数逐步提高其驾驶能力。8. 评估在没有探索噪声的情况下测试智能体的策略以评估其表现。在肯德尔的工作中这意味着评估汽车保持在车道内并最大化自动行驶距离的能力。进入一辆车随机初始化权重后开车似乎有点令人生畏幸运的是肯德尔团队意识到超参数可以在三维仿真中进行调优然后再转移到现实世界中。他们在虚幻引擎 4 中构建了一个仿真引擎运行生成模型来模拟乡村道路、不同天气条件和路面纹理从而创建训练仿真。这些重要的调优强化学习参数包括学习率、梯度步数等。它还确认了连续的动作空间比离散的动作空间更为优越并且 DDPG 是解决该问题的合适算法。这其中最有趣的方面之一是它相较于主流方法具有更强的通用性。所采用的算法和传感器远没有像 Cruise 和 Waymo 等公司所要求的那么专业化。它不需要先进的地图数据或激光雷达LIDAR数据这使得它能够扩展到新的道路和未映射的乡村地区。另一方面这种方法的某些缺点是稀疏奖励我们通常不会频繁地偏离车道这意味着奖励通常只有在长时间保持在车道内时才会出现。延迟奖励想象一下进入乔治·华盛顿大桥你需要在上桥之前很久就选择一个车道。这种延迟了奖励使得模型更难将动作与奖励关联起来。高维度状态空间和可用动作都有多个维度。随着维度的增加强化学习模型由于数据的复杂性容易出现过拟合或不稳定的情况。也就是说肯德尔团队的成就是朝着自动驾驶迈出的鼓舞人心的一步。他们的车道跟踪目标被故意简化展示了强化学习RL可以轻松地被应用来帮助解决自动驾驶问题。现在让我们来看一下它如何在实验室中应用。自驾实验室SDLsAlphaFlow的创始人认为正如 Kendall 对驾驶的评估一样实验室协议的开发也是一个马尔可夫决策问题。尽管 Kendall 将问题限定为车道跟踪但 AlphaFlow 团队将他们的 SDL 问题限定为多步骤化学过程优化用于核壳半导体纳米颗粒的壳层生长。半导体纳米颗粒在太阳能、生物医学设备、燃料电池、环境修复、电池等方面有广泛应用。发现这些材料类型的方法通常是耗时、劳动密集型和资源密集型并且容易受到维度灾难的影响即随着问题维度的增加参数空间大小呈指数级增长。他们基于强化学习的方法AlphaFlow成功地识别并优化了一条包含多达 40 个参数的新型多步骤反应路线该路线优于传统的反应顺序。这展示了基于闭环强化学习的方法如何加速基础知识的获取。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3e2d149c6e4330c2856af3ec57776263.png维度灾难图示了一个由四种可能步骤选择组成的批量多步骤合成的复杂性和所需资源呈指数级增长的情况最多可达 32 个顺序步骤。来自AlphaFlow使用强化学习引导的自驾流体实验室实现多步骤化学的自主发现与优化胶体原子层沉积cALD是一种用于创建核壳纳米颗粒的技术。材料以逐层的方式在胶体颗粒或量子点上生长。该过程涉及交替进行反应物添加步骤每一步都沉积一层单一的原子或分子层然后通过洗涤去除多余的试剂。由于隐藏的状态或中间条件步骤的结果可能会有所不同。这种可变性加强了将其视为马尔可夫决策问题的观点。此外该技术的逐层处理方式使其非常适合强化学习方法在这种方法中我们需要清晰地定义状态、可用的动作和奖励。此外反应设计成在形成单一的、完整的原子或分子层后自然停止。这意味着实验高度可控并且适合像微滴流反应器这样的工具。以下是强化学习的各个组件如何映射到自驾实验室问题中的方式代理决定下一个化学步骤可以是新的表面反应、配体添加或洗涤步骤环境是一个高效的微滴流反应器能够自主地进行实验。状态S代表当前的试剂设置、反应参数和短期记忆STM。在这个例子中STM 包括四个先前的注入条件。动作A是指像试剂添加、反应时机和清洗步骤这样的选择。奖励是产品的原位光学测量特性。策略和值函数是 RL 算法它预测预期的奖励并优化未来的决策。在这种情况下由一个集成神经网络回归器ENN和一个梯度提升决策树组成的信念网络将状态-动作对分类为可行或不可行。展开策略使用信念模型来预测假设的未来动作序列的结果/奖励并通过在所有预测的动作序列中应用决策策略来决定下一步最佳动作。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/898ce85301a9237f392899806f580cc0.pngAlphaFlow 系统和工作流程的示意图。(a) 基于 RL 的学习代理与自动化实验设置之间的反馈回路。(b) 反应器系统示意图包括关键模块试剂注入、液滴混合、光学采样、相分离、废物收集和补充。© 核心模块功能分解配方、合成、表征和相分离。(d) 流程图显示学习代理如何选择条件。(e, f) 反应空间探索与优化概述试剂注入的序列选择P1油胺P2硫化钠P3醋酸镉P4甲酰胺以及基于已学习序列的体积-时间优化。类似于 Kendall 团队使用虚幻引擎的方式AlphaFlow 团队使用数字双胞胎结构帮助在进行物理实验之前预训练超参数。这使得模型可以通过模拟计算实验进行学习并以更加高效的成本方式进行探索。他们的方法成功探索并优化了一个 40 维的参数空间展示了强化学习RL如何用于解决复杂的多步骤反应。这一进展对于提高实验验证的通量并帮助我们在多个领域取得突破可能至关重要。结论在这篇文章中我们探索了如何将强化学习应用于自动驾驶和实验室工作的自动化。尽管面临挑战但在这两个领域中的应用展示了 RL 在自动化中的潜力。通过 RL 推动基础知识的进展是作者特别感兴趣的方向。我期待学习更多关于强化学习在自动化实验室中的新兴应用。感谢阅读本期的理解机器学习工程师在生物领域中的 AI 应用

相关新闻

Spring Cloud Nacos配置管理

Spring Cloud Nacos配置管理

Spring Cloud Nacos Nacos全称Dynamic Naming and Configuration Service,它可以用于RPC框架中服务的注册与发现,也可以作为配置中心管理应用的配置. 服务注册与发现 使用过RPC框架同学对服务注册与发现并不陌生,比如Dubbo默认使用Zookeeper作为注册中心…

2026/7/3 12:11:03 阅读更多 →
当学术彻底“放飞自我”,会发生什么?我分析了800篇奇葩论文

当学术彻底“放飞自我”,会发生什么?我分析了800篇奇葩论文

当学术彻底“放飞自我”,会发生什么?我利用Pyhton采集了超过800篇奇葩论文数据,发现了一个极其‘抽象’的学术宇宙。在这里,逻辑是用来放飞的,而格式是用来掩护脑洞的本次数据来自于shit期刊官网,采集了808…

2026/7/3 20:21:56 阅读更多 →
Flutter 三方库 epub_pro 的鸿蒙化适配指南 - 掌控文稿资产、精密 EPUB 治理实战、鸿蒙级阅读专家

Flutter 三方库 epub_pro 的鸿蒙化适配指南 - 掌控文稿资产、精密 EPUB 治理实战、鸿蒙级阅读专家

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 epub_pro 的鸿蒙化适配指南 - 掌控文稿资产、精密 EPUB 治理实战、鸿蒙级阅读专家 在鸿蒙跨平台应用执行高级电子出版物管理与多维文稿资产指控(如构建一个支持…

2026/7/3 0:52:32 阅读更多 →

最新新闻

4D毫米波雷达在恶劣环境下的感知优势与实现

4D毫米波雷达在恶劣环境下的感知优势与实现

1. 恶劣环境感知的技术挑战与4D毫米波雷达优势 在工业与地下空间作业环境中,感知系统面临着多重严峻挑战。粉尘、烟雾等悬浮颗粒会造成光学传感器90%以上的性能衰减,而密闭空间内的金属结构则会产生复杂的多次反射干扰。传统LiDAR系统在粉尘浓度达到50mg…

2026/7/4 11:28:36 阅读更多 →
Claude 3与GPT-4 Turbo技术路线对比:白盒可控AI的工程落地逻辑

Claude 3与GPT-4 Turbo技术路线对比:白盒可控AI的工程落地逻辑

1. 这不是巧合,是AI大模型军备竞赛的临界点信号“如何看待Anthropic公司在ChatGPT-4.5推出前,宣布推出Claude 3?”——这句话表面是个问句,实则是一把钥匙,能打开当前大模型竞争格局最真实的切面。我从2022年底开始系统…

2026/7/4 11:26:35 阅读更多 →
XYZ轴机械模组整机设计实战:从建模到运动仿真全流程解析

XYZ轴机械模组整机设计实战:从建模到运动仿真全流程解析

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们来看一个专注于XYZ轴机械模组建模设计的实战教程。这个项目不是泛泛而谈的理论,而是直接切入整机设计的完整流程…

2026/7/4 11:24:35 阅读更多 →
模型并行vs数据并行:分布式训练选型的三把工程标尺

模型并行vs数据并行:分布式训练选型的三把工程标尺

1. 项目概述:当模型训练撞上数据洪流,你选“拆模型”还是“拆数据”? “Machine Learning at Scale”——这个短语在今天已经不是一句空洞的口号,而是每天真实压在算法工程师、MLOps工程师和平台架构师肩头的KPI。我带过三个从零搭…

2026/7/4 11:24:35 阅读更多 →
零代码接入DeepSeek:低成本AI编程助手配置全攻略

零代码接入DeepSeek:低成本AI编程助手配置全攻略

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 如果你正在寻找一个功能强大且成本可控的AI编程助手,那么将DeepSeek模型接入到Codex这类工具中,无疑是一个极…

2026/7/4 11:22:35 阅读更多 →
OneDragon:基于计算机视觉的绝区零智能自动化解决方案

OneDragon:基于计算机视觉的绝区零智能自动化解决方案

OneDragon:基于计算机视觉的绝区零智能自动化解决方案 【免费下载链接】ZenlessZoneZero-OneDragon 绝区零 一条龙 | 全自动 | 自动闪避 | 自动每日 | 自动空洞 | 支持手柄 项目地址: https://gitcode.com/gh_mirrors/ze/ZenlessZoneZero-OneDragon 智能自动…

2026/7/4 11:20:34 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻