一文详谈机器学习的强化学习

来源: 网络 日期:2021-02-19

这种方法用“状态空间”来表现当前资源分配与作业的资源配置方式。而在行动空间方面,他们使用一种技巧,允许代理在各个时间阶段选择多项行动。奖励则是系统中所有作业的总和(-1/作业持续时间)。接下来,他们将强化学习算法与基准值相结合,借此计算策略梯度,找出最佳策略参数,凭借这些参数计算出能够实现目标最小化的行动概率分布。

交通灯控制

在题为《基于强化学习的多代理交通信号网络控制系统》一文中,研究人员尝试设计一种交通信号灯控制方案,借此解决交通拥堵问题。他们的方法仅在模拟环境下进行了测试,并表现出优于传统方法的性能水平,这也体现出在交通系统设计中引入多代理强化学习技术的潜在可行性。

他们在五个路口的交通网络中部署了五个代理,并在中央路口处部署强化学习代理以控制交通信号。他们将交通状态定义为8维向量,每个元素代表各条车道的相对交通流量。每个代理可以从8种选项中任选其一,各选项代表每个阶段的组合,奖励条件则是新的组合必须在交通流量延迟方面优于前一组合。作者们使用SQN计算{状态,行动}对的Q值。

机器人

强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面,研究人员们通过训练引导机器人学习策略,尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算,最终输出的则是各台驱动引擎的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。

网络系统配置

网络系统当中往往包含超过100项可配置参数,而参数调整过程则需要合格的操作人员持续进行跟踪与错误测试。

题为《强化在线网络系统自我配置能力的学习方法》的论文,介绍了研究人员如何在基于动态虚拟机的环境中自动重新配置多层网络系统内各项参数的首次尝试。

研究人员可以将重新配置的流程公式化为有限MDP(马尔科夫决策流程)的形式。其中的状态空间为系统配置,各参数的行动空间则包括{增加,减少,保持不变}。奖励被定义为预期响应时间与实测响应时间之差。作者使用Q学习算法执行这项任务。

当然,作者也使用了其他一些技术(例如策略初始化)以解决较大状态空间与复杂问题场景下的计算难度问题,因此并不能算单纯依靠强化学习与神经网络组合实现。但可以相信,这项开拓性工作为未来的探索铺平了道路。

化学

强化学习在优化化学反应方面同样表现出色。研究人员们发现,他们的模型已经摸索出极为先进的算法,《通过深度强化学习优化化学反应》一文还探讨了如何将这种算法推广到多种不同的潜在场景当中。

配合LSTM(长短期记忆网络)对策略特征进行建模,强化学习代理通过以{S,A,P,R}为特征的马尔科夫决策流程(MDP)优化了化学反应。其中的S代表一组实验条件(例如温度、pH等),A为可以调整的一切可能行动的集合,P为从当前实验条件转换至下一条件的概率,R则为状态奖励函数。

这套应用方案很好地演示了强化学习技术如何在相对稳定的环境下减少试错次数并缩短学习周期。

拍卖与广告

阿里巴巴公司的研究人员发表了《在广告展示中采用多代理强化学习进行实时竞拍》一文,表示其基于集群的分布式多代理解决方案(DCMAB)取得了可喜的成果,并计划在下一步研究中投放淘宝平台进行实际测试。

总体而言,淘宝广告平台负责为经销商提供可供竞拍的广告展示区域。目前大多数代理无法快速解决这个问题,因为交易者往往互相竞标,而且出价往往与其业务及决策密切相关。在这篇论文中,研究人员将商户与客户划分为不同的组以降低计算复杂性。各代理的状态空间表示代理本身的成本-收入状态,行动空间为(连续)竞标,奖励则为客户集群收入。

深度学习

近期,越来越多研究人员开始尝试将强化学习与其他深度学习架构相结合,并带来了令人印象深刻的成果。

其中最具影响力的成果之一,正是DeepMind将CNN与强化学习相结合做出的尝试。以此为基础,代理可以通过高维传感器“观察”环境,而后学习如何与之交互。

CNN配合强化学习已经成为人们探索新思路的有力组合。RNN是一种具有“记忆”的神经网络。与强化学习结合使用,RNN将为代理提供记忆能力。例如,研究人员将LSTM与强化学习进行组合,创建出一套深循环Q网络(DRQN)并学习如何游玩雅达利游戏。他们还使用LSTM加强化学习解决了化学反应优化问题。

    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。