一文详谈机器学习的强化学习

来源: 网络 日期:2021-02-19

强化学习属于机器学习中的一个子集,它使代理能够理解在特定环境中执行特定操作的相应结果。目前,相当一部分机器人就在使用强化学习掌握种种新能力。

一文详谈机器学习的强化学习

强化学习是一种行为学习模型,由算法提供数据分析反馈,引导用户逐步获取最佳结果。

不同于使用样本数据集训练机器模型的各类监督学习,强化学习尝试通过反复试验掌握个中诀窍。通过一系列正确的决策,模型本身将得到逐步强化,慢慢掌控解决问题的更佳方法。

强化学习与人类在婴幼儿时期的学习过程非常相似。我们每个人的成长都离不开这种学习强化——正是在一次又一次跌倒与父母的帮扶之下,我们才最终站立起来。

这是一种基于经验的学习流程,机器会不断尝试、不断犯错,最终找到正确的解决思路。

我们只需要为机器模型提供最基本的“游戏规则”,余下的就完全交给模型自主探索。模型将从随机尝试开始,一步步建立起自己的复杂战术,通过无数次尝试达成任务、获得奖励。

事实证明,强化学习已经成为培养机器人想象力的重要方法之一。不同于普通人类,人工智能将从成千上万轮游戏中积累知识,而强大的计算机基础设施则为这类模型提供可靠的算力支持。

YouTube上的视频就是强化学习的应用实例。在观看当前视频之后,该平台会向你展示它认为你可能感兴趣的类似内容。如果你点开了推荐视频但却没有看完,机器会认为此次推荐失败,并在下一次尝试其他推荐方法。

强化学习的挑战

强化学习面对的核心挑战,在于如何规模模拟环境。模拟环境在很大程度上由有待执行的任务所决定。我们以国际象棋、围棋或者雅达利游戏为例,这类模拟环境相对简单也易于构建。但是,要想用同样的方法训练出安全可靠的自动驾驶汽车,就必须创建出非常逼真的街道原型环境,引入突然闯出的行人或者可能导致碰撞事故的各类因素。如果仿真度不够,那么模型在从训练环境转移到现实场景之后,就会出现一系列问题。

另一个难题,在于如何扩展及修改代理的神经网络。除了奖励与处罚之外,我们再无其他方法与该网络建立联系。这有可能引发严重的“健忘”症状,即网络在获取新信息后,会将一部分可能非常重要的旧知识清除出去。换句话说,我们需要想办法管理学习模型的“记忆”。

最后,我们还得防止机器代理“作弊”。有时候,机器模型能够获得良好的结果,但实现方式却与我们的预期相去甚远。一部分代理甚至会在不完成实际任务的情况下,通过“浑水摸鱼”拿到最大奖励。

强化学习的应用领域

游戏

机器学习之所以具有极高的知名度,主要源自它在解决各类游戏问题时展现出的惊人实力。

最著名的自然是AlphaGo与AlphaGoZero。AlphaGo通过无数人类棋手的棋谱进行大量训练,凭借策略网络中的蒙特卡洛树价值研究与价值网络(MCTS)获得了超人的棋力。但研究人员随后又尝试了另一种更加纯粹的强化学习方法——从零开始训练机器模型。最终,新的代理AlphaGoZero出现,其学习过程完全源自自主摸索、不添加任何人为数据,最终以100-0的碾压性优势战胜了前辈AlphaGo。

个性化推荐

新闻内容推荐是一项历史性难题,快速变化的新闻动态、随时可能转变的用户喜好再加上与用户留存率若即若离的点击率都让研究人员头痛不已。Guanjie等研究者发布的《DRN:用于新闻推荐的深度强化学习框架》一文,希望探讨如何将强化学习技术应用于新闻推荐系统以攻克这一重大挑战。

为此,他们构建起四种资源类别,分别为:1)用户资源;2)上下文资源(例如环境状态资源);3)用户新闻资源;4)新闻资源(例如行动资源)。他们将这四种资源插入深度Q网络(DQN)以计算Q值。随后,他们以Q值为基础选择一份新闻列表进行推荐,并将用户对推荐内容的点击情况作为强化学习代理的重要奖励指标。

作者们还采用其他技术以解决相关难题,包括记忆重复、生存模型、DuelingBanditGradientDescent等方法。

计算机集群中的资源管理

如何设计算法以将有限的资源分配给不同任务同样是一项充满挑战的课题,而且往往需要人为启发的引导。

题为《使用深度强化学习实现资源管理》的论文介绍了如何使用强化学习让模型自动探索如何为保留的作业分配及调度计算机资源,借此最大程度降低平均作业(任务)的处理时长。

    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。