强化学习:改变计算机决策方式的算法科技頭條網

过去十年的技术在很大程度上是由深度监督学习(DL)的出现定义的。大规模廉价数据的可用性、计算能力和研究兴趣使它成为大多数模式识别问题中事实上的算法流派。社交媒体上的人脸识别、网站上的产品推荐、语音助手如谷歌Assistant、Alexa和Siri都是DL支持的例子。

深度学习的问题在于，导致深度学习兴起的资源，也导致了不平等。如今，初创公司很难通过更好的研究能力或更好的数据，在深度学习方面打败苹果(Apple)、谷歌、亚马逊(Amazon)和微软(Microsoft)等“大型科技公司”。

我预测，在本世纪20年代，我们将看到这种不平等被打破。这是由于深度强化学习(Deep Reinforcement Learning, RL)作为解决此类问题的一种突出算法的出现。

RL本质上是模仿人类的行为。让我们以一个孩子学习骑自行车为例。这孩子不知道该采取什么步骤。但它试图在不摔倒的情况下骑更长时间的自行车，并在这个过程中学习。你不能解释你如何骑自行车，只能说你会骑。RL的工作方式与此类似。给定一个环境，它学会通过多次尝试和错误来优化一个目标。

要更深入地了解技术，RL有三个组成部分:状态、策略和操作。状态是对当前环境的描述。该策略对状态进行评估，并为算法找到目标集的最优路径。

行动是策略所建议的步骤，也是算法为达到目标所采取的步骤。RL算法迭代地遍历状态，使用它们的策略生成操作，运行操作，并根据环境的反馈(称为奖励)优化策略，以提供更有目标的操作。

通过这种方式，RL允许我们解决许多问题，而实际上不需要像传统DL模型那样大量的监督/标记数据——因为它不断地生成自己的数据。当然，需要注意的是，RL不能解决与DL相同的问题，但是它们之间有很强的交集。通过这种方式，RL可以消除竞争，因为数据不一定是以前的护城河。

迄今为止，我们所见过的RL最大的应用是在游戏中——AlphaGo Zero, Deepmind的专家级人工智能来玩围棋;DeepMind努力掌握一款名为AlphaStar的多智能体游戏，如《星际争霸》;OpenAI的研究表明，多个代理在玩捉迷藏。-这些都是RL的杠杆。

在未来，我看到RL改变了复杂机器的控制系统的构建方式。机器将利用RL进行三维路径和运动规划。RL将改进具有会话接口的系统，利用每个会话来改进策略。RL可能被用于非常复杂的环境中，具有低先例数据的大多数决策过程。这将是RL的十年。

分享到:

閱讀更多 樂哥帶你看世界 的文章

關鍵字: 星际争霸学习人工智能

强化学习:改变计算机决策方式的算法

相關文章:

金三银四面试必备知识点：算法+框架+Redis+分布式+JVM

【算法】扑克随机洗牌算法分析

每周花6小时跟马士兵学Java：JVM、高并发多线程、算法、微服务。

金三银四Java求职必备技能：基础面试+JVM+Spring+算法+消息队列

每周六小时跟马士兵学Java，JVM、高并发多线程、算法、微服务

AI科普系列——机器学习 = 模型+策略+算法

百度T6分享面试宝典：Java虚拟机+高并发+微服务+分布式+算法

拥抱“数据+算法”定义的新世界

清华大佬总结了2.39G的Java虚拟机：面试专题+PDF+算法+JVM调优

阿里P8架构师高频面试题：Java+算法+ZK+Spring全家桶+微服务

北京字节跳动Java三面面经分享，算法“虐”自闭，竟然拿到offer

都是“算法”惹的祸，字节三面处处坑，我的offer要凉了？

一代传奇 SIFT 算法 专利到期！

商业6.0时代核心优势是什么呢？无疑是：算法

美团技术四面：Spring、JVM、多线程、算法、设计模式

03.05 美团Java岗面经分享（技术四面）：Spring+JVM+多线程+算法+设计

03.05 美团技术四面：Spring+JVM+多线程+算法+设计模式....

深思｜读《未来简史》：算法、大数据真能消解人文的意义吗

offer计划之复习：基础+算法+数据库+设计模式+mybatis+spring

02.26 offer计划之复习：基础+算法+数据库+设计模式+mybatis+spring

Java复习大纲：Java+并发+算法+数据结构+框架等阿里Java面试题

快手如何突破瓶颈：工具、社区、算法，以及关键的50%股权

01.07 快手如何突破瓶颈：工具、社区、算法，以及关键的50%股权

为何面试“字节”屡次惨败？都是“算法”在搞鬼，你却不知道

算法：最大最小公平算法

知乎高赞丨面试清单（Java岗）：JVM+数据库+算法+Spring+中间件

任由“算法”推荐不良信息必须匡正

销量大跌，亚马逊算法彻底改变，围观外国人怎么对付“A10”算法

“算法+算力”下半场将至——「全球AI芯片·城市智能峰会」万字长文回顾

滴滴+美团8面面经：Redis+netty+算法+分布式丨大厂都看重算法

机器视觉模式匹配的基础：光源、相机、算法

09.28 80页笔记看遍机器学习基本概念、算法、模型，帮新手少走弯路

“算法+芯片”，思必驰语音专用AI芯片赋能AIoT

孩子的人生有“算法”吗？

算法+芯片，将成AI时代的主流选择？

“数据+算力+算法”成就中企智能之路

善用“加减乘除”算法，做好产品战略规划

“算法”也有价值观？

用主流价值导向驾驭“算法”

入门科普：一文看懂机器学习的概念、算法、分类及应用（快收藏）

剑桥大学AI“偷听”算法：按屏幕听声音，手机密码不保

算法+数据结构（第01篇）走下神坛吧！算法

03.14 了解一下“算法”，每个人都要掌握的编程知识

09.04 人民日报：给智能机器嵌入“道德”算法

06.12 何晓飞首次披露飞步无人车方案，国内第一个“算法+AI芯片”项目

04.13 技术、算法、流量赋能 腾、步合作第一家样板店长沙上线

小米太无耻了。

蹭热点！说说我理解的手机包装盒事件。

苹果公司正式发布iPhone SE二代手机

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

干翻华为P40系列 荣耀30也玩中

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

苹果发布新款iPhoneSE，3299元起售

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

值得收藏！三类卖家三种选品方案，总有适合你的一个……

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

马云终于要辞职了，留下的话句句触动人心

等等，明年5G手机将迎来大降价

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

为什么华为今天可以傲视群雄，在世界上立于不败之地？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

2020年最强拍照旗舰来了 华为P40系列多项业界首创 香！

今天聊一聊直播

通过直播赚钱不容易，既要豁得出去，又要端得起来

一代传奇 SIFT 算法专利到期！

04.13 技术、算法、流量赋能腾、步合作第一家样板店长沙上线

干翻华为P40系列荣耀30也玩中

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

互联网流量需求增大希腊民众“宅生活”考验网速

好像在哪见过？华为nova7官宣余承东:何必只有一点点