精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
強化學習的復興

最近幾個月,DeepMind 每次宣布在玩游戲的計算機上取得驚人的成果時總會獲得人們的關注。

起先,這家谷歌旗下在倫敦的人工智能研究中心宣稱世界上有了一個能自學玩上世紀八十年代以來從 Pong 和 Breakout 到 Pac-Man、Space Invader、Boxing 等的近 50 種不同的 Atari 游戲的計算機程序,使用起來只要輸入像素位置和游戲分數。這個程序在其中一半以上的游戲中有與人類同樣好的表現,甚至比人的水平還要高。之后,今年一月,DeepMind 研究員們在策略游戲研究上的成果 AlphaGo 給眾多專家們留下了深刻的印象,他們的這個可以下圍棋的程序在這項古老的棋盤游戲中打敗了歐洲冠軍。對于人工智能來說這種棋比國際象棋還要難。一個多月后,AlphaGo 再創新高:它在 5 局系列比賽中贏下了 4 局,擊敗了世界上最好的圍棋棋手李世石,讓這位世界冠軍大吃了一驚。

讓計算機從零開始學習這類復雜游戲直到熟練到讓公眾驚訝的想法,DeepMind 的成功已經吸引了學術界與商業界對 DeepMind 的方法背后的人工智能領域的興趣——這種方法是深度神經網絡和強化學習混合體,稱為「深度強化學習(deep reinforcement learning)」。

「強化學習是一種學習模型,它并不會直接給你解決方案——你要通過試錯去找到解決方案,」馬薩諸塞大學阿默斯特分校(University of Massachusetts Amherst,該校長期致力于強化學習的研究)教授 Sridhar Mahadevan 解釋道。

深度強化學習與監督學習對比起來最清晰,監督學習是用來訓練圖像識別軟件的,它以有標注樣本(標簽需要人來打)的方式來監督。另一方面,「強化學習不需要標簽,也不需要通過輸贏獎勵來自動打標簽,」艾伯塔大學的計算機科學家 Rich Sutton解釋道,他是強化學習領域的共同創始人和該領域標準教科書的合著者。在強化學習中,你選擇的行動(move)的越好,得到的反饋越多,「所以你能通過執行這些行動看是輸是贏來學習下圍棋,不需要有人來告訴你什么是好的行動什么是壞的行動,因為你能自己分辨它們——它能讓你贏,它就是好的 move。」

Sutton 知道這個過程沒那么簡單。即使在一個規整嚴格控制的游戲世界里,推導出哪一個 move 能贏也是一個臭名昭著的難題,因為在每個動作和其回報之間有一個延遲,這是強化學習的一個關鍵特征。在很多游戲中,在游戲結束之前不會收到任何反饋,比如贏了得到 1,輸了得到 -1。

「通常情況下,你必須經歷上百個動作才能讓得分上升,」加州大學伯克利分校副教授  Pieter Abbeel 解釋道,他正在研究將深度強化學習應用到機器人上。(對于一個機器人來說,獎勵來自于完成任務,比如正確組裝兩個樂高積木。)「在理解游戲怎么玩,以及怎么通過你的試錯來學習之前,」 Abbeel 說,「你做的就是哪些上得分上升、下降或者持平的事情。但是你如何區分你做的哪些事讓你的得分上升了,哪些事只是浪費時間呢?」

這個棘手的問題,被稱為信用分配問題( credit assignment problem),仍然是強化學習的主要挑戰。「強化學習比較獨特,因為它是唯一關注解決信用分配問題的機器學習領域,而我認為這個問題是智能的核心,」田納西大學電子工程與計算機科學系的教授、 Osaro 的 CEO Itamar Arel 說到。「如果是好的結果,我能回想起之前的 n 步,然后找出我走了哪些步,得到好的或者不好的結果嗎?」

正如人類玩家一樣,找出聰明的步驟讓該程序可以在未來面臨同樣的情況時重復這一步驟——或者為了得到一個更高的分數,嘗試一個可能更好的新步驟。在非常小的世界里(想想井字游戲),同樣的情形會一次又一次地出現,所以該學習代理可以在查找表中存儲每種可能情形的最好動作。然而,在國際象棋和圍棋這樣的復雜游戲中,窮舉所有的可能情形是不可能的。即使簡單的一點的西洋跳棋也有非常多的分支和深度,其可能情形的數量就已經很難以想象了。所以想象一下,當你從游戲遷移到真實世界的交互中時會發生什么。

「在真實世界中,你永遠不會兩次都看到同樣情形,」Abbeel 說,「所以除了表之外,你還需要一些東西來幫助理解某些情形和之前見過的情形相似。」這就是深度學習的用武之地,因為理解相似性————能從許多特定的實例中提取出通用的特征——是深度神經網絡的一個很大的優勢。這些網絡的許多層能夠以越來越高的抽象水平學習相關的特征,這是目前在測量情形之間的相似度上最好的可用方法,Abbeel 解釋說。

這兩種類型的學習——強化學習和使用深度神經網絡的深度學習——可以很漂亮地互相補充,Sutton 說,「深度學習是有史以來最偉大的事情,但其很快就變得受限于數據了,」他解釋說,「如果我們能使用強化學習自動生成數據,即使這些數據的標注比人類的標注弱很多,但因為我們自動生成它們,我們就可以得到遠遠更多的數據,所以這兩種技術可以很好地配合在一起。」

盡管圍繞 DeepMind 的喧囂不斷,但結合強化學習和神經網絡并非新鮮事。1992 年,IBM 的 Gerald Tesauro 開發了一個玩西洋雙陸棋戲的程序 TD-Gammon,就是一個通過強化學習學習如何下棋的神經網絡(名字中的 TD 表示時間差分學習(Temporal-Difference  learning),現在仍是強化學習中的一種主要算法。)「那時候,每美元所買到的計算機的速度要慢 10,000 倍,這意味著你不能開發非常深度的網絡,因為它們會很難訓練。」瑞士盧加諾大學人工智能教授 Jürgen Schmidhuber 說道。該教授因在神經網絡和強化學習上的開創性貢獻而享有盛名。「深度強化學習只是傳統的強化學習與更深度的神經網絡結合之后的產生的流行詞。」

Schmidhuber 也指出該技術的成功雖然讓人印象深刻,但目前為止都還只是處于較為狹窄的領域;在這些領域中,當前的輸入(例如圍棋的棋盤局面或 Atari 的當前屏幕)就能夠給出指引下一步驟所需要知道的一切。但是這種「馬爾可夫特性(Markov property)」并不存在于游戲之外的世界。「在真實世界中,通過你的傳感器/感官你只能看到世界的一小部分,」Schmidhuber 指出,無論對于機器人還是對人類來說都是這樣。作為人類,我們通過對過去觀察的選擇性記憶來補充我們有限的感知;我們也會借鑒數十年的經驗而將已有的知識和技能結合起來解決新問題。他說:「原則上,我們目前的強化學習器可以做到這一點,但人類仍然能做得遠遠更好。」

研究者在繼續推進強化學習器能力的發展,并且已經在尋找實際的應用了。

「智能的一部分是知道該記住什么,」密歇根大學強化學習專家 Satinder Singh 說。他已經在使用世界建造游戲 Minecraft 來測試機器可以如何選擇查看其所在環境中的哪些細節,以及可以怎樣使用這些存儲的記憶來更好地選擇行為。

Singh 和另外兩位同事最近聯合創立了一家軟件公司 Cogitai,該公司的目標是使用深度強化學習來「構建能以人類從經歷中學習的方式進行學習的機器」,Singh 說。比如說,通過物聯網連接的恒溫器和冰箱不僅能從自己的過去經歷中學習,還能整合來自其它互連設備的經歷,從而使自己不斷變得越來越聰明,并因此能在正確的時間選擇正確的行動上做得更好。

Arel 的軟件創業公司 Osaro 也在使用深度強化學習,該公司承諾消除其學習曲線的昂貴的初始階段。比如說,一臺可以從頭開始學習玩 Atari 游戲 Pong 的計算機可以完全毫無頭緒地從頭開始,但也因此需要玩上上萬次才能掌握這個游戲——而相對而言,人類對球會在墻面和拍子上反彈的物理經驗有很直觀的認識,即使兒童也知道。

Arel 說,「深度強化學習是一種很有潛力的框架,但從頭開始應用它來解決真實世界問題的話會有些問題。」比如說,一個組裝智能手機的工廠需要其機器人制造設備加快速度在幾天時間內拿出一個新的設計,而不能拖上幾個月。Osaro 的解決方案是給該學習代理展示什么是好的表現「以使其從遠好于從頭開始的起點開始」,這讓該代理可以快速提升其性能表現。

Arel 說,即使最適量的展示也能「給該代理一個良好的開端,使之可以切實地將這些想法應用到機器人和其它獲得經驗的成本很好的領域。」


本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能革命揭秘上篇(上)
DeepMind的人工智能現在可以玩全部57款雅達利游戲,但它還不夠萬能
Google人工智能嶄露頭角:變身Atari游戲高手 | 雷鋒網
Osaro完成1600萬美元的B輪融資,強化倉儲和物流自動化的布局 | 雷鋒網
人工智能要逆天!谷歌AI自學完成超難的雅達利游戲
【深度】專業解讀“深度強化學習“:從AlphaGo到AlphaGoZero
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 华宁县| 新宾| 五华县| 新安县| 潞西市| 屏东市| 沈阳市| 奉节县| 沾益县| 和硕县| 卢氏县| 清远市| 泸州市| 佛山市| 喜德县| 广汉市| 汝州市| 七台河市| 建德市| 旌德县| 太湖县| 岱山县| 苏州市| 高邑县| 西贡区| 越西县| 天长市| 基隆市| 纳雍县| 太仓市| 井研县| 漳平市| 星座| 阿鲁科尔沁旗| 乌审旗| 隆子县| 诏安县| 阜新| 昌乐县| 盐山县| 三亚市|