活動|中國自動化學會「深度與寬度強化學習」智能自動化學科前沿講習班第二天

活动|中国自动化学会「深度与宽度强化学习」智能自动化学科前沿讲习班第二天

中科院自動化所成功舉辦第 5 期智能自動化學科前沿講習班

AI 科技評論按:2018 年 5 月 31 日-6 月 1 日,中國自動化學會在中國科學院自動化研究所成功舉辦第 5 期智能自動化學科前沿講習班,主題為「深度與寬度強化學習」。

如何賦予機器自主學習的能力,一直是人工智能領域的研究熱點。在越來越多的複雜現實場景任務中,需要利用深度學習、寬度學習來自動學習大規模輸入數據的抽象表徵,並以此表徵為依據進行自我激勵的強化學習,優化解決問題的策略。深度與寬度強化學習技術在遊戲、機器人控制、參數優化、機器視覺等領域中的成功應用,使其被認為是邁向通用人工智能的重要途徑。

AI 科技評論在本文中將對 6 月 1 日楊穎、趙冬斌、劉勇、遊科友、徐昕的 5 場精彩報告進行介紹。

楊穎:軌道交通車輛預測與健康管理(PHM)技術應用

楊穎是中國中車首席專家,教授級高級工程師,中車株洲電力機車有限公司副總工程師。

本報告專注於智慧列車相關內容,中國的軌道交通發展迅猛,列車數量在過去六年裡幾乎翻了兩番。傳統的定期保養模式現在問題重重,且這種模式花費不菲。在該背景下急需一個新的車輛保養方案。中國中車株洲和深圳鐵路公司聯合開發了一個軌道交通車輛預測與健康管理系統來降低車輛保養所需的人工費用以及其他費用。藉助 PHM 系統,可以把定期保養模式轉換為有條件保養模式,這樣就可以延長檢查保養週期,從而延長列車在安全健康狀態下的運營時間。

趙冬斌:深度強化學習算法及應用

趙冬斌是中國科學院自動化研究所研究員、博導,中國科學院大學崗位教授。

本報告專注於深度強化學習算法的應用。將具有「決策」能力的強化學習 (RL: Reinforcement Learning) 和具有「感知」能力的深度學習 (DL: Deep Learning) 相結合,形成深度強化學習 (DRL: Deep RL) 方法,成為人工智能 (AI: Artificial Intelligence) 的主要方法之一。2013 年,谷歌 DeepMind 團隊提出了一類 DRL 方法,在視頻遊戲上的效果接近或超過人類遊戲玩家,成果發表在 2015 年的《Nature》上。2016 年,相繼發表了所開發的基於 DRL 的圍棋算法 AlphaGo,以 5:0 戰勝了歐洲圍棋冠軍和超一流圍棋選手李世石,使圍棋 AI 水平達到了一個前所未有的高度。2017 年初,AlphaGo 的升級程序 Master,與 60 名人類頂級圍棋選手比賽獲得不敗的戰績。2017 年 10 月,DeepMind 團隊提出了 AlphaGo Zero,完全不用人類圍棋棋譜而完勝最高水平的 AlphaGo,再次刷新了人們的認識。並進一步形成通用的 Alpha Zero 算法,超過最頂級的國際象棋和日本將棋 AI。DRL 在視頻遊戲、棋類博弈、自動駕駛、醫療等領域的應用日益增多。本報告介紹了強化學習、深度學習和深度強化學習算法,以及在各個領域的典型應用。

劉勇:正則化深度學習及其在機器人環境感知中的應用

劉勇是浙江大學教授、博導,浙江大學求是青年學者。

本報告專注於正則化深度學習方法。近年來,隨著人工智能技術的飛速發展,深度神經網絡技術在圖像分析、語音識別、自然語言理解等難點問題中都取得了十分顯著的應用成果。然而該技術在機器人感知領域的應用相對而言仍然不夠成熟,主要源於深度學習往往需要大量的訓練樣本來避免過擬合、提升泛化能力,從而降低其在測試樣本上的泛化誤差,而機器人環境感知中涉及的任務與環境具有多樣化特性,且嚴重依賴於機器人硬件平臺,因而難以針對機器人各感知任務提供大量標註樣本;其次,對於解不唯一的病態問題,即使提供大量的訓練數據,深度學習方法也難以在測試數據上提供理想的估計,而機器人感知任務中所涉及的距離估計、模型重構等問題就是典型的病態問題,其輸入中沒有包含對應到唯一輸出的足夠信息。針對上述問題,本報告以提升深度學習泛化能力為目標、以嵌入先驗知識的正則化方法為手段、以機器人環境感知為應用背景進行了介紹。

總體上看目前劉勇教授研究內容共有四項,分別是:

• 隱層正則約束:圖正則自編碼器

• 結構正則約束:語義正則網絡

• 結構正則約束:嵌套殘差網絡

• 輸出正則約束:深度移動立方體網絡

就目前的研究結果來說,正則化統一框架下深度學習性能有明顯的提升,在一系列機器人環境感知應用上取得當前領先表現。在接下來的工作中,劉勇教授團隊將專注於無監督學習,定性與定量感知任務相結合,結合機器人聲學、觸覺等傳感器等內容。

遊科友:分佈式優化算法與學習

遊科友是清華大學副教授、博導,國家優青,國家青年千人。

本報告專注於分佈式優化算法等問題,隨著訓練參數與樣本規模的的急激增長,深度學習在實際應用系統中顯示出了巨大的應用前景。分佈式與並行優化是指通過多求解器起來協作求解的一類優化問題,其在大規模數值計算、機器學習、資源分配、傳感器網絡等有重要的研究意義和應用價值,併成為了大規模優化與學習中最具挑戰性的問題之一。本報告首先討論了分佈式優化的幾個典型難題;其次。以魯棒性凸優化為例,提出了分佈式原-對偶求解算法與分佈式 Polyak 算法,並以嚴格證明了算法的有效性。

遊科友老師團隊的在本報告中提到的主要內容包括:

• 介紹分佈式優化的關鍵特徵

• 他們設計的用來解決魯棒性凸優化的分佈式算法可以保證概率上最優

• 他們設計了一個用於分佈式優化的分佈式異步算法,並可以充分證明其收斂性

• 他們設計了一個計算向量中心性的分佈式算法,並可充分證明其收斂性

徐昕:自評價學習控制中的特徵表示與滾動優化

徐昕是國防科技大學教授、博導,國防科技卓越青年人才。

本報告專注於強化學習的優化方法。以強化學習 (reinforcement learning) 為代表的自主學習技術對於提升各類機器人系統的優化決策與控制性能具有重要意義。在複雜不確定環境中機器人系統面臨諸多優化決策與控制問題。面對這些問題,徐昕教授介紹了自評價學習在控制系統中的應用,自評價學習控制中的特徵表示方法,以及滾動優化的方法。

活动|中国自动化学会「深度与宽度强化学习」智能自动化学科前沿讲习班第二天

CCF - GAIR 2018 將於

6 月 29 日 至 7 月 1 日

在深圳舉行。

三天議程及強大陣容已經陸續出爐。

6 月 8 日,

AI 科技評論啟動了

CCF-GAIR 2018 的免費門票申請通道,

並計劃從中篩選 20 位學生,

承包「國內往返機票+四晚住宿」

AI 科技評論讀者專屬福利。

福利發出後,

表單如海水一樣湧入後臺系統,

截至 6 月 14 日晚 24 點,

第一批申請表單已經截止申請,

同事們最近也都在加班加點審核表單。

在此,

AI 科技評論由衷感謝

同學們對 CCF-GAIR 大會的關注!

從眾多申請之中,

AI 科技評論甄選了 12 名學生,

他們將成為第一批獲得

價值 3999 元 CCF-GAIR 2018 大會門票

「國內往返機票+四晚住宿」福利的同學!

AI 科技評論將第一批獲獎學生名單

及所屬院校公佈如下(共 12 位):

新加坡南洋理工大學 張徵豪

斯坦福大學 孫林

清華大學 孔濤

賓夕法尼亞大學 王倪劍橋

北京航空航天大學 黃雷

澳大利亞國立大學 劉瀚陽

中國科學院 王昌淼

香港科技大學 李正

上海交通大學 徐衍鈺

華中科技大學 李柏依

香港理工大學 曹自強

香港中文大學 楊巍

在此向以上同學表示祝賀,

運營小姐姐將很快聯繫你們喲~

並備註姓名及院校。

但是!

我們的福利申請並沒有結束!

從 6 月 15 日 0 時開始,

AI 科技評論將開啟第二批福利申請通道,

將繼續篩選 8 名同學贈送價值 3999 元 CCF-GAIR 2018 大會門票

及「國內往返機票+四晚住宿」福利!

本福利申請截至 6 月 21 日晚 24 點,

預計將於 6 月 22 日公佈獲獎名單。

填寫個人信息申請!

與此同時,

暫時沒有入選第一批名單的同學們也不需要灰心,

我們也會在所有提交申請的同學中,

篩選部分學生

陸續進行一對一聯繫,

贈送價值 3999 元的 CCF-GAIR 大會門票。

(此門票包含三天午餐喲!)

贈票申請通道截止日期為

6 月 26 日晚 24:00

6 月 29 日至 7 月 1 日,深圳見!

贈票申請須知

➤ 截止日期:6 月 26 日晚 24:00

➤ 活動解釋權歸雷鋒網 AI 科技評論所有


分享到:


相關文章: