下圍棋so easy ,AlphaZero開始玩量子計算!

下圍棋so easy ,AlphaZero開始玩量子計算!

來源:新智元

本文約3073字,建議閱讀9分鐘

本文介紹丹麥和德國的研究人員使用Deepmind的AlphaZero 開發了一種混合算法,將AlphaZero強大的搜索能力與量子計算有機結合起來,參數搜索速度大幅提升。

在過去的幾十年裡量子物理技術的探索中,最引人注目的就是量子計算機

下圍棋so easy ,AlphaZero開始玩量子計算!

量子計算機的能力,是所有現有的計算機組合加起來都無法匹敵。但到目前為止還沒有人能夠製造出一臺功能齊全的量子計算機。這就需要我們在控制量子系統的能力上向前跨一步。

為什麼 AlphaZero 能快人一步“預知未來”?

AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有種。相比之下,國際象棋只有種可能的走位。

所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中“預知未來”。

下圍棋so easy ,AlphaZero開始玩量子計算!

由於在所有可能策略中抽樣的可能性比較小,而且神經網絡只能近似估計,所以特別是在其訓練階段,蒙特卡洛樹搜索能夠極大地提高遊戲的準確性以及訓練效率。

這類似於職業棋手在下棋時能夠提前想幾步棋。訓練結果是相當驚人的,AlphaZero 很快就摧毀了專業遊戲軟件和人類玩家。例如,經過僅僅四個小時的自我對弈練習,AlphaZero 就在國際象棋中擊敗了領先的棋類軟件 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道遊戲規則。丹麥國際象棋大師Peter Heine Nielsen將其比作一個訪問過地球的高級外星物種。

目前AlphaZero 已經有效地在圍棋,國際象棋和星際爭霸中戰勝對手。AlphaZero成功的關鍵是將蒙特卡羅樹搜索和具有前瞻性的深度神經網絡結合起來。結果表明,從樹下方延展出來的預測信息極大地提高了深度神經網絡的精度,使預測結果更加準確集中,而非試探性的探索。

AlphaZero後發制人:30小時性能提高一個數量級

與普通計算機類似,量子計算機使用門操作(gate operations)來操縱其量子位。我們試圖通過構建分段恆定的脈衝序列來實現特定的門操作,即AlphaZero必須為每個時間步長(time-step)選擇一個脈衝幅度。物理系統在每個時間步長tj上都由一個4x4複雜的矩陣U(tj)進行數學描述,我們將其摺疊成一個長度為32的向量。這是神經網絡的輸入,如圖1所示。脈衝序列完成後,就可以將複數矩陣U(T)映射為一個實數,稱為仿真逼真度(fidelity)F,該實數的取值在0到1之間。從本質上講,仿真逼真度是一種概率度量,其中1表示100%成功。

下圍棋so easy ,AlphaZero開始玩量子計算!

圖1.AlphaZero使用的MCTS(左)和深度神經網絡(右)的圖示

左圖和右圖分別演示了 AlphaZero 的樹搜索和神經網絡。利用樹搜索中統一的搜索結果作為神經網絡的輸入項。神經網絡的上限輸出接近給定輸入狀態的現行策略,即 p a ∼ a pa ∼ a。同時,下限輸出提供了一個能夠預估期望最終報酬的值函數,即 v (s t)∼(t) v (st)∼ f (t)。在我們的工作中,我們發現以一致的形式向 AlphaZero 提供物理系統的完整信息,有利於提升它的性能,儘管這種方式可能比較難以調整以適應具有較大希爾伯特空間的系統。

神經網絡輸出一個值,該值是對最終仿真逼真度v≈F和一些移動概率p=(p1, p2, ...)的估計。兩者都在蒙特卡洛樹搜索中使用。樹由節點(狀態)和邊(狀態-動作對)組成。樹搜索從根節點開始,並通過在每個步驟中選擇動作來貫穿樹。選擇哪種行動,是通過比較每一個邊緣的內在屬性,以平衡勘探和開發的方式進行的。一旦探索到了邊緣,其內在屬性將根據搜索結果進行更新。

樹中的正向搜索將繼續,直到遇到一個以前未訪問過的節點,然後將該節點添加到樹中,並使用p初始化其邊緣。搜索中的所有訪問過的邊都將使用v在反向過程中更新。一旦執行了多次此類搜索,AlphaZero將確定一個操作並更新根節點,而丟棄樹的其餘部分。最後,基於樹搜索產生的數據對神經網絡進行更新,使得v接近保真度,並且移動概率增加了選擇更有希望動作的機會。

簡言之:蒙特卡洛樹搜索允許AlphaZero向前看幾步,從而可以在解決方案空間中進行更全面的搜索。這使得AlphaZero在長期策略至關重要的複雜任務中比大多數其他強化學習方法更具優勢。

成功實現AlphaZero之後,我們使用相同的算法超參數將其用於三個不同的量子控制問題。對於每個問題,我們將AlphaZero與更常規的算法進行了比較。例如,在圖2中,我們比較了AlphaZero和遺傳算法在50小時運行期間創建二進制脈衝的任務。在y軸上,我們繪製infidelity 1-F,這實際上是錯誤率(即越低越好)。最初,AlphaZero在學習量子力學關聯時表現不如遺傳算法,但是這個學習階段相當短。在30小時內,我們發現AlphaZero的性能比遺傳算法提高了一個數量級,並且具有大量獨特的高保真脈衝序列。

下圍棋so easy ,AlphaZero開始玩量子計算!

圖2.遺傳算法和AlphaZero在50小時運行期間的比較。在y軸上繪製了infidelity (1-F),這實際上是一個錯誤率

混合了AlphaZero的量子計算,搜索速度提升500倍

AlphaZero會輸給物理學家在過去15年不斷完善的高度量子化的優化算法並不奇怪。但是,如果AlphaZero死在這裡,會留下很多遺憾。

由於梯度優化算法沒有學習功能,意味著訓練過程中其性能沒有逐步提高,並且所有生成的數據都將被丟棄,而不是用於後續學習。

奧胡斯大學的團隊開始尋求一種混合算法:AlphaZero通過廣泛的探索生成了高可用的種子對象,隨後通過基於梯度的方法對它們進行優化,這種方法使解決方案的數量和質量都得到了極大的提高

實際上,AlphaZero和梯度優化解決了不同的問題:AlphaZero能學習到解決方案的基礎結構,梯度優化在種子解決方案周圍的局部空間中進行優化如果僅使用梯度優化,經過50小時的模擬,我們可能有兩個或三個有前途的解決方案,但通過我們的混合算法,可以獲得一千個

將功能強大的通用領域機器學習方法與人類專業知識、特定領域的蠻力計算相結合的結果令人振奮。國際象棋已經邁出了第一步,混合型人機團隊將專家知識和Stockfish引擎結合起來,可以同時勝過人類和算法。

最近Gary Marcus和Ernest David在他們的新書《重新啟動AI:構建我們可以信賴的人工智能》中提出,將領域特定方法和領域通用方法與分層的受人類啟發的決策過程相結合,是未來構建強大的AI方法的核心元素之一。這可能會解決AlphaZero方法最直接的弊端之一:超參數很多,但僅在有限的範圍內有用。

在一些案例中,相同的超參數集在三種量子情況下均能很好地工作,當改變問題的設定,AlphaZero將無法解決。

量子計算機利用量子並行性大幅提高了計速度,但是問題再次出現:搜索空間的控制參數成指數級增長。AlphaZero實驗證明,神經網絡提供的近似和不完善的解決方案可以充當本地蠻力啟發式算法的強大種子生成器

除了算法方面的優化設計,量子計算本身的性能也在飛速提升。

金子表面發現馬約拉納費米子,量子計算機時代要來了?

最近量子計算捷報頻傳。

丹麥、德國科學家奇思妙想用AlphaZero解決量子計算問題,MIT等科學家則在金子的表面,觀測到了馬約拉納費米子,從而在將粒子分離為穩定的、防錯的量子比特進行量子計算領域邁出了重要的一步,該結果發表在《美國國家科學院院刊》上。

在粒子物理學中,馬約拉納費米子是一類基本粒子,包括電子,質子,中子和夸克,它的反粒子就是它本身。由意大利理論物理學家Ettore Majorana在1937年首次提出。

下圍棋so easy ,AlphaZero開始玩量子計算!

馬約拉納費米子

然而不幸的是,這位物理學家提出該理論後不到一年時間,就在一次神秘的意大利海岸渡輪旅行中失蹤了。從此,大家就一直在尋找馬約拉納和他的馬約拉納費米子。最終,大家放棄了尋找馬約拉納,但卻從未停止尋找他的費米子。

下圍棋so easy ,AlphaZero開始玩量子計算!

現在,由MIT領導的團隊製造了在超導材料釩上生長的金納米線組成的材料表面,發現了接近零能量的特徵信號尖峰。顯然,根據目前的理論物理學來看,除了馬約拉那費米子對,沒有其他可能。

馬約拉納費米子將是理想的量子比特或量子計算機的單個計算單位,一個量子位將由成對的馬約拉那費米子組成,這是科學家長期以來,一直夢寐以求的材料!

如果該馬約拉納費米子被徹底證實,我們將提前步入量子計算時代!

參考鏈接:

https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/

https://www.nature.com/articles/s41534-019-0241-0

https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html

—完—

關注清華-青島數據科學研究院官方微信公眾平臺“ AI數據派 ”及姊妹號“ 數據派THU ”獲取更多講座福利及優質內容。


分享到:


相關文章: