「區塊鏈+人工智慧」如何落地及技術瓶頸

本文內容來源火訊TECH創世群,如需轉載,務必註明出處。

區塊鏈在繁榮中撕裂,共識在擴張中亦流失,是時候正本清源,好好聊聊技術了!特此,火訊財經開設新欄目火訊TECH,第一期攜手火幣公鏈領袖們答疑解惑、瞭解他們的想法、分析他們的做法、普及區塊鏈底層技術知識,與火訊TECH一起探秘區塊鏈!

“區塊鏈+人工智能”如何落地及技術瓶頸

第四場

“區塊鏈+人工智能”如何落地及技術瓶頸

分享嘉賓:

邢大地,美國普渡大學區塊鏈實驗室副主任、本徵資本合夥人,獲得普渡大學運籌學博士學位,擁有美國頂級刊物學術論文和發明專利多項。刑大地博士還是全球運籌研究與管理學年會(INFORMS)最佳論文獎的獲得者,曾在多家美國頂級金融機構負責大數據建模工作。

鄭毅,ObEN的聯合創始人兼首席運營官。在ObEN之前,聯合創立了中國最大的婚戀平臺百合網Baihe.com。此前,曾經任美國光速創投投資合夥人、同方投資有限公司投資總監、美國TPG-新橋資本的投資經理。其投資過的項目包括百視通、星空傳媒/燦星製作、新絲路模特機構等。擁有加州大學戴維斯分校的交通與環境工程博士學位、以及加州大學伯克利分校的金融工程碩士學位。

耿傑森(Jason Geng ),數據應用學院(Data Application Lab)創始人兼CEO,美國數據工程與數據科學協會(ideassn.org)2018主席, 南加州大學(University of Southern California)客座教授; 美國賽門鐵克(Symantec)資深數據科學家和大數據框架師。

以下為訪談實錄整理

火訊財經主編趙一丹:首先請允許我一一介紹今晚的三位重磅嘉賓:今晚主持人及話題發起人—— 邢大地,他是美國普渡大學區塊鏈實驗室副主任、本徵資本合夥人。獲得普渡大學運籌學博士學位,擁有美國頂級刊物學術論文和發明專利多項。刑大地博士還是全球運籌研究與管理學年會(INFORMS)最佳論文獎的獲得者,曾在多家美國頂級金融機構負責大數據建模工作。大地也是我們火訊財經的重要智囊,第三期觀火,為大象的區塊鏈科普演講貢獻了很多寶貴建議。昨天我們火訊三位合夥人還請大地吃了飯。

另外兩位嘉賓是大地邀請來的特約嘉賓:鄭毅博士,ObEN的聯合創始人兼首席運營官。在ObEN之前,鄭博士聯合創立了中國最大的婚戀平臺百合網Baihe.com。鄭博士曾經任美國光速創投投資合夥人、同方投資有限公司投資總監、美國TPG-新橋資本的投資經理。鄭毅用3.5年的時間同時拿到了加州大學戴維斯分校的交通與環境工程博士學位、以及加州大學伯克利分校的金融工程碩士學位。

Jason Geng 耿傑森,數據應用學院(Data Application Lab)創始人兼CEO、美國數據工程與數據科學協會(ideassn.org)2018主席, 南加州大學(University of Southern California)客座教授; 美國賽門鐵克(Symantec)資深數據科學家和大數據框架師。今晚的三位嘉賓都擁有華麗的履歷和深厚的技術背景。期待他們乾貨滿滿、精彩生動的討論。接下來把時間交給今晚討論會的主持人@大地

嘉賓邢大地:好的,謝謝一丹,那我就正式開始了。第一個問題,請教一下Adam和Jason老師,因為兩位老師都是在AI和區塊鏈領域有很多研究和建樹的先行者。那麼在你們看來,AI技術是如何來影響區塊鏈的?有什麼研究和落地的方向?

嘉賓鄭毅:大家好,區塊鏈鏈上的數據未來是由主人自己管理和授權。如果數據結構都是去中心化的,這就需要適合的數據分析技術來學習和應用,否則就會形成早年互聯網的數據孤島。AI是目前最先進的數據分析和學習技術,所以可以被用於區塊鏈上的數據使用。

嘉賓邢大地:嗯嗯,所以這是Oben PAI項目提出用區塊鏈做個人化AI的出發點@亞當 Adam OBEN.COM 。

嘉賓鄭毅:是啊。我們關注個人數據的學習和使用。

嘉賓邢大地:Jason老師怎麼看?@Jason 耿傑森 。

嘉賓耿傑森:AI技術可以幫助區塊鏈系統解決一些區塊鏈自身的難題,有不少相關的例子,例如,pruning,區塊鏈每10分鐘以1MB的穩定速度增長,將會越來越龐大, 從而產生效率問題。區塊鏈底層專家,正在考量如何只保存部分的數據。首先提到“區塊鏈修剪”pruning的技術。

嘉賓邢大地:這個技術聽上去和決策樹的Pruning很相似,不過一個是對數據的,一個是對決策的,有什麼相關性嗎?

嘉賓耿傑森:主要是減少數據,提高效率,刪除的交易的不必要數據,以便不將整個區塊鏈保存在計算單元上。

嘉賓邢大地:嗯嗯,都是對冗餘部分的消除。

嘉賓耿傑森:剛才@亞當 Adam OBEN.COM 老師提到的數據學習問題,AI的一些算法,也可以幫助到區塊鏈。federated learning。

嘉賓鄭毅:differiential privacy加噪音的方式也有幫助。

嘉賓耿傑森:它的工作方式像這樣吧,一個設備下載當前模型,通過學習手機上的數據來改進它,然後將更改彙總為小型集中更新。

嘉賓邢大地:好像Google最近在tensor flow裡面加入了這個框架。

嘉賓鄭毅:@Jason 耿傑森 這類設備目前是怎麼部署才合理?

嘉賓邢大地:@亞當 Adam OBEN.COM 是的,privacy preserving computing-隱私保護計算,也是由於區塊鏈而重新被業界所重視。

嘉賓耿傑森:這個federated learning 本身是個G家的項目。

嘉賓鄭毅:@大地 是的。

竹風:@大地 需要可信環境吧。

嘉賓耿傑森:@亞當 Adam OBEN.COM 這個學習方法本來是部署在手機網絡上的。

Bruce Xu :區塊鏈剪枝。

嘉賓耿傑森:在機器學習裡,培訓數據都保留在的設備上,只有對模型的此更新才會使用加密通信發送出去。

Alex夏:@Jason 耿傑森 這個就符號區塊鏈屬性了。

嘉賓鄭毅:減少區塊鏈上鍊存儲也有從邊緣計算的角度去嘗試的。邊緣處理器被部署在手機基站,手機數據通過邊緣處理後的數據才上鍊。像軟銀旗下的ARM和Nvdia都在邊緣計算上進行架構的部署,未來這個新的架構可以被區塊鏈使用。

嘉賓邢大地:@亞當 Adam OBEN.COM 是的,邊緣計算是一個解決途徑,相當於不必在中心化數據庫裡面進行訓練,而是把數據價值local化的提取。

Bruce Xu :邊緣計算和區塊鏈有相似性。

嘉賓鄭毅:類似人體的神經網絡。前幾天在東京參加軟銀世界大會,孫正義特別強調了軟銀在邊緣計算上的架構搭建。

嘉賓耿傑森:邊緣計算主要緩解流量壓力。

嘉賓鄭毅:回顧歷史,技術的迭代需要硬件和軟件的融合迭代。

Bruce Xu :是的。

嘉賓邢大地:其實邊緣計算所強調的分佈式計算和分佈式數據存儲,對於所有做大數據和人工智能的都不會陌生。Hadoop架構和區塊鏈的區別,就是多了一個master節點。

嘉賓耿傑森:@亞當 Adam OBEN.COM 同意的。

Bruce Xu :邊緣計算是分擔算力吧。

嘉賓鄭毅:把算力放在神經節上了。

竹風:小數據集計算是個問題。就目前而言data partition 是個坎。外加數據自動化標註。這兩個問題不好弄。

嘉賓鄭毅:這個是要具體數據具體分析了。同意。

嘉賓邢大地:GAN在試圖解決第二個問題。

竹風:我們在做NLP的自動化標註 還是有多少人工就有多少智能 期待同行推薦好的解決方案。

嘉賓邢大地:partition和integration都比較難,小數據集學習的精度有限,還是需要有類似於voting機制的算法來做improve。

嘉賓鄭毅:可以嘗試讓社區參與給自動標識的算法打分,自修正。OBEN早些時候發了一個how tall的微信小程序,用說話聲音測身高,然後讓用戶自己告訴算法正確答案。挺有效果的。google現在這個畫家的小程序也有這個目的。

Alex夏:這對輸入或者應用要求就比較高了。

嘉賓邢大地:大家平時用的密碼驗證圖片,就是一種收集標籤數據的手段,據說最早是密歇根大學一個教授做的。

嘉賓耿傑森:使用區塊鏈以眾包方式簡化數據任務,麗茹訓練數據的標記。那些幫助AI培訓和標籤 進行補償。

嘉賓邢大地:第一個問題展開了這麼多,看來我們的兩位嘉賓老師和群友都是功力深厚,那麼我問一下第二個問題。這個問題也是很多做AI的人經常問我的。

嘉賓耿傑森:

有個TraneAi 項目就是這種。什麼問題呀,@大地。

嘉賓邢大地:AI技術我們已經看到了很多落地應用,那麼區塊鏈加AI,我們可以期待那些落地應用是可以短時間落地的?並且真的發揮了區塊鏈的優勢?

Anita:@大地 @Jason 耿傑森 神級網絡,機器學習善於處理數值計算智能,區塊鏈裡面絕大多數是離散變量,那麼請問兩位老師如何將沒有規律的離散區塊鏈世界狀態映射為數值計算函數的輸入以及如何對他們進行分類?

嘉賓邢大地:@Anita 師妹好,這是個好問題,我等一下問一下兩位嘉賓。

嘉賓鄭毅:關於落地,我們在做的是從社交和娛樂的角度把人工智能和區塊鏈結合,PAIYO是OBEN在PAI鏈開發的一個app,目前在內測階段。

Anita:@大地 好的,非常期待討論。

嘉賓邢大地:

@亞當 Adam OBEN.COM 區塊鏈在其中的真正作用是什麼?

嘉賓鄭毅:@Anita 先可以在鏈上建立一個允許消費者上傳數據的應用,應用先處理結構化的數據,同時允許上傳非結構化的數據,逐步迭代。對個人數據的確權、授權、以及人與人之間數據的安全傳遞。在社交app裡,大多數匿名的社交app最後都死了。原因是社交需要信任。

Anita:@亞當 Adam OBEN.COM 如何保證該應用的可信性?如何保證該應用不盜取個人數據?

嘉賓邢大地:那麼誰來收集數據?用戶的個人數據上傳哪裡?

嘉賓鄭毅:這裡就要佈局類似加噪音這些對隱私保密的數據學習方法。

Anita:@亞當 Adam OBEN.COM 那依然是一箇中心化的應用?如何做到完全可信?

嘉賓邢大地:@Anita 線性模型目前還是是可以做sMPC的,通過多個節點來保護隱私,並且抵抗一定比例的collusion。

嘉賓鄭毅:有技術手段的。

嘉賓耿傑森:@Anita 可以看看BurstIO,它使用區塊鏈來維護數據的安全性和隱私性,平臺允許企業從他們自己的數據中獲取更多信息,在合適的時間與合適的利益相關者分享。AI的三個基礎是算法,算力和數據,數據包括數據質量和標籤。區塊鏈在這幾個方面都有可能提升AI的技術發展。

Anita:@大地 多個節點保護隱私,需要共識嗎?

嘉賓邢大地:@Anita 如果只是完成特定計算,不需要。@Anita 你認為共識的目的是什麼?

Bruce Xu :數據一致。

Anita:@大地 保證數據可信和安全。

嘉賓邢大地:@Bruce Xu 。

Bruce Xu :數據可信是基於不可篡改。

Anita:@亞當 Adam OBEN.COM 請問逐步迭代能解釋一下嗎。

嘉賓邢大地:所以保護隱私和數據一致是兩個不同的問題。我想請問一下@Jason 耿傑森 老師,既然我們講到了共識機制,你覺得算力方面,區塊鏈會如何提升AI的發展。

嘉賓鄭毅:先解決有沒有數據的事情,有的數據要先處理結構化數據,非結構化數據也可以上鍊,需要經過迭代。

Alex夏:結構數據也需要學習模型。還是少不了節點或者中心化?

Anita:@亞當 Adam OBEN.COM 謝謝,我是對迭代機制很好奇。

嘉賓耿傑森:@大地,區塊鏈使用各種技術,包括聯合學習和區塊鏈,為機器學習模型的培訓創建一個匿名和安全的網格。

嘉賓鄭毅:我記得伯克利的dawn song教授說過,AI一定是在鏈下,先是中心化學習。

嘉賓耿傑森:有個項目,OpenMinded網格, 使數據科學家和開發人員能夠訪問“礦工”提供的數據,他們幫助培訓模型並獲得獎勵。

Alex夏:@亞當 Adam OBEN.COM 。

嘉賓邢大地:Singularitynet好像也是類似的思路@Jason 耿傑森 。

嘉賓耿傑森:還有一個項目,Neureal, 說它正在使用區塊鏈來構建一個點對點框架,以利用空閒的計算能力進行大數據分析。

嘉賓邢大地:@亞當 Adam OBEN.COM 鏈下訓練模型,鏈上調用數據計算模型。

嘉賓鄭毅:@大地 是的。

嘉賓耿傑森:

線上還可以改進共享模型。

嘉賓邢大地:@Jason 耿傑森 那數據的pipeline怎麼實現?在一個去中心化結構中。

Bruce Xu :挖礦本身會耗算力,如果支持AI訓練,負擔不是更重,這個怎麼解決。

嘉賓耿傑森:例如federated learning,是這樣做的,只做小的局部學習,通過局部的數據來改進它,只有對模型的此更新才會輸出。

Bruce Xu :這是個常用的策略。

嘉賓邢大地:@Bruce Xu 挖礦不是一定要算哈希,可以做特定功能的芯片,這個和挖礦算法有關。

嘉賓鄭毅:挖礦算力和AI算力可以分開。當然,在新的公鏈下,可以研發有用算力證明,讓挖礦算力用於有用的AI計算。

嘉賓邢大地:

@亞當 Adam OBEN.COM 是的。

Bruce Xu :好的。

Anita:@Jason 耿傑森 @大地 這個問題我也很感興趣,數據的pipeline怎麼實現?在一個去中心化結構中。

Bruce Xu :之前樓上問的有關數值和離散的問題也麻煩回答一下。

嘉賓耿傑森:數據在個人,只是在本地做模型的修改,然後輸出模型的變化@Anita。

嘉賓邢大地:在區塊鏈當中,鏈上存的要麼是賬本數據,要麼是哈希值或者其他記錄信息。而我們平時在AI中說的數值計算,是針對訓練集數據而言的。而且AI算法當中,也不全是非離散數據,categorical analysis也是可以的。關於我問的pipeline那個問題,是因為我個人覺得數據清洗是一個複雜度很高的事情,很難做到自動化。這就對分佈式實現提出了很高的要求。

Bruce Xu :區塊鏈如何數據清洗啊。

嘉賓邢大地:沒必要在鏈上做啊。

Bruce Xu :OK。

嘉賓邢大地:能夠在分佈式系統上做好就了。

Bruce Xu :如何區分數據是否有價值上鍊呢。

Anita:如果解決pipeline中時間片的作弊問題。

嘉賓邢大地:@Bruce Xu 這個得看場景,也得看目的。

Anita:如何?

嘉賓邢大地:@Anita 不懂?這是什麼情況?為什麼要在時間片上作弊?Pipeline是數據預處理過程。

Anita:有pipeline就會有時間片,時序協作。

Bruce Xu :Em.有趣。

嘉賓邢大地:好的,我來問最後一個問題@孫鳳姍 - 火訊財經 。兩位都是學者型的創業家,那麼如果從投資人的角度。

Bruce Xu :今天很熱鬧呀。

嘉賓邢大地:你們會傾向於投資或者佈局那一類的項目。

YangZJ:落地應用不應該只有競爭,意味著所有節點完成同樣任務。如何分配協同完成任務是一個值得思考的問題。

嘉賓耿傑森:@大地,你是說AI 或者區塊鏈項目,二選一,還是什麼其他標準。

Anita:嗯,那麼任務是否被完成是否需要共識?

嘉賓鄭毅:我相信數據仍然是未來區塊鏈世界的黃金。所以,我應該會先投資有數據上鍊需求的項目,也就是說大家因為區塊鏈應用而把數據上鍊。

嘉賓邢大地:@Jason 耿傑森 AI+區塊鏈。

嘉賓鄭毅:數據是互聯網世界的黃金,也會是區塊鏈世界的黃金。

Bruce Xu :task是個頻繁的事情,如果每個task都共識,會不會有些浪費算力呢。

嘉賓耿傑森:主要還是看AI和區塊鏈結合的項目是否能解決現實問題,解決實際問題是否利用了區塊鏈的特別屬性。舉個例子,區塊鏈可以保證數據的授權和準確,這樣解決“garbage in and garbage out”的問題,這樣就幫助到AI。

Bruce Xu :也許蘊含一種新的模式呢哈哈,I think。

Alex夏:@亞當 Adam OBEN.COM 。是的。

嘉賓邢大地:@Bruce Xu 共識是有成本的,線下解決問題,結果確認上鍊即可,參考閃電網絡,或者state channel。

Bruce Xu :必要數據上鍊對嗎。

嘉賓邢大地:是的,給state channel打個廣告,我是這個技術的信仰者,今天關於公鏈的爭論,也許都可以用state channel解決,或者至少沒有太大的漏洞。

Bruce Xu :那數據的結果是有起源的,我們可以把數據依據其計算邏輯溯源,假設只存得到的必要數據,如何保證計算過程不出錯或者作假呢,還是說這種考量沒有必要。

嘉賓邢大地:好了,時間差不多了,我也終於完成了一丹給我的任務。感謝兩位嘉賓,Adam和Jason老師,也感謝今天參與討論的小夥伴。


分享到:


相關文章: