智子社區顧問白碩:當人工智慧遇區塊鏈,驚鴻一瞥還是天長地久?

智子社區顧問白碩:當人工智能遇區塊鏈,驚鴻一瞥還是天長地久?

目前最火的兩個領域——人工智能和區塊鏈的完整知識結構長在同一個人的腦子裡,這是不常見的,智子社區顧問白碩就是這樣一個人,而智子社區就是人工智能和區塊鏈結合的智能化社區,白碩老師曾就讀於清華大學力學系、計算機系和北京大學計算機系,並在中科院、上海證券交易所等任職,下面就聽白碩老師如何說人工智能和區塊鏈.

(白碩)很高興有這個機會跟大家交流。我先講幾個案例作為引子。第一個案例與知識圖譜有關。這個公司做的是非常垂直的一個領域,安全教育。比如駕駛員安全教育,危險品操作,危險品運輸,危險品儲藏等等。因為國家有規定,有大綱,有考題,有指標來規範從業者,但是很多人只能用碎片化的時間去學習來準備考試。在這種情況下,如果考試不合格的還要回爐,考試成績還要歸檔等等。於是,這個公司很聰明,他們做了一個系統,就是把考題的知識點,以及各種關聯都呈現給學員,然後還可以打分,不光是打分還能畫像。然後這個公司就跟我說他做了這樣一個東西,我說你這不就是知識圖譜嗎?他說對。這東西他做了兩年了,到跟我見面前一個月他才知道這叫知識圖譜。這說明什麼?雖然大家不一定知道識圖譜,但是從不同的角度都在往這兒匯聚。

第二個例子,是眾包。大家可能有來自大專院校,有來自科研院所,爬盟這個詞應該不陌生。爬盟是怎麼回事?那就是像新浪微博這樣的社交平臺,想要獲取他的數據用於科研是有難度。以一家之力是獲取不全的,大家誰都沒有獨自爬取的實力。於是清華大學的梁斌博士,他的導師馬少平,我們幾個人就商量怎麼辦。那麼最後就組織了一個爬盟,這就是一種爬取能力的眾包。它是集中化的調度分配任務,然後大家分頭的去爬,爬完了之後,再來共享,還要根據貢獻度設計了一個機制,使得大家有不同的共享權利。

第三個例子是剛發生的,就是比特幣社區分裂了。那麼在去年,以太坊分裂的時候,比特幣圈子裡面還有人好像覺得不會出現類似的整個社區分裂的問題。這個問題說明什麼呢?就是說,他們初衷都是好的,包括中本聰,他一開始設計這個機制的這個初衷都是好的。都是想做一個去中心化的東西,但是這個東西走著走著就中心化了。一些這個礦池隨著慢慢發展就具有了舉足輕重的這樣一個地位。回過頭來,考慮面向知識圖譜的一個眾包的社區,初衷如果是去中心化的,但是我們會不會走著走著又走到中心化那個地方去了呢?會不會走著走著又形成了一些數據寡頭?那麼形成數據寡頭的以後,就會很難受。那麼如何防止數據寡頭的出現?而且,如果我們都是散兵來做眾包和有一些正規軍各拿一塊去做這個眾包,這是不一樣的。如果有一些正規軍的話,他們的領地意識非常強。那這樣的領域意識非常強的一些機構在一起做這個聯盟,去分享這些數據的時候,那麼就會發生碰撞。這個時候又要共享,又要發生碰撞,那怎麼去解決?所以我這個今天的

前半部分會講區塊鏈領域的一些最新動向,包括如何來解決領地的問題或者叫數據主權邊界的問題,那麼後面一部分講激勵問題,就是說我們如果建立這樣一個社區,那怎麼樣利用區塊鏈來形成一個激勵機制,然後再把我們這個社區能夠健康地做起來

第一部分裡面,首先要介紹這樣一個圖。這底下六塊都是傳統區塊鏈的內容,就是從比特幣出來就這一塊,而上邊兩塊是沒有的。我們剛才提到的領地問題那關注就涉及到了第七塊,所謂的隱私保護。隱私保護不是說大家不共享,是又能共享又要保護,是這樣一個雙重目標。

也就是說我們承認不同的數據的 owner,數據之間是有主權邊界的,但是他們也有共享的需要。同時他們又是互相防範的,也就是說這裡面有競有合,是一個競合同時存在的博弈。

數據主權體現在方方面面。區塊鏈的這個深化應用,包括我們央行推出這樣一個加密數字貨幣,這裡邊肯定是不希望老百姓的各種花費讓別人都能看見,它是要保護隱私的。這個跟比特幣目前的做法是肯定不一樣。那麼從防止數據寡頭的角度看,一定要有一個聯盟機制,使得大家互相承認邊界互相共享。這個邊界是一個能夠通過一種信任關係給你保證,不會讓你眼看著這個數據寡頭長起來我們卻沒辦法,比如區塊鏈基礎上加上一定的密碼學的機制,可以形成一個信任關係。徵信,這個就是我的數據別的地方你看不到,但是在你想要的那一點上,我們可以有一種方法去對縫,就是一個比特一個比特的洩露。然後最後一點,講人工智能。人工智能就是形成所謂的超級大腦,但前提都是說我要拿大規模的數據去餵它。那大規模數據較集中,一集中,我的數據你的數據都集中到了一起。這時,你把我的數據拿走,我再把你的數據拿走,發生這種情況怎麼辦?這個是在技術上還是挑戰蠻大的。如果說我們給一個程序,我們把我們各自的數據給一個程序,這都是沒關係的,讓這個程序有超級的能力,這個關係並不大。但是如果因此我的數據你就能得到,你的數據我就能得到,那麼這個事就嚴重了。所以說又要匯聚讓它,形成一個集中的智能,同時又不讓這個匯聚的副作用變成一種各自的隱私或者各自的一些核心數據的洩露。

智子社區顧問白碩:當人工智能遇區塊鏈,驚鴻一瞥還是天長地久?

這裡面有幾個例子,第一個,加密數字貨幣。第二個例子是醫院和保險公司。保險公司要做精算,比如就算某一個病的死亡率,然後他沒有數據,那麼他去找醫院。醫院說冠冕堂皇,認為這個數據是患者的,我只是替患者保管,但實際上他是有操控這個數據的全部能力的,但是他說不給。這就比較麻煩。那麼保險公司怎麼樣能夠在承認醫院邊界的情況下把像死亡率這樣的一些數據拿到手?第三個例子,徵信,我們已經說了。第四個例子也是我們有些很大膽的朋友提出來的,能不能做這個去中心化的滴滴或者共享單車。意思就是說不需要滴滴這樣一個公司。乘客的位置信息和司機的位置信息是統一的,然後就直接拿這個東西去撮合。也就是不經過滴滴這樣的一個平臺公司,但是又有這樣一個平臺去做這樣的事情。能不能做成我不知道,但是其中可能還有一些法律障礙。但是如果不是說個人,而是有一些中小規模的約車公司以聯盟的方式形成一個虛擬的滴滴,然後各自的用戶、各自的司機互相不透露,同時又給一個平臺來做信息調度,需要的信息給足這個平臺,這事能不能做到,也是一個值得探討的問題。當然這個問題在這個學術界叫做這個多方安全計算,它涉及到幾種不同的場景,安全的匯聚,安全的關聯,安全的映射等等。

有人說區塊鏈是公開透明的,也有人說他是秘密。這都只說對了一半,這賬目是透明的,這個賬戶或者地址是匿名的。那光看那個賬戶,如果賬目是透明的,操作手法也是透明的,其實有很多的這種線索你是沒有辦法迴避的,那麼用的那個身份就暴露出來的。同一個地址,是同一身份,然後你用不同地址,如果關聯交易是你發起的,也能發現。還有趨同交易,你的手法是一樣的,這就是趨同交易。這也是能發現的。這個我之前在交易所做這個抓壞人的工作,所以這個我們都知道。賬目其實也面對著兩個方向,從法律法規,從個人權利,從這個無關人迴避等等希望這個數據背靠背的,但是去中心化和集體見證又都希望這個是面對面的。如果需要同時滿足這兩個怎麼辦?就是我又要集體見證去中心化,同時又要保護個人隱私。那麼就有一些辦法,實際上可以把這個事件時序的見證和有效支付的見證區分開。然後就有一些保護隱私的各種各樣的辦法。所以保護隱私其實就是想同時滿足了這樣的情況,一個是尊重你的邊界,那個同時呢要實現必要的共享。

在這幅圖中,虛線的上方是比較理想化的,但是目前還沒有很好的效率。虛線下方是有所提升的方面,比如去中心化方面有所提升的,或者是隱私性方面有所提升的。經過一些妥協後,這就是很優雅的,也很完美的,但是可能實現效率稍微差一點的方案。這裡邊有零知識,零知識交互,零知識證明這個我們不詳細講了。Zcash開始就是他的一個實現,用零知識方式的一個實現。那麼Zcash這樣一個幣裡邊交易多少錢你是看不到,但是大家又能放心的給他們的交易去見證,去給他們背書。這是一種方式,那麼還有一種叫同態加密。同態加密也是通過一種保運算的加密映射來做的,這個很優美,但是實現效率可能還是達不到生產要求。

那麼往下說,數據交易。有很多地方都有所謂的大數據交易中心。這個大數據交易那不是就是在做數據的共享嗎?那麼如果說做了大數據交易,是不是我們說的這個問題就解決了呢?我們從交易本身這個本身這個邏輯上看,交易是等價的一個交換,而價值它是滿足守恆性的,但是我們的數據是不滿足守恆性的。一個不滿足守恆性的東西和滿足守恆性的東西,互相之間怎麼進行交換?這個命題自身就不太對頭。而且裸數據交換也確實是不對,這個大家有很多的痛點,擔心擴散,擔心洩密的,擔心數據的權屬等等。

那麼就換一種方式。也就是說我們不交易數據本身,我們交易這個數據的使用權 API。也就是我不賣 x 了,我賣f(x)。藉助區塊鏈來實現賣 f(x) 的一個想法,就是說大家把這個服務暴露出來,怎麼調用,調用了多少,互相都是可以記賬的。那麼記賬是落在區塊鏈上,記下來的賬,可以通過銀行轉賬來付費。如果大家互相互認,也可以通過區塊鏈上的代幣來直接付費。那我有一部分知識圖譜,你有一部分知識圖譜,我也希望有分享的部分,同時我也不希望我的圖譜你全拿走,那麼至少有一個計量,在計量的基礎上,我們也是要考慮等價性問題。

這裡邊還有另一個場景就是背靠背求交集。這個比較典型的案例,我們經常遇到的。之前就有這個兩大著名的互聯網公司,各自有一大批這個手機註冊的賬戶,他們希望對手機號碼的交集的部分互相推送一些服務。想法很好,但是為了求交集,我的集合要拿出來,你的也要拿出來,但是互相都不放心,擔心整個數據被對方拿走。最後這個場景有兩種做法,第一種做法,給第三方。第三個當然是簽署保密協議,可是再怎麼承諾,如果第三方不遵守承諾,這就是一個最糟糕的結果。那麼還有一個最沒面子的方法,就是大家把各自數據集帶到一個固定的場所,機器都清空,重新格式化重新,然後求交集的代碼,雙方工程師認證檢查好了,最後開始求交集。雖然方法很土,但是互相不信任就沒有好辦法。

我們現在有一個專利技術是可以解決這個問題的,而且互相之間可以放心,並且不會有第三方。我把數據加擾了給你,你再加擾給一個智能合約,這是我的數據。你的數據也是你加擾了給我,我再加擾給這個智能合約,然後那個智能合約就把這事做好了。整個過程誰也沒有數據的全集,而且你想用一些套取的辦法,比如不拿真實數據去跟你做交易,同樣也不會暴露。

邊界計算的入向控制。醫院和保險公司之間數據往來,有所謂邊界計算的問題。那麼實際上這個問題是這樣的,它就是看你要計算這個函數本身,如果具有某種所謂的aggregation,這種聚合性質,那麼實際上就可以把一部分計算放到別人的邊界裡面去算。算個七分熟,然後再把那個剩下三分再送到一個保險公司計算。那麼當然,這需要它本身確實有這種聚合的性質。再換個說法,就等於說有一部分計算是放在別人的邊界裡面去,然後脫敏,脫敏以後來聚合。如果本身的目的不是匯聚的時候就不能這麼做。比如那種大的矩陣運算,那可能你分成塊了以後,這個矩陣運算就成立了,而有可能在別人家算就不成立了。這個完全是有可能的,所以這個不是說對什麼場景都是靈的。

出向控制。這個說的是約車的約束問題。物理學家張首晟對這個也很關心。他也推薦一個算法就是所謂的同態加密。我們在同態加密的這個狀態下,就能夠把這些調度的問題都解決。但是這個也也許可以換一個思路,因為我們不怕把這個數據給程序,我們怕的是別人通過給程序再把數據拿走,那麼只要把後者的路給堵住就可以。具體怎麼做還會有其他的做法,那麼剛才說的這些都是說有邊界又要共享,又要防範的時候怎麼辦,這個思路供大家參考。那如果我們要成立這樣的一個聯盟,有很多人自帶數據,自帶一部分圖譜,然後大家形成合力,然後又要尊重各自的邊界怎麼辦?那麼區塊鏈和依託區塊鏈上面長出來的一些密碼學的技術加起來,可能會解決這一個問題。目前至少在區塊鏈領域裡,既關注區塊鏈,又關注數據共享的人中,有一些人就在思考這樣的一些問題,包括一些頂級的密碼學家。這是第一部分的介紹。

智子社區顧問白碩:當人工智能遇區塊鏈,驚鴻一瞥還是天長地久?

接下來我們進入知識眾包社區這一部分。在我們會面臨的一些問題中,主要還是激勵的問題。當我們公佈這個事情時,號召力還挺大,很多人都進來了,號稱是我們的成員,號稱是眾包的一份子,但是有些成員出工不出力。我們不清楚他們的貢獻度如何,很可能就是濫竽充數,那麼這個時候我們怎麼能夠識別出來,審視圖譜質量。在這種情況下一個成員的圖譜質量好或者不好,誰說了算?如果最後又回到一箇中心化的質量控制的團隊,那麼這個質量控制團隊本身會不會又面臨一些道德風險,會不會又面臨一些他們自身的知識的侷限導致的可能不如人民群眾聰明?第三個問題就是,那這個就算是做好了,那是不是誰的數量多,那誰的貢獻就大呢?也不一定。那是不是有事前的貢獻,就是你做了多少活,交了多少東西,還有事後的貢獻,就是用戶用了你的,還是用了別人的。這也是一個問題。最後,到底是怎麼共享的?純粹的用戶還有各個建設者互相之間看中了圖譜,那麼如何去計量使用量。圖譜的一些流向和規模到底是怎麼去計量,這個計量背後可能也是跟激勵有關係的。

開源是不講激勵的。通常情況有個相應的基金會,有人打賞,有人幹活。但是這是過去時,那麼現在有了區塊鏈,其實已經有很多這樣的嘗試,把區塊鏈提供的一些跟激勵有關的機制和這些眾包的工作機制能夠有機地結合起來。

我們大概有這麼近幾個建議的結合點,第一個就是要通過代幣進行打賞。大家的成果記載在區塊鏈上,同時這個區塊鏈上要跑一種代幣,而這個代幣就成為打賞大家的一種價值工具。這是這第一個建議。

第二個建議是在質量控制當中引入競爭和共識。這個也是通過區塊鏈,我們得到一些啟示。比如說挖礦,很多人在算同一個反解這個哈希函數的一個題。那麼最後誰最先發出來了,那麼他一廣播,然後別人看這個時間戳是最新的,那誠實記賬的人就承認他,那麼在這個短暫的瞬間也會有其他的一些人,它不是最新的時間戳,但是在它的局部,可能別人覺得它是最新的時間戳,但隨著這個信息的傳播發現不是,那麼後續就改過來了。其實這就是一個版本問題。那麼我們比如說發佈知識圖譜的編輯任務,或者是其他任務的時候,那也可以引入競爭。時間不一定是唯一的尺度,那麼我們可以交叉評審,我們可以有用戶反饋等等,這些都計算在內,整個尺度會比較長,版本也會比較多。但是儘管版本多,如果最後能夠形成共識,而且形成共識以後就收斂到一個什麼樣的設定,那麼其實這樣一個過程就是跟區塊鏈挖礦的過程很有可比性了,只不過它可能拉的時間更長一點。我們需要把這個機制設計好,就是版本控制,質量的控制,然後達成共識

第三個是計量。就是對大家的有效工作的衡量。我們希望能有一種不可更改不可撤銷的方式記錄下來,那麼這個區塊鏈也是長項,就是做這種存證。

第四個,實際上是大家最擔心的,就是如何防止有價值的數據擴散到聯盟外部。我們作為聯盟內部,我們還有一個規範,那麼如果擴散到聯盟的外部,就不可收拾了。那麼怎麼樣做這件事情,再結合剛才的大數據交易,我們可以考慮這樣一個方式。就是對所有長在這個區塊鏈上的知識圖譜數據的使用,只有一個單一的入口,就是區塊鏈服務這樣一個入口。比如說誰使用了,肯定有使用的痕跡,這個痕跡就留在這個區塊待著。“肉爛在鍋裡”也沒問題的,但是不能出去。但是這個也可能發生拖庫。那麼為了防止拖庫的話,我們能不能採用一種這個非線性定價的方式。也就是數據的使用定價是指數的往上漲不是線性的,讓拖庫的行為得不償失。

我們再具體展開一下,先說打賞。打賞在區塊鏈這一領域經歷了兩個階段,前一個階段是沒有應用,只有幣。在沒有應用只有幣的情況下,等於說礦工用算力挖出來幣,然後這個幣是在別的地方體現出價值,比如它去買批薩,買這個軍火等等。那麼到了第二階段,這個上面長出來應用,長出來這個平臺,那麼也長出了智能合約。到了這個時候又出現一個新的可能性,就是說拿這個平臺上的幣去獲得那些長出來的應用的使用權,也就是說使用價值和它生產交流的交換價值在同一個平臺裡邊就有了交換。所以這裡面生產者是兩類人,一類是礦工,一類是碼農。那麼打賞也是兩類人,不是隻打賞礦工,同時也要打賞碼農,也就是所謂的ICO,就是通過代幣的發行,然後再做對碼農的打賞。那我們這個數據的生產者其實某種意義上跟碼農是非常類似的,我們把生產出來的數據就放在上面,它有使用價值,那別人使用它,就要支付交換價值,然後在這個部門就會轉起來,那麼就要打賞這些提供使用價值的人,這個形成了一個閉環。

再說競爭和共識的問題。雖然是同樣的一個任務,但是有不同的人在同時做不同質量的東西。那麼經過大家大浪淘沙,不管用什麼方式,用交叉評審的方式,用用戶反饋的方式等等,只要最後確立了某一個版本的優勢,那其他的版本消亡,而這個粗的箭頭也就是確立的這一版本會發展下去。那麼類似比特幣挖礦,我們也希望好的知識圖譜的版本也是這麼演進的。

第三個,存證。這裡面其實是兩部分,一部分是純使用者,那麼他們使用了什麼數據,這個是要有計量的,在計量的基礎上我們才能計算讓他支付多少。那麼還有一部分就是貢獻者互相之間的使用,那這不是一個簡單的使用和支付的問題,還有清算的問題。也就是互相之間會比較,有一個抵消的過程。

第四個是防擴散。我們希望比如說 OpenKG 是長在這個區塊鏈機服務的一個總的入口的後面,大家所有的使用這裡面數據的記錄都是都是記錄在案的。這樣的話,在上面一些應用都是通過這個入口來調用。這是一個示意圖,但是可能具體的架構比較複雜,在這先提出這樣一個模型。這個模型是直接涉及到我們互相之間打賞的具體制度的安排的。

第五個是防拖庫。也就是考慮使用非線性定價。那麼不論是零售還是批發使用數據,都要有一個封頂,不能到一個離譜的量級。這樣的話保證我們這個庫是安全的,不會有惡意的拖走。

最後總結一下,第一個認識,就是數據共享當中這個競合博弈問題是普遍存在的。目前大家見到的現有的區塊鏈上面的這些技術還不足以完整的提供解決方案,還得追加上的一些比較高級的密碼學技術才行。第三個就想跟大家說,知識圖譜如果共建共享,那可能一個核心的問題就是說要保護它的價值,要體現它的價值。保護價值,當然就有一些互相這個防範的機制。體現價值,那麼就要有一個這個所謂的像代幣激勵的機制。既有有效的保護,要有有效的激勵,那麼我們才能夠可持續的發展。雖然是OPEN,按說是不談錢的,但是在現在這個時代,代幣已經無孔不入,其實它是一個很好的工具,如果我們能夠比較好的使用,我相信能夠幫助我們更健康的發展好.

智子社區顧問白碩:當人工智能遇區塊鏈,驚鴻一瞥還是天長地久?

總而言之,人工智能和區塊鏈的深度結合,想象空間是無比巨大的,所以基於區塊鏈與人工智能技術搭建的數字資產服務與投資社區智子社區的想象空間也是巨大的,智子社區是一個集投資者教育、資訊、分析、投顧與資產配置功能為一體。智子社區是WBO、加勒比自由貿易區全球唯一指定的戰略合作伙伴,為用戶提供7*24小時全時區、全鏈條、有價值、高效率、多語種的數字貨幣智能投顧與資產配置服務。技術上,智子社區基於區塊鏈和多方安全計算來解決交易信任和數據隱私問題,基於人工智能算法來提升知識提供方的服務水平和服務體量


分享到:


相關文章: