So Young Sohn:信用評級與專利保護中的AI技術概覽

關注微信公眾號:人工智能前沿講習,
重磅乾貨,第一時間送達

一:報告導讀

本次報告So Young Sohn首先通過自己的從業經歷,描述了機器學習技術在工業界近年來的運用與發展。然後,介紹了她的研究團隊使用AI相關技術在初創企業的評估、貸款評分等級、專利保護與篩查、交通大數據、共享單車空間佈局等方面的研究工作。

二:專家介紹

So Young Sohn:信用評級與專利保護中的AI技術概覽

So Young Sohn,韓國延世大學教授,韓國科學與技術研究院院士。曾獲得研究貢獻教授獎,韓國年度傑出女科學家, Yonam國際研究獎,英國外交和聯邦辦公室獎等。主要從事空間大數據分析,專利政策科學和基於技術的信用評分。

三:報告內容

隨著AI技術的發展,數據採集的技術手段也在不斷增強。我雖然不是來自計算機科學學院的,但我的主要工作卻是主持其學校的工業數據實驗室,我認為實驗室的使命是通過使用數據的方式去貢獻社會,解決產業問題。

80年代末,我在匹茲堡深造,並在學習中萌生了做助教的想法。當時我注意到有個教授獲得了某個發電廠的項目,這個項目的目標就是能夠區別酶的好壞,希望能夠識別酶的特性,推動燃爐鍋爐的效率,這個是非常典型的產業問題。面試的時候這名教授問我知不知道線性的分類分析,另外還有如何使用數據包來評估和分析大量的數據。當時是我第一次接觸產業數據這一行業,很顯然,當時我並沒有回答出來任何一道問題。

So Young Sohn:信用評級與專利保護中的AI技術概覽

經過在匹茲堡進行了三年的研究生學習,我獲得了學位,被聘為副教授。在美國的研究生學院,我有機會獲得大量的實驗數據進行軍事實驗。我回憶道:其中一個數據,應該是我遇到過的最大型的數據,是由一個海軍飛行員出身的研究生帶來的傳感器數據。當時他希望分辨數據中已有的目標,這個不需要進行太多的測試輸入,這也我的第二次涉及到產業數據方面的工作。

So Young Sohn:信用評級與專利保護中的AI技術概覽

在90年代重汽的時候我曾在理工大學參加了一個非常古老的工程項目,當時理工大學在宣傳推動數據採集,那是我第一次接觸數據採集。當時我所負責的數據組是由“通用塑料”所提供的,他們通過數據採集來分析製造業方面的問題,並且識別這些產品生產時的操作工況。當時的AI技術已經可以應用於這些領域,並用於更加先進的製造業,這令我非常震驚。

So Young Sohn:信用評級與專利保護中的AI技術概覽

留學十年之後我決定回國。我說:“當我踏上祖國的土地時有一個逆文化的衝擊,可能有些中國學者也經歷過,就是留學過一段時間之後回到國內會產生逆留學衝擊,已經非常不熟悉祖國的一切了,但這也給了我一個全新的機會去開展一個全新方向的研究。“在90年代,當時的韓國政府建立了許多的支持項目來支持初創企業,其中一個項目叫做韓國技術信貸基金,這是為了能夠支持那些擁有潛在技術前景卻缺少資金的初創企業。通過這一金融機構,初創企業可以獲得非常低息的貸款,但需要在三到五年內還清這筆錢。如果很多初創企業沒有能夠償還這筆資金的話,負責監督基金的金融機構就很有可能面臨破產,於是他們找到我,讓我建立一個新的審查機制。我考慮到這些初創企業的立足點,意識到需要首先要評估這些企業的技術,然後再評估他們的市場可行性以及技術的正確性,另外要考慮技術的管理如何,盈利性如何,人力資源怎麼管理,資金供應怎麼管理等等,包括16個特點,其中有12個是5分,其他的4個是10分,所以把它算下來就是100分。任何的項目申請資金如果是60分以上就可以獲得資金,他們就可以從銀行裡面低息借款。但是他們申請的時候只需要根據這些分類的指標來進行評估,但是隨著時間的流逝,他們發現評估的方式需要進行一些調整,所以分別建立了信貸模版,分數模版與評估模版。後來又注意到這些企業提供的信息不夠,所以補充了一些參數,像公司層面的數據,技術變量的這些模版,因為這是通過經濟狀況來進行調整的,最後創造的是這個新註冊的模式。

So Young Sohn:信用評級與專利保護中的AI技術概覽

更重要的是目標的可變性,也就是說公司借錢然後再償還,這個模型太過於簡單了。考慮到這個資金計劃是基於技術做的,所以需要了解這些初創公司是否真正能夠發展新技術,或者他們能否創造了知識產權。另外我們需要了解在這個過程中產生了什麼樣的變化,產生了什麼樣的活動,這是各種目標的變量。因此只關注有沒有償還貸款的評估方式太過簡單了,我們必須查看整個不同變量的目標,提供多目標的任務。

So Young Sohn:信用評級與專利保護中的AI技術概覽


So Young Sohn:信用評級與專利保護中的AI技術概覽

我在建立模型的同時也得到了聯合國的貿易發展機構的認可,當時他們希望設立一個創業的框架,能夠提供給發展中國家,其中的一個戰略就叫做“過去獲得融資”,我受邀參加了這個會議,並分享了我的經驗。當時還有一個來自於哈佛大學肯尼迪學院的團隊也參會了,那時我並不知道他們在做什麼,後來才知道,這一團隊建立了一個篩選模型為小微企業的提供融資,而我主要是負責給技術專家的融資,它們是兩個不同的渠道。但是我發現,這種對創業的評估和篩選是非常重要的,比如說他們會提供一些心理學的方式,包括會對是否有正直的人格,較高的智商,良好的人品等等因素進行考量。同時也會將一些圖片數據、照片數據、聲音數據、臉部表情數據和麵試的數據收集起來,所以模型會有各種各樣的數據輸入,這些都是用AI的方式來完成的。在這裡我們可以看到了一個貸款評分的系統,這也是用AI來做的。

So Young Sohn:信用評級與專利保護中的AI技術概覽

當我們有了一個新的商業模式之後,有很多納稅人的錢都用到了這種技術的篩選模型當中去了。所以我在想,如果我跟我的贊助商說,我們有一個專利,假設這個專利是我的,但是我後來發現我們的關係可能變得不好了,因為某些原因我跟贊助商的關係變差了,我們就要籤一個協議,這樣的話所有項目以外的開發都是屬於我了。所以我個人會認為,贊助商可能會覺得這個協議對他們不利,他們就想要拿回他們的產權。我用了很大的力氣發展商業模型,設計有很多的激勵機制避免這些事情的發生。現在對於創業者來,之前的評估體系不是特別好,所以在這方面我們可以做更多的研究,比如說我們可以更好的去管理和保護專利。利用於韓國的國家基金會的研究資金,我花了六年的時間總結了一些研究方面的問題,主要是五個不同的方面,包括知識產權的創新,知識產權的使用,知識產權保護。我們要把這件事情做好的話就需要有一個非常好的機制,所以他們就做了各種各樣的專利保護的研究和調查,並且推出了一些新的IP的領域,也做了相關的研究。這個領域更多關注的是社會層面,所以我們可以看到專利的這些活動,很多時候都是有關於社會現象的,因此可以將這兩件事情聯繫起來,比如說跟社會問題、宗教和創新聯繫起來;另外可以跟當地的問題聯繫起來,比如說跟法律,還有跟全球戰略聯繫起來。這也是我目前的研究方向。

So Young Sohn:信用評級與專利保護中的AI技術概覽

這是一些專利的例子,它們來自於美國的知識產權專利辦公室,我們可以將不同的信息總結出來。例如我們可以看到專利的頭銜,它的發明者,更重要的是我們可以看到有很多不同的專利碼,它代表不同的技術。另外還有這些引用的一些信息,告訴我們這種新的技術有多複雜,它的複雜程度是多少,它對於過去技術的借鑑有多少。還有一個摘要和聲明。這就是一個信息量非常大的數據結構,包含了各種各樣技術的問題和技術的信息。我們並不是說要分析所有的專利,更重要的是我們要分析某些重要的專利。當然我們也要去定義哪些是重要的,我們要去分析和區別一些專利,比如說用於制定標準的一些專利,因為大家都需要標準,那麼這些跟標準有關的專利就非常重要了,它們的價值也非常高。我們做了一個分析,通過跟國際的專利委員會和專利庫聯合起來一起進行劃分的四個時間點,體現出了重要專利的時間框架。從而我們可以看到這些重要專利的引用密集度不斷的增加,還有隨著各種各樣的相關專利的出現,這些重要專利出現的可能性也相應地增加了。

So Young Sohn:信用評級與專利保護中的AI技術概覽

那麼篩選重要專利的方式是什麼呢?就是要判斷是否是一個三元的專利,所謂的三元專利,即是同樣的一個專利,它不僅得到了美國的許可,同樣也得到了歐洲和日本的許可,這就是一個三元專利。五年前大概有500萬的三元專利,組成了一個核心網絡,我們可以進行網絡的分析,比如說如何進行專利的組合以及產生新的專利。篩選出這些重要的專利,涉及到不同的層面,同時我們也可以預測哪些領域會出現新的專利。我們發現了在醫藥層面這個新的專利出現的頻率是比較多的,這就建立起了一個新的網絡分析。我們可以看到這個專利的網絡是什麼,推進的過程是什麼,以及它的安全體系是怎麼做的。

So Young Sohn:信用評級與專利保護中的AI技術概覽

通常來說,我們很難理解不同的單個節點,這些節點是要結合起來理解的,所以我們現在正在使用AI的方法,或者說用語義學的方法來進行分析。我們所做的事情,就是我們會把相應的專利結合和收集起來,進行文本分析。比如說我們會使用各種各樣的方式,包括各種各樣的分散式記憶和儲存方式,我們就能夠比較兩個專利集群之間的相似點和不同點到底在哪裡。除此之外,我們還可以預測一下新的專利會出現在哪裡,在汽車行業的話,如果你想要知道未來會如何發展,比如昨天我們談到了無人駕駛和自動駕駛的一些話題,接下來汽車行業可能會和電信行業進行結合,我們就會關注到這些結合的層面。

So Young Sohn:信用評級與專利保護中的AI技術概覽

同時我們也會一些鏈接預測的估計,還會有一些其他的估計和模型,包括語義分析等等。在這裡我們使用的是分散式分析以及機器學習算法這樣的方式。我們可以看到這些鏈接,如果左右對比話,就可以發現如果沒有用AI的話可能會丟失一些環節的聯繫。所以在接下來的三年當中,隨著越來越多的數據出現。我們也會有一些新的預測模型。另外我們也可以判斷一下哪些行業是更重要的,那些行業對於你來說是更具有價值的,我們可以將語義分析的方式應用到這裡,或者跟其他的方式結合起來。我們要找到新的方式,探索這些新的領域。

So Young Sohn:信用評級與專利保護中的AI技術概覽

這些是我團隊設計的一個深度學習的框架,包括卷積神經網絡或者是其他的一些人工智能的方式來處理專利或者說處理自然語言,把相關的信息跟專利的重要程度連接起來。作為一個研究者,或者作為一個工程師,對我來說,更加重要的是要去選擇數據,要有一個目標,如果沒有正確目標的話,不管做什麼事情,不管做什麼樣的訓練都不會得到任何的改進。那麼我們用什麼樣的方式來呈現最具價值的專利?有沒有更簡便的方式?

很多的信息分析他們都是通過“引用”的方式,如果這個專利被引用了很多次,那麼它就是重要的,或者說它們會覺得這個專利非常的可靠,就會花很多的錢去獲得這個專利。但是我們還是要先去定義我們使用這個專利的目標到底是什麼。

我的團隊曾獲得了韓國土地建築交通部的贊助,他們想要使用該團隊的大數據技術來提供服務,包括交通運輸、環境,這樣能夠更好更便利的生活。因此他們找到了一些特殊的大數據可以應用在交通、環境和民生上。舉個例子,比如說我們可以來設計大巴的路線,這是整個首爾的地圖,我們一共有484條路,大概會有6萬條道路的識別,也就是12.4萬米。我們選了個早高峰的例子,讓出租車的GPS記錄路徑,每個出租車的路徑都是可以有專門的路名,根據路名來定位出租車。我們可以發現在不同的路徑上對出租車的需求的變化,通過路徑的序列我們可以將這些結果可視化。

So Young Sohn:信用評級與專利保護中的AI技術概覽

這兩個圖,這是整個出租車的軌跡,在整個的早高峰,在右邊的這個圖又展示出租車的聚集狀態。根據出租車的需求量,我們可以給首爾分為25個區分配大巴路徑。我們還可以把這些路徑進行更為複雜合理的設計,比如收益最大化以及成本的控制等等。綠線是原來的大巴路徑,紅線是我們新增加的建議,通過我們AI的分析,所以我們不僅做了一站,我們也做了其他的站,新的路線更加的曲折一些,因為能夠反映出更多的出租車需求。

下一個可控的交通問題是共享單車的佈局,在首爾共享單車需求正在不斷上升,我們希望能夠預測自行車共享的程度,但是這個程度跟居民區的距離沒有直接關係。為了能夠呈現自行車的需求,要考慮每小時的需求、每天的需求、每月的需求以及環境因素帶來的影響,例如有沒有下雨,下雨的時候需求是不是會減少等等。為了解決這些問題,我們可以把它放在一個序隊當中,在每個圖表的網絡當中記錄每小時、每天、每週的需求,然後把它們充分連接起來,這樣才能夠預測合理的需求程度。最後我們把這些共享單車部署到地鐵站附近,這樣的佈局方式就比現有的科學多了。

So Young Sohn:信用評級與專利保護中的AI技術概覽

最後一個例子是關於環境方面的應用,比如我在酒店住18樓,通過窗外可以看到一些綠化過的屋頂,所以我們可以建議在首爾大都會的辦公室上面也選擇一些屋頂進行綠化,但是我們應該選擇哪些屋頂呢?考慮到我們的資源比較有限,所以必須要選擇一個較為合適的大樓。通過獲得特殊的經濟數據、二氧化碳排放的數據以及降雨的數據,我們基於這些信息,利用大數據的手段去選擇這些大樓,比如哪個大樓能夠更多地受益於天氣變化、抵抗洪水破壞、利用二氧化碳排放等等。此外還有一個約束就是要反映綠化覆蓋率,我們希望能夠最大化綠化覆蓋率。一個較為直觀的評價標準是我們希望選擇能夠吸引更多蜜蜂的大樓,因為如果一棟大樓的屋頂能夠養蜂,說明它的環境就越好。將這些因素考慮到一起,我們可以通過大數據分析最終選擇這些大樓的地點。

So Young Sohn:信用評級與專利保護中的AI技術概覽

最後,如果我們將金融技術、專利分析、大數據等技術結合在一起,就可以建立起RIS(地區創新系統),每個領域都需要一些新的技術創新,創新需要其他領域的一些技能,這樣就可以把這三個都結合在一起,從而使得這個地區得到更好地發展以及更好地管理。

So Young Sohn:信用評級與專利保護中的AI技術概覽

So Young Sohn:信用評級與專利保護中的AI技術概覽


分享到:


相關文章: