谷歌新推數據搜索,科學研究還爬樓麼?


谷歌新推數據搜索,科學研究還爬樓麼?


旨在整合全球互聯網信息的谷歌,其首要目標本來是林林總總的商業網站。但最近,它推出了一種新型的數據集搜索引擎,將服務目標延展到了科研社群。這就是屬於科研工作者等數據狂的黑科技——Google Dataset Search(谷歌數據集搜索)。

谷歌數據集搜索發起了一次數據搜索的革命,它讓人們能夠迅速獲取分散在全互聯網的各式數據集。無論是網站、數字圖書館還是專業數據庫,只要是存在於線上的共享數據集,就能夠被引擎找到。用戶鍵入搜索信息後,谷歌會分析比對相同數據集的不同版本,並儘可能地檢索有價值的相關信息。

實際上,這次革命的核心工具非常純粹,就是一個可以將各式數據集集中在一起加以描述檢索的開放標準(http://schema.org)。數據發佈者按照這個標準所定義的標籤框架,對發佈的數據內容進行標籤式的描述。定義的標籤包括髮布時間、發佈方、數據收集方式等等。而引擎隨後會將這些標籤信息編入索引,並與谷歌知識譜圖結合使用,從而使本來分佈零散的數據集成為一個能夠統一檢索的強大系統。


谷歌新推數據搜索,科學研究還爬樓麼?


Figure.1Google Dataset Search使用實例

谷歌新推數據搜索,科學研究還爬樓麼?


Figure.2Google Dataset Search使用實例

谷歌的人工智能科學家娜塔莎·諾伊(Natasha Noy)接受採訪時表示,創建數據集搜索的目標是將數以萬計的在線數據集統合展示,並非自行建立數據庫收集數據,她說:“我們只是希望這些數據能夠被人們輕鬆獲取,並不是想將其收集挪動到其他地方。“

目前,互聯網上的數據集資料分佈極其零散。不同的學科領域各自擁有自己的首選資源庫,各政府機構和地方當局更是如此。諾伊說:“科學家們當然知道能在哪些專業數據庫找到他們自己領域的數據,但他們有時想要的並不是這一類數據。而一旦他們將視野拓展到專業領域之外,數據搜尋就會變得十分困難。”

諾伊舉了一個她親歷親聞的例子,一位氣象學家在為即將開展的研究尋找海洋溫度的特定數據集,但怎麼也找不到。她沒有繼續追蹤,直到她在遇到了相關方面的同事,在同事的幫助下她才找到那個數據庫。然後她的研究工作才得以繼續。諾伊說:“雖然保存數據的地方算是很顯見,數據描述也寫得很清晰,但仍然很難被找到。”

該搜索引擎的初始版本主要包括來自ProPublica等新聞機構以及政府機構的數據和數據集。 但是,如果這項搜索服務最終流行起來,那麼隨著機構和科學家爭相開放數據的訪問權限,它所囊括的數據量肯定會呈現滾雪球式的成長。

而近年來,世界各地關於數據開放共享的倡議正在蓬勃發展,這將有助於數據集搜索引擎的實現。諾伊認為,在過去的幾年裡,可共享數據的存量已經爆炸,她將此歸功於科學文獻中數據的重要性在日益增長——因為期刊會要求作者將數據集發佈出來。而除此之外,美國政府和歐洲政府的法律法規也在進一步引導數據開放共享。

開放數據研究所(ODI)首席執行官Jeni Tennison表示,Google參與到開放數據行動中來,將更有利於這項運動獲得成功。數據集搜索一直是一個很困難的事情,希望谷歌能讓它變得更加容易。她進一步說,要創建一個像樣的搜索引擎,你需要知道如何構建對用戶友好的系統,並瞭解人們在鍵入某些短語時的真實所想。而谷歌對這些瞭如指掌。事實上,對於搜索引擎來說,最重要的是用戶所產生的行為數據,這才是促進引擎快速成長的活力源泉。所以,雖然搜索引擎賴以抓取數據集的元數據標籤是一個開放標準,任何競爭對手(如Bing或Yandex等)都可以使用它來構建自己的競爭服務,但谷歌從沒有喪失自己的真正優勢。Tennison也表示:“直觀地瞭解人們的搜索方式很重要,譬如,他們在檢索時會使用什麼樣的術語,又會如何表述這些術語。從瞭解人們如何搜索數據,並據此進一步推進數據開放的角度說,如果谷歌能夠開放自己的用戶行為數據,將會大有裨益。”

總而言之,更多的數據開放共享是值得期待的潮流,而谷歌無疑又一次扛起了領頭的大旗。當然,在谷歌完全迴歸中國之前,我們距離便利還會多一個梯子的距離。


谷歌新推數據搜索,科學研究還爬樓麼?


點擊https://www.theverge.com/2018/9/5/17822562/google-dataset-search-service-scholar-scientific-journal-open-data-access看原文。


分享到:


相關文章: