Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

圓栗子 發自 凹非寺 量子位 出品 | 公眾號 QbitAI

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

谷歌數據集搜索工具,上線了。

在發佈這個消息的博客裡,團隊大概表達了這樣的意思:

現在啊,許多領域的科學家,每天呼吸的不是空氣,是數據集。沒有數據集,他們就活不下去。

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

唯有數據集,能救命

不過,數據集分散在世界的各個角落,口口相傳是最常用的傳播途徑。

谷歌想讓搜索數據集,能像在Google Scholar上搜索論文那樣容易。

如此,便有了Google Dataset Search

貓喜歡什麼口味的冰淇淋?

這樣一來,不論是哪裡發佈的數據集,谷歌一下就出來了。

使用方法都有,你又少了一個不好好訓練網絡的理由。

所以,一起來試一下吧。在下是按衣食住行四類,分別搜索的。

穿著的部分,搜的是胖次pants

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?


然後,就出現了墨西哥、秘魯、哥倫比亞,各個國家關於褲子的數據集。

比如,從棉褲的視角,可看墨西哥的經濟狀況。

吃的東西,搜了ice cream

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

最吸引人的,當然不是各國的冰淇淋生產力。

貓在哪個年紀,喜歡哪種口味的冰淇淋,果然有 (mei) 些 (sha) 研究價值。

就看北京房價吧,搜索beijing house price

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

第一條結果來自Kaggle,是鏈家2011到2017年的數據。

這數據集的殺傷力,應該還是很大的。有興趣的大家,可以自行觀察。

傳送門:https://www.kaggle.com/ruiqurm/lianjia

感覺出行服務、共享單車,也不會有什麼驚喜。就搜了個horse

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

當然,搜出香港賽馬的數據,也並不驚喜。

第二條,是關注馬體健康狀況的疝氣

數據。曾經有項研究,用疝氣預測馬的死亡概率。

數據集裡,也有大千世界,各位不妨自己去搜一搜。

數據集搜索,不是一天建成的

為了搭好這個搜索工具,谷歌團隊給提供數據集的人們,準備了一份充滿關懷的指南。

這樣一來,大家對貢獻的數據集,就能有個統一的描述方式:

· 誰創建了數據集?· 什麼時候發佈的?· 數據怎樣收集的?· 使用方法是什麼?……

信息一項一項填好,搜索工具才能更友好。

描述的時候,只要依照Schema.org的標準詞彙表,就可以了。

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?


谷歌把信息收集起來之後,就會去分析,一個數據集的不同版本,可能在哪些地方。

除此之外,還要看看有哪些論文 (或者其他出版物) ,提到過這個數據集。

谷歌團隊說,這一版已經支持多種語言。更多語言的支持也已經在路上了。

比如,想要自我打擊的話,現在可以直接搜索“中國房價”。

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

普通谷歌搜索,也能搜數據表格

谷歌在數據集上做過的事情,遠不止Dataset Search這個工具這麼簡單。

除此之外,團隊也為人類最常用的谷歌搜索,加入了表格數據搜索的能力。

Google數據集搜索神器上線:貓喜歡什麼口味的冰淇淋?

△ 進化前 vs 進化後 (右)

就像這樣,已經可以搜索出谷歌基金會 (Google Foundation) 2014的總開支。

不過谷歌說,現在的這些努力結果,還是不夠好。

他們希望,未來不論是科研領域、政府部門、新聞機構,還是任何各行各業,都有源源不斷的數據,能從谷歌的平臺上搜索出來。

意思就是,能提供數據集的大家,快到碗裡來

Dataset Search傳送門:

https://toolbox.google.com/datasetsearch

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: