圓栗子 發自 凹非寺 量子位 出品 | 公眾號 QbitAI
谷歌數據集搜索工具,上線了。
在發佈這個消息的博客裡,團隊大概表達了這樣的意思:
現在啊,許多領域的科學家,每天呼吸的不是空氣,是數據集。沒有數據集,他們就活不下去。
△ 唯有數據集,能救命
不過,數據集分散在世界的各個角落,口口相傳是最常用的傳播途徑。
谷歌想讓搜索數據集,能像在Google Scholar上搜索論文那樣容易。
如此,便有了Google Dataset Search。
貓喜歡什麼口味的冰淇淋?
這樣一來,不論是哪裡發佈的數據集,谷歌一下就出來了。
連使用方法都有,你又少了一個不好好訓練網絡的理由。
所以,一起來試一下吧。在下是按衣食住行四類,分別搜索的。
衣
穿著的部分,搜的是胖次pants:
然後,就出現了墨西哥、秘魯、哥倫比亞,各個國家關於褲子的數據集。
比如,從棉褲的視角,可看墨西哥的經濟狀況。
食
吃的東西,搜了ice cream:
最吸引人的,當然不是各國的冰淇淋生產力。
貓在哪個年紀,喜歡哪種口味的冰淇淋,果然有 (mei) 些 (sha) 研究價值。
住
就看北京房價吧,搜索beijing house price:
第一條結果來自Kaggle,是鏈家2011到2017年的數據。
這數據集的殺傷力,應該還是很大的。有興趣的大家,可以自行觀察。
傳送門:https://www.kaggle.com/ruiqurm/lianjia
行
感覺出行服務、共享單車,也不會有什麼驚喜。就搜了個horse:
當然,搜出香港賽馬的數據,也並不驚喜。
第二條,是關注馬體健康狀況的疝氣 數據。曾經有項研究,用疝氣預測馬的死亡概率。
數據集裡,也有大千世界,各位不妨自己去搜一搜。
數據集搜索,不是一天建成的
為了搭好這個搜索工具,谷歌團隊給提供數據集的人們,準備了一份充滿關懷的指南。
這樣一來,大家對貢獻的數據集,就能有個統一的描述方式:
· 誰創建了數據集?· 什麼時候發佈的?· 數據怎樣收集的?· 使用方法是什麼?……
信息一項一項填好,搜索工具才能更友好。
描述的時候,只要依照Schema.org的標準詞彙表,就可以了。
谷歌把信息收集起來之後,就會去分析,一個數據集的不同版本,可能在哪些地方。
除此之外,還要看看有哪些論文 (或者其他出版物) ,提到過這個數據集。
谷歌團隊說,這一版已經支持多種語言。更多語言的支持也已經在路上了。
比如,想要自我打擊的話,現在可以直接搜索“中國房價”。
普通谷歌搜索,也能搜數據表格
谷歌在數據集上做過的事情,遠不止Dataset Search這個工具這麼簡單。
除此之外,團隊也為人類最常用的谷歌搜索,加入了表格數據搜索的能力。
就像這樣,已經可以搜索出谷歌基金會 (Google Foundation) 2014的總開支。
不過谷歌說,現在的這些努力結果,還是不夠好。
他們希望,未來不論是科研領域、政府部門、新聞機構,還是任何各行各業,都有源源不斷的數據,能從谷歌的平臺上搜索出來。
意思就是,能提供數據集的大家,快到碗裡來。
Dataset Search傳送門:
https://toolbox.google.com/datasetsearch
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
閱讀更多 量子位 的文章