斯坦福大學開源用於網絡神經百萬量級OGB基準測試的數據集

2019-12-24 10:13:00 圖像算法

“ 最近，斯坦福大學的Jure Leskovec教授在NeurlPS 2019大會上發表演講，宣佈了開源開放圖形基準，這是朝著圖形神經網絡建模統一基準邁出的重要一步。”

圖神經網絡是近年來迅速發展起來的機器學習的一個分支。通過將非結構化數據轉換成結構化節點和邊的圖，然後利用圖神經網絡進行學習，往往可以取得更好的效果。

然而，圖神經網絡發展至今，還沒有公認的基準數據集。許多論文中使用的方法通常是在缺少節點和邊緣特徵的較小數據集上執行的。因此，很難說在這些數據集上獲得的模型性能是最好的，而且不一定可靠，這阻礙了進一步的發展。

在NeurlPS 2019的圖形演示學習講座中，Jure Leskovec宣佈了圖形神經網絡的開放性能基準數據集OGB（開放圖形基準）。通過這個數據集，可以更好地評估模型性能等指標。

項目地址：http://ogb.stanford.edu
圖為學習演講集：https://slideslive.com/38921872/graph-representation-learning-3

演講嘉賓是斯坦福大學計算機科學副教授Jure Leskovec。

Jure Leskovec前段時間在清華大學做了一場演講，相關PPT可以公總號之前發的文章裡面搜索下載。

值得注意的是，OGB數據集還支持兩種常用的圖形神經網絡框架PYG和DGL。DGL項目的發起人之一、AWS 上海 AI 研究院院長、上海紐約大學張教授說：“在現階段，我認為OGB最大的作用是推動學術界走出玩具型數據集。一個統一的、更加複雜的、更加多樣化的數據集將使研究者重新聚集力量，雖然會存在模型過度擬合標準數據集的弊端，但重要的是要提高模型和算法的性能，提高DGL等平臺的能力效果。”

張教授說，開放式圖形基準測試是圖形神經網絡非常必要和必要的一步。

圖神經網絡的第一個統一開放基準

Jure-Leskovec在演講中說，目前常用的節點分類數據集也有2k到3k的節點和4k到5k的邊緣，這太小了。我們迫切需要一個多樣的、具有挑戰性的、同時非常接近實際業務的數據基準。

開放圖基準測試就是在這種背景下提出的。它包括各種圖形數據、用於加載和處理圖形數據的代碼庫以及用於測量圖形模型的代碼庫。在整個實驗過程中，研究者只需關注核心模型的構建，其餘的可以交給開放圖基準。

以下是Jure Leskovec在NeurIPS研討會上介紹的OGB：

OGB可以支持PyG和DGL等主流的圖形神經網絡框架，以及新穎的數據集分割。在圖神經網絡中，數據集的分割尤為重要，這與一般的機器學習任務有很大的不同。

隨著研究的發展，OGB將繼續滾動。目前它在視覺領域與CIFAR相似。張教授說：“OGB數據在異構圖中所佔的比例太小，任務僅限於點和邊。圖的分類、對圖的推理、時間的重要維數等都沒有考慮。

什麼是OGB數據

畢竟，它是一個基準數據集，而OGB的數據自然是最高優先級。根據官方網站提供的信息，OGB的數據根據任務要求分為以下幾類：

節點預測
連接預測（邊緣）預測；
圖形預測

以下是每個任務中包含的數據集：

節點預測

odbn蛋白質：蛋白質數據集，在蛋白質之間有一個關聯網絡，包括多個有機體；
odbn維基：維基百科數據形成的網絡；
ogbn產品：亞馬遜客戶同時購買的產品網絡。

目前包含在此基準中的數據集

從數據集的類型來看，它涵蓋了需要圖形表示學習的幾個現有領域：生物/分子化學、自然語言處理和產品推薦系統網絡。此外，這些圖中的數據量也非常大。例如，ogbn wiki的數據量已經達到了數百萬個層次（節點），最小的ogbn蛋白是100K，這比以前的許多圖形數據都要大得多，因此可以更好地評價模型的性能。

連接預測

在連接預測中有更多的數據集，包括：

藥物相互作用網絡；

ogbi-ddi：人類生物醫學知識圖譜；
ogbi-ppa：蛋白質之間的關係網絡；
ogbi評論：亞馬遜用戶項目評論數據集；
ogbi引文：微軟學術引文網絡圖。

與節點數據集相比，連接預測數據集更為豐富，類型也更為多樣。

圖形預測

OGB還提供用於預測圖形的任務數據集，這些數據集包括：
ogbg-mol：從分子網絡預測分子；
ogbg-code：一種語法樹結構的代碼段網絡；
ogbg-ppi：蛋白質間的相互作用網絡；

總的來說，有許多數據集偏向於醫學和生物學。張教授認為，這可能有兩個原因。首先，項目負責人Jure和其他人在這方面做了很多工作，因此推廣這些數據集的開源是合乎邏輯的。另一個原因是藥物分子的圖形數據相對乾淨，噪聲較小。藥物的結構是三維的，可能需要更復雜和更深入的模型來解決相關問題。

對於未來會增加哪些數據集，張教授認為，目前關於異構圖的數據還不夠，現實中很多數據都是用異構圖來表示的。然而，OGB的作用仍然顯而易見。它可以提高開源圖形神經網絡框架的能力，促進開源社區專注於解決實際問題。

此外，OGB數據集在財務和信用報告領域缺乏數據集，特別是在反欺詐領域。這可能是反欺詐數據集脫敏後特徵過度丟失的問題造成的，但缺陷並沒有被掩蓋。OGB無疑幫助圖形神經網絡擺脫了所謂的“玩具模型”階段，開始逐步進入工業應用。

數據加載和評估

OGB的大量數據需要特殊的代碼來提取。據報道，所有開源數據集都可以用特定的代碼進行提取和加載。使用過程類似於深度學習框架中的數據加載器。但在使用之前，我們只需要使用“pip install ogb”來完成安裝。目前，OGB庫主要依賴於常用的建模庫，如PyTorch、NumPy和Scikit Learn。當然，圖形神經網絡庫也可以自由選擇DGL或PyTorch幾何。

DGL:https://github.com/dmlc/DGL

PyG:https://github.com/rusty1s/pytorch_geometric

現在以節點預測為例，OGB支持PYG圖和DGL圖來表示學習框架中的數據加載方法。加載代碼如下：

PYG

<code>from ogb.nodeproppred.dataset_pyg import PygNodePropPredDatasetdataset = PygNodePropPredDataset(name = d_name) num_tasks = dataset.num_tasks # obtaining number of prediction tasks in a datasetsplitted_idx = dataset.get_idx_split()train_idx, valid_idx, test_idx = splitted_idx["train"], splitted_idx["valid"], splitted_idx["test"]graph = dataset[0] # pyg graph object/<code>

DGL

<code>from ogb.nodeproppred.dataset_dgl import DglNodePropPredDatasetdataset = DglNodePropPredDataset(name = d_name)num_tasks = dataset.num_tasks # obtaining number of prediction tasks in a datasetsplitted_idx = dataset.get_idx_split()train_idx, valid_idx, test_idx = splitted_idx["train"], splitted_idx["valid"], splitted_idx["test"]graph, label = dataset[0] # graph: dgl graph object, label: torch tensor of shape (num_nodes, num_tasks)/<code>

代碼非常簡單，易於使用。”“D_name”可以替換為任何數據集的名稱。

同時，該項目提供了一些示例代碼來評估每個數據集。具體如下：

<code>from ogb.nodeproppred import Evaluatorevaluator = Evaluator(name = d_name) print(evaluator.expected_input_format) print(evaluator.expected_output_format)/<code>

在此，用戶可以瞭解此數據集的輸入和輸出的特定格式。

然後，用戶可以將輸入字典傳遞給計算器，以查看實際性能：

<code># In most cases, input_dict is# input_dict = {"y_true": y_true, "y_pred": y_pred} result_dict = evaluator.eval(input_dict)/<code>

據悉，OGB已經正式指定上海AWS人工智能研究院的主要開源框架DGL作為數據導入平臺之一。目前，DGL與PyTorch和MxNet作為後端引擎兼容，TensorFlow也在開發中。事實上，DGL已經做了很長一段時間的異構圖形和可伸縮性工作，因此下一步可能是在相關領域將新技術與OGB結合起來，促進開源框架的發展。

張教授說，“DGL目前在醫藥領域有一個很好的模型庫。使用OGB數據集，之後應該進一步改進模型庫的迭代。”

為什麼分割圖數據是個問題？

在演講中，Jure Leskovec特別強調了OGB所採用的數據劃分方法，這種方法可以建立一個更加合理的評估方案。他說，看起來隨機數據分割並不令人擔心，但當我們將數據隨機分成訓練、驗證和測試集時，很可能預測的準確率看起來非常好。但事實上，隨機分割模型驗證的效果被高估了。

舉了例子，比如自然科學研究人員，他們每次收集的數據絕對不是重複的，他們每次都需要做一系列新的實驗，所以模型每次都是在分佈之外做預測。這就要求數據分割方法必須非常合理，並且模型的泛化能力必須足夠強，以處理這些分佈之外的數據預測。

在談到數據分割時，張教授說：“在與製藥行業的研究人員討論時，我們被提醒，在訓練集上進行隨機分割是不可取的，因為分子圖樣本具有結構性質，並且是獨立且均勻分佈的假設將有一個對模型泛化能力的影響，我認為其他領域也會出現同樣的問題。”

為了處理這種情況，OGB採用的數據分區方法也非常有趣。例如，對於分子圖數據集，分割方法可以是分子支架。具體來說，我們可以利用分子子結構進行聚類，然後利用常用的聚類作為訓練集，再利用其他稀有的聚類作為驗證和測試。準備好了。這種處理方法將迫使神經網絡獲得更高的泛化能力，否則將無法預測具有不同子結構的分子。

按物種或代碼基劃分是同樣的原因。實際上，這些數據部門試圖將一小部分作為一個整體進行測試。

最後，Jure-Leskovec還表示，他們不僅將OGB視為一種廣泛使用的研究資源，而且還將其視為各種新任務或新模型的真實測試環境。在不久的將來，OGB將進一步支持更多的圖形數據集、更多的圖形建模任務，同時提供一個開放的導板。有了這樣的導板，我們可以更直觀地評估各種圖形神經網絡的特性，並瞭解它們在哪些情況下可以表現最好。

分享到:

閱讀更多 圖像算法 的文章

關鍵字: 人工智能 PowerP 算法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"