基於圖形的RDF數據索引方法

2020-04-05 12:01:53 RoboticAI

論文英文標題：Graph-based Indexing Method for Searching in RDF Data

論文中譯標題：基於圖形的RDF數據索引方法

來源：2019 International Conference on Advanced Information Technologies (ICAIT)

作者：Khin Myat Kyu, Aung Nway Oo

編譯：任騰龍，孫靜正，劉博藝，數據挖掘組

摘要

RDF是語義Web的基於圖形的通用數據模型，SPARQL是用於訪問RDF數據的查詢語言。隨著RDF數據大小的增加，回答複雜的SPARQL查詢非常昂貴，因為需要多個自聯接進行處理。在這項工作中，我們考慮基於RDF數據的圖結構的索引和搜索方法，以減少聯接操作的數量。它可以加快查詢的性能，並支持鏈和星形SPARQL查詢。通過考慮每個頂點周圍邊緣的結構，從RDF數據圖中提取出鏈狀和星形子圖。獲得的子圖存儲為索引，稱為CS-index。為了執行查詢，首先基於所有三元模式的公共聯接變量將查詢分解為查詢子圖。通過在CS-index中而不是在整個數據圖中搜索查詢子圖來檢索查詢結果。所提出的索引結構和搜索方法傾向於通過減少聯接數來加快查詢響應時間。我們對LUBM數據集進行了一項性能研究，發現我們的方法比比賽優勝幾個數量級。

核心內容

創新點：這篇工作主要從 RDF 圖結構的角度提出減少 JOIN 次數的方法，從而提高SPARQL 查詢效率。提出了一種新的索引結構 CS-index，該索引結構主要針對鏈狀和星形查詢，根據所有三元組模式的公共變量將查詢分解為對應查詢子圖，查詢時通過對應子圖進行查詢，而無需對整個圖進行查詢。最後提出對應的搜索算法主要通過減少 JOIN 次數來加快查詢響應時間。

科學問題：針對複雜查詢，現如今的研究大多不能有效解決多個三元組查詢帶來的多個 JOIN 問題，這些問題會嚴重影響查詢效率。一般採取的措施主要為減少 JOIN 次數、較少中間結果數、優化查詢順序。本篇工作主要從圖索引結構和搜索算法方面入手，通過減少連接操作數量來提高系統性能。

解決方法：本工作暫時只支持鏈狀和星型查詢，提出一種新的索引結構-CS-index，具體地，通過收集從 RDF 圖中頂點吸收邊和發射變的頂點和邊來捕獲 RDF 實體之間的數據關係。定義鏈狀子圖，和星型子圖對應不同類型的查詢。最後對索引結構中實體的度進行升序排序，來減少查詢搜索時對應的數據搜索空間。數據搜索層面，通過提出一種搜索算法來優化查詢性能。

主要試驗情況

1. 建立 CS-index 索引

解析 RDF 圖數據，將數據解析為 S，P，O 形式。為節省存儲開銷，採取整數編碼將每個主謂賓的部分編碼為唯一的整數值。其中定義兩個字典分別存儲節點和謂詞-節點字典和謂詞字典，並以鍵值對（ID，value）的形式表示，其中 ID 為整數值，value 表示 URI 和文字部分。鏈狀和星型子圖提取，因為 CS-index 索引的建立首先提取鏈和星型子圖，因此首先定義並提取相應的子圖。

鏈狀子圖：具有至少一個從目標頂點傳入或傳出的子圖定義為鏈狀子圖

星型子圖：具有多個傳入或傳出邊緣的子圖定義為星型子圖。

具體的索引偽代碼如下圖所示：

第 1-2 行：輸入：RDF 數據集，定義的入度，出度變量，以及入度-邊，出度-邊的變量。第 3 行：該算法輸出 CS-index 索引，頂點字典，謂詞字典。第 5-11 行：如果變量 v 為 subject 或者 object，則該變量為頂點，以鍵值對的形式存入頂點字典，如果變量 v 為 predicate，則該變量為謂語或者邊，則以鍵值對的形式存入謂語字典中。第 12-26 行：如果變量 v 為 subject，則該頂點具有出度，即有發射邊，執行子圖提取和度的計算；如果變量 v 為 object，則該頂點具有入度，具有吸收邊。根據頂點與邊的關係提取鏈狀和星型子圖。第 28-30：建立 CS-index 索引結構。第 31 行：對索引結構進行升序排序。

完成所有 RDF 三元組的處理後，提取子圖作為 CS-index，並存儲在三列表中（傳出邊緣，傳入邊緣，Vi），事例如下圖所示：

2. 查詢搜索算法

在查詢處理階段，查詢處理器找到大多數 triple pattern 中都包含的連接變量，並根據連接變量對 triple pattern 進行分區，每個共同的變量都是用兩個字典進行編碼，然後對每個公共連接的變量，計算出度，入度，輸出邊緣，輸入邊緣。查詢搜索算法偽代碼如下圖所示：

第 1-2 行：算法輸入：SPARQL 查詢語句，CS-index,兩個字典算法輸出：查詢結果第 3-8 行：查詢處理器找到大多數 triple pattern 中都包含的連接變量，並根據連接變量對 triple pattern 進行分區。匹配階段：第 1-4 行：將輸出邊緣對和輸入邊緣與 CS 索引中的輸出邊緣對和輸入邊緣進行匹配。最後處理：當 CS-index 中找到匹配對時，需要通過與字典的映射將所有頂點 ID 解析為原始字符串，且系統以人類可讀的格式輸出最終結果。

3. 實驗部分

實驗數據集為：LUBM10（一百萬個三元子），LUBM20（300 萬個三元組）查詢語句：14 個基準查詢，其中 9 個為測試查詢，比較本文方法和 axonDB 之間的執行時間。Q13 為鏈狀查詢，Q6，Q14 時具有一個 triple pattern 的查詢，其餘皆為星型查詢。實驗環境：1.9GHz，4GB RAM 和 64 位 Ubuntu 14.04 LTS 的 PC，測試查詢運行10 次，獲得平均響應時間，每個查詢處理的最大時間間隔限制為 5min。

1.實驗結果分析：

首先對比索引建立的時間：本文提出的方法考慮頂點周圍的傳出和傳入邊緣的優勢，因此索引建立的時間較短。

2. 查詢響應時間對比:

實驗結果顯示兩個數據集在 9 個測試查詢的運行時間，實驗結果表明，即使輸入數據集很大，但是該方法仍能夠有效提高兩種查詢的響應時間，同時可以處理具有一個查詢語句的簡單查詢。

為了進行對比實驗，使用 LUBM20 數據集和 axonDB 進行了對比評測本系統性能。結果顯示本文提出的方法對所有查詢都具有很好的性能，而 axonDB 在 Q（1，3，4，5，10，11）中未能得到很好的處理。

該圖更能清楚的看到評估結果，在 LUBM20 數據上針對三個分別具有不同的查詢進行了其他實驗。通過實驗結果表明，本文方法可以處理響應時間稍有不同的所有查詢，即使查詢語句數量增加到一倍，但響應時間幾乎不變，但是 axonDB 卻不能得到更好的效果。

分析：本文提出新穎的索引結構較少 JOIN 次數過多帶來的性能提升較慢的現象，但本文具有一定的侷限性，只能處理較少類型的查詢，且沒有查詢優化環節。

Abstract

RDF is a generic graph-based data model of Semantic Web, and SPARQL is a query language for accessing the RDF data. With the increasing size of RDF data, answering complex SPARQL queries is expensive because multiple self-joins are needed to process.In this work, we consider an indexing and searching approach based on the graph structure of RDF data to reduce the number of join operations. It can speed up the queries’ performance and support chain and star shaped SPARQL query. Chain and star shaped subgraphs are extracted from the RDF data graph by considering the structure of edges around each vertex. The subgraphs obtained are stored as the index, named as CS-index. To execute a query, the query is firstly decomposed into query subgraphs based on the common join variable of its all triple patterns. And the query results are retrieved by searching the query subgraphs in CS-index, not in the whole data graph. The proposed index structure and searching approach tend to speed up the query response time by reducing the number of joins. We conduct a performance study on LUBM data set and see that our method outperforms the contest by a few orders of magnitude.

鏈接：https://pan.baidu.com/s/17StLla5_ejWA45EXwGAC4w

提取碼：xjk9

分享到:

閱讀更多 RoboticAI 的文章

關鍵字: 圖形基於索引

你會用PowerQuery統計字符串中各類字符出現的次數嗎？

那些年被面試官懟的 MySQL 索引

Truncate用法詳解

MySQL面試題-索引

史上最全MySQL剖析：優化+存儲+查詢+索引+複製+可擴展+高可用

STL中的Set和Map

三月最新螞蟻團隊技術4面：線程池+索引+分佈式鎖+中間件+項目等

js 字符串操作函數

純乾貨丨什麼是 MySQL 索引？一文讀懂！

什麼是 MySQL 索引?

高可用+存儲+索引+查詢+複製+可擴展+優化：全網最全的MySQL剖析

圖解 MySQL 索引：B-樹、B+樹

MySQL的萬字總結（緩存，索引，Explain，事務，redo日誌等）

ES6語法快速上手四

數據分析第一章3-列表

03.07 數據分析第一章3-列表

圖解MySQL索引(上)—MySQL中有“8種”索引？

我這麼久，才弄清楚mysql的觸發器、視圖、索引，受益匪淺(SSS)

我這麼久，才弄清楚mysql的觸發器、視圖、索引，受益匪淺

02.29 TP5.1的系統發生錯誤：未定義數組索引

RDF 和 SPARQL 初探：以維基數據為例

優化OR條件

01.07 MySQL 核心三劍客——索引、鎖、事務

數據庫：存儲引擎+InnoDB+TokuDB+ MyIASM +Memory+索引+三範式等

敲黑板！你（可能）不知道的4個重要Numpy函數

11.06 我用SU參數化神器出模型，室友懷疑我揹著他偷偷學Rhino

阿里天貓團隊5面Java面經：索引+高併發+分庫分表+線程池

從入門到熟悉，一步一步帶你瞭解 MySQL 中的「索引」和「鎖」

程序員筆記：索引 MyISAM 和 InnoDB 的區別

記錄ES基本操作（增、刪、改、查）

10分鐘掌握數據類型、索引、查詢的MySQL優化技巧

圖片的導出，VBA代碼如何導出工作表中的所有圖片

MySQL知識體系——索引

從架構，建表，查詢，索引...全方位講解SQL優化

MySql 三大知識點，索引、鎖、事務，原理分析

MySql 三大知識點——索引、鎖、事務

linux監控網絡實時流量，圖形、簡潔、直觀

最全MySQL面試60題（含答案）：存儲引擎+數據庫鎖+索引+SQL優化等

Numpy 索引

詳解 oracle 索引

實戰應用：Mysql必知6題，並有答案解析（含行鎖、索引、優化等）

「每日一面」初中級PHP面試基礎匯總

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"