圖數據庫 Nebula Graph TTL 特性

2020-03-25 10:39:33 NebulaGraph

導讀

身處在現在這個大數據時代，我們處理的數據量需以 TB、PB, 甚至 EB 來計算，怎麼處理龐大的數據集是從事數據庫領域人員的共同問題。解決這個問題的核心在於，數據庫中存儲的數據是否都是有效的、有用的數據，因此如何提高數據中有效數據的利用率、將無效的過期數據清洗掉，便成了數據庫領域的一個熱點話題。在本文中我們將著重講述如何在數據庫中處理過期數據這一問題。

在數據庫中清洗過期數據的方式多種多樣，比如存儲過程、事件等等。在這裡筆者舉個例子來簡要說明 DBA 經常使用的存儲過程 + 事件來清理過期數據的過程。

存儲過程 + 事件清洗數據

存儲過程（procedure）

存儲過程是由一條或多條 SQL 語句組成的集合，當對數據庫進行一系列的讀寫操作時，存儲過程可將這些複雜的操作封裝成一個代碼塊以便重複使用，大大減少了數據庫開發人員的工作量。通常存儲過程編譯一次，可以執行多次，因此也大大的提高了效率。

存儲過程有以下優點：

簡化操作，將重複性很高的一些操作，封裝到一個存儲過程中，簡化了對這些 SQL 的調用
批量處理，SQL + 循環，減少流量，也就是 “跑批”
統一接口，確保數據的安全
一次編譯多次執行，提高了效率。

以 MySQL 為例，假如要刪除數據的表結構如下：

<code>mysql> SHOW CREATE TABLE person;
+--------+---------------------------------------------------------------------------------------------------------------------------------+
| Table  | Create Table                                                                                                                    |
+--------+---------------------------------------------------------------------------------------------------------------------------------+
| person | CREATE TABLE `person` (
  `age` int(11) DEFAULT NULL,
  `inserttime` datetime DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |
+--------+---------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)
/<code>

創建一個名為 person 的表，其中 inserttime 字段為 datetime 類型，我們用

inserttime 字段存儲數據的生成時間。

創建一個刪除指定表數據的存儲過程，如下：

<code>mysql> delimiter //

mysql> CREATE PROCEDURE del_data(IN `date_inter` int)
    -> BEGIN
    ->   DELETE FROM person WHERE inserttime < date_sub(curdate(), interval date_inter day);
    -> END //

mysql> delimiter ;
/<code>

創建一個名為 del_data 的存儲過程，參數 date_inter 指定要刪除的數據距離當前時間的天數。當表 person 的 inserttime 字段值（datetime 類型）加上參數 date_inter 天小於當前時間，則認為數據過期，將過期的數據刪除。

事件（event）

事件是在相應的時刻調用的過程式數據庫對象。一個事件可調用一次，也可週期性的啟動，它由一個特定的線程來管理，也就是所謂的 “事件調度器”。事件和觸發器類似，都是在某些事情發生的時候啟動。當數據庫上啟動一條語句的時候，觸發器就啟動了，而事件是根據調度事件來啟動的。由於它們彼此相似，所以事件也稱為臨時性觸發器。事件調度器可以精確到每秒鐘執行一個任務。

如下創建一個事件，週期性的在某個時刻調用存儲過程，來進行清理數據。

<code>mysql> CREATE EVENT del_event  
    ->     ON SCHEDULE 
    ->     EVERY 1 DAY 
    ->     STARTS '2020-03-20 12:00:00'
    ->     ON COMPLETION PRESERVE ENABLE
    ->     DO CALL del_data(1);
/<code>

創建一個名為 del_event 的事件，該事件從 2020-03-20 開始，每天的 12:00:00 執行存儲過程 del_data(1)。

然後執行：

<code>mysql> SET global event_scheduler = 1;
/<code>

打開事件。這樣事件 del_event 就會在指定的時間自動在後臺執行。通過上述的存儲過程 del_data 和事件 del_event，來達到定時自動刪除過期數據的目的。

TTL（Time To Live）清洗數據

通過上述存儲過程和事件的組合可以定時清理數據庫中的過期數據。圖數據庫 Nebula Graph 提供了更加簡單高效的方式--使用 TTL 的方式來自動清洗過期數據。

使用 TTL 方式自動清洗過期數據的好處如下：

簡單方便
通過數據庫系統內部邏輯進行處理，安全可靠
數據庫會根據自身的狀態自動判斷是否需要處理，如果需要處理，將在後臺自動進行處理，無需人工干預。

TTL 簡介

TTL，全稱 Time To Live，用來指定數據的生命週期，數據時效到期後這條數據會被自動刪除。在圖數據庫 Nebula Graph 中，我們實現 TTL 功能，用戶設置好數據的存活時間後，在預定時間內系統會自動從數據庫中刪除過期的點或者邊。

在 TTL 中，過期數據會在下次 compaction 時被刪除，在下次 compaction 之前，query 會過濾掉過期的點和邊。

圖數據庫 Nebula Graph 的 TTL 功能需 ttl_col 和 ttl_duration 兩個字段一起使用，到期閾值是 ttl_col 指定的屬性對應的值加上 ttl_duration 設置的秒數。其中 ttl_col 指定的字段的類型應為 integer 或 timestamp，ttl_duration 的計量單位為秒。

TTL 讀過濾

針對 tag / edge，Nebula Graph 在 TTL 中將讀數據過濾邏輯下推到 storage 層進行處理。在 storage 層，首先獲取該 tag / edge 的 TTL 信息，然後依次遍歷每個頂點或邊，取出 ttl_col 字段值，根據 ttl_duration 的值加上 ttl_col 列字段值，跟當前時間的時間戳進行比較，判斷數據是否過期，過期的數據將被忽略。

TTL compaction

RocksDB 文件組織方式

圖數據庫 Nebula Graph 底層存儲使用的是 RocksDB，RocksDB 在磁盤上的文件是分為多層的，默認是 7 層，如下圖所示：

SST 文件在磁盤上的組織方式

Level 0 層包含的文件，是由內存中的 Memtable flush 到磁盤，生成的 SST 文件，單個文件內部按 key 有序排列，文件之間無序。其它 Level 上的多個文件之間都是按照 key 有序排列，並且文件內也有序，如下圖所示：

非 Level 0 層的文件數據劃分

RocksDB compaction 原理

RocksDB 是基於 LSM 實現，但 LSM 並不是一個具體的數據結構，而是一種數據結構的概念和設計思想，具體細節參考LSM 論文。而 LSM 中最重要部分就是 compaction，由於數據文件採用 Append only 方式寫入，而對於過期的數據，重複的、已刪除的數據，需要通過 compaction 進行逐步的清理。

RocksDB compaction 邏輯

我們採用的 RocksDB 的 compaction 策略為 Level compaction。當數據寫到 RocksDB 時，會先將數據寫入到一個 Memtable 中，當一個 Memtable 寫滿之後，就會變成 Immutable 的 Memtable。RocksDB 在後臺通過一個 flush 線程將這個 Memtable flush 到磁盤，生成一個 Sorted String Table (SST) 文件，放在 Level 0 層。當 Level 0 層的 SST 文件個數超過閾值之後，就會與 Level 1 層進行 compaction。通常必須將 Level 0 的所有文件 compaction 到 Level 1 中，因為 Level 0 的文件的 key 是有交疊的。

Level 0 與 Level 1 的 compaction 如下：

Level 0 與 Level 1 的 compaction

其他 Level 的 compaction 規則一樣，以 Level 1 與 Level 2 的 compaction 為例進行說明，如下所示：

Level 1 與 Level 2 的 compaction

當 Level 0 compaction 完成後，Level 1 的文件總大小或者文件數量可能會超過閾值，觸發 Level 1 與 Level 2 的 compaction。從 Level 1 層至少選擇一個文件 compaction 到 Level 2 的 key 重疊的文件中。compaction 後可能會觸發下一個 Level 的 compaction，以此類推。

如果沒有 compaction，寫入是非常快的，但這樣會造成讀性能降低，同樣也會造成很嚴重的空間放大問題。為了平衡寫入、讀取、空間三者的關係，RocksDB 會在後臺執行 compaction，將不同 Level 的 SST 進行合併。

TTL compaction 原理

除了上述默認的 compaction 操作外（sst 文件合併），RocksDB 還提供了 CompactionFilter 功能，可以讓用戶自定義個性化的 compaction 邏輯。Nebula Graph 使用了這個 CompactionFilter 來定製本文討論的 TTL 功能。該功能是 RocksDB 在 compaction 過程中，每讀取一條數據時，都會調用一個定製的 Filter 函數。TTL compaction 的實現方法就是在 Filter 函數中實現 TTL 過期數據刪除邏輯，具體如下：

首先獲取 tag / edge 的 TTL 信息
然後遍歷每個頂點或邊數據，取出 ttl_col 列字段值
根據 ttl_duration 的值加上 ttl_col 列字段值，跟當前時間的時間戳進行比較，然後判斷數據是否過期，過期的數據將被刪除。

TTL 用法

在圖數據庫 Nebula Graph 中，edge 和 tag 實現邏輯一致，在這裡僅以 tag 為例，來介紹 Nebula Graph 中 TTL 用法。

創建 TTL 屬性

Nebula Graph 中使用 TTL 屬性分為兩種方式：

create tag 時指定 ttl_duration 來表示數據的持續時間，單位為秒。ttl_col 指定哪一列作為 TTL 列。語法如下：

<code>nebula> CREATE TAG t (id int, ts timestamp ) ttl_duration=3600, ttl_col="ts"; 

/<code>

當某一條記錄的 ttl_col 列字段值加上 ttl_duration 的值小於當前時間的時間戳，則該條記錄過期，否則該記錄不過期。

ttl_duration 的值為非正數時，則點的此 tag 屬性不會過期
ttl_col 只能指定類型為 int 或者 timestamp 的列名。

或者 create tag 時沒有指定 TTL 屬性，後續想使用 TTL 功能，可以使用 alter tag 來設置 TTL 屬性。語法如下：

<code>nebula> CREATE TAG t (id int, ts timestamp );
nebula> ALTER TAG t ttl_duration=3600, ttl_col="ts";
/<code>

查看 TTL 屬性

創建完 tag 可以使用以下語句查看 tag 的 TTL 屬性：

<code>nebula> SHOW CREATE TAG t;
=====================================
| Tag | Create Tag                  |
=====================================
| t   | CREATE TAG t (
  id int,
  ts timestamp
) ttl_duration = 3600, ttl_col = id |
-------------------------------------
/<code>

修改 TTL 屬性

可以使用 alter tag 語句修改 TTL 的屬性：

<code>nebula> ALTER TAG t ttl_duration=100, ttl_col="id"; 

/<code>

刪除 TTL 屬性

當不想使用 TTL 屬性時，可以刪除 TTL 屬性：

可以設置 ttl_col 字段為空，或刪除配置的 ttl_col 字段，或者設置 ttl_duration 為 0 或者 -1。

<code>nebula> ALTER TAG t1 ttl_col = ""; -- drop ttl attribute
/<code>

刪除配置的 ttl_col 字段：

<code>nebula> ALTER TAG t1 DROP (a); -- drop ttl_col
/<code>

設置 ttl_duration 為 0 或者 -1：

<code>nebula> ALTER TAG t1 ttl_duration = 0; -- keep the ttl but the data never expires
/<code>

舉例

下面的例子說明，當使用 TTL 功能，並且數據過期後，查詢該 tag 的數據時，過期的數據被忽略。

<code>nebula> CREATE TAG t(id int) ttl_duration=100, ttl_col="id";
nebula> INSERT VERTEX t(id) values 102:(1584441231);

nebula> FETCH prop on t 102;
Execution succeeded (Time spent: 5.945/7.492 ms)
/<code>

注意：

當某一列作為 ttl_col 值的時候，不允許 change 該列。必須先移除 TTL 屬性，再 change 該列。

對同一 tag，index 和 TTL 功能不能同時使用。即使 index 和 TTL 創建於不同列，也不可以同時使用。

edge 同 tag 的邏輯一樣，這裡就不在詳述了。

TTL 的介紹就到此為止了，如果你對圖數據庫 Nebula Graph 的 TTL 有改進想法或其他要求，歡迎去 GitHub：https://github.com/vesoft-inc/nebula issue 區向我們提 issue 或者前往官方論壇：https://discuss.nebula-graph.io/ 的 Feedback 分類下提建議

作者有話說：Hi，我是 panda sheep，是圖數據庫 Nebula Graph 研發工程師，對數據庫領域非常感興趣，也有自己的一點點心得，希望寫的經驗分享能給大家帶來幫助，如有不當之處也希望能幫忙糾正，謝謝~

分享到:

閱讀更多 NebulaGraph 的文章

關鍵字: DBA MySQL 大數據

一個小時內學習 SQLite 數據庫

數據庫：JdbcTemplate的前世今生

【數據庫】簡單六步，教你設置雲數據庫RDS白名單

輕鬆入門mongo 數據庫

【數據庫】雲數據庫RDS基礎版的優勢及適用場景

數據庫——java調用存儲過程

數據庫——存儲過程

數據庫——存儲過程（6）

[數據庫] 事務已提交，數據卻丟了，趕緊檢查下這個配置！

數據庫——INSERT INTO 插入

數據庫——Oracle卸載

數據庫——存儲過程（7）

數據庫——DELETE 刪除、 TRUNCATE清空

數據庫——UPDATE 更新

數據庫——SELECT 查詢

數據庫——UNION

數據庫——FULL OUTER JOIN 連接

數據庫——order BY 排序

數據庫——replace() 替換

數據庫——返回座標

數據庫——字符串截取

數據庫——INNER JION 內連接

數據庫——LEFT JOIN 左連接

數據庫——RIGHT JOIN 右連接

數據庫——LIKE 查詢

數據庫——BETWEEN 查詢、TOP查詢、count 查詢

數據庫——in 和 =

Python標準庫—數據庫 (sqlite3)

03.08 一文讀懂 NoSQL 數據庫

CTO之瞳-數據庫-MySql

數據庫：MySQL存儲引擎中的MyISAM和InnoDB區別詳解

數據庫：MySQL常見的三種存儲引擎InnoDB、MyISAM、MEMORY的區別？

數據庫：事務的併發？事務隔離級別？嵌套事務？事務傳播行為？

數據庫——MySQL基本安裝和使用

初識 MongoDB 數據庫

11.30 MariaDB 數據庫

數據庫：Mysql中“select ... for update”排他鎖分析

10.13 數據庫，主鍵為何不宜太長？

「數據庫」純go寫的嵌入式數據庫-BuntDB

「數據庫」純go寫的數據庫-NutsDB

數據庫：Join算法

數據庫：事務隔離級別

數據庫：innodb數據組織形式

數據庫：MySQL高性能優化規範建議,速度收藏

數據庫：為什麼MySQL數據庫要用B+樹存儲索引？

【數據庫】SQL優化還憑經驗？這個工具能幫你智能優化SQL

【數據庫】ORM 原理及實例教程

NoSQL 數據庫 mongodbCAP 定理

01.30 數據庫：史上最全SQL優化方案，總有一款留給你！

06.13 「軟考高級軟件架構師」數據庫-分佈式數據庫系統概念及架構

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"