資源|Alibaba Cluster Data 開放下載:270 GB 數據揭祕你不知道的阿里巴巴數據中心

戳藍字“
CSDN雲計算”關注我們哦!

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

CSDN雲計算授權轉載自阿里系統軟件技術

打開一篇篇 IT 技術文章,你總能夠看到“大規模”、“海量請求”這些字眼。如今,這些功能強大的互聯網應用,都運行在大規模數據中心上。然而,對於大規模數據中心,你又瞭解多少呢?

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

實際上,除了閱讀一些科技文章之外,得到關於數據中心的信息非常難得。數據中心每個機器的運行情況如何?這些機器上運行著什麼樣的應用?這些應用有什麼特點?對於這些問題,除了少數資深從業者之外,普通學生和企業的研究者很難了解其中細節。

什麼是 Alibaba Cluster Data?

那麼,實施了一系列優化手段之後的計算機集群究竟是什麼樣子?混部的情況究竟如何?

為了讓有興趣的學生以及相關研究人員,可以從數據上更加深入地理解大規模數據中心,我們特別發佈了這份數據集(Alibaba Cluster Data V2018)。數據集中記錄了某個生產集群中服務器以及運行任務的詳細情況。我們希望這波數據的發佈可以拉近我們與學術研究、業界同行之間的距離。

在數據集中,你可以詳細瞭解到我們是如何通過混部把資源利用率提高到 45%;我們每天到底運行了多少任務;以及業務的資源需求有什麼特點。如何使用這份數據集,完全取決於你的需要。

這個數據可以做什麼?

剛剛發佈的 Alibaba Cluster Data V2018 包含 6 個文件,壓縮後大小近 50GB(壓縮前 270+GB),裡面包含了 4000 臺服務器、相應的在線應用容器和離線計算任務長達 8 天的運行情況。

通過這份數據,你可以:

  • 瞭解當代先進數據中心的服務器以及任務運行特點;

  • 試驗你的調度、運籌等各種任務管理和集群優化方面的各種算法並撰寫論文;

  • 利用這份數據學習如何進行數據分析,揭示更多我們自己都未曾發現的規律。

上面這幾點,沒有接觸過類似數據的朋友,可能對於這份數據的用處並沒有直觀的印象,下面我舉幾個簡單的例子:

  • 電商業務在白天和晚上面臨的壓力不同,我們如何在業務存在波峰波谷的情況下提高整體資源利用率?

  • 你知道我們最長的 DAG 有多少依賴嗎?

  • 一個典型的容器存在時間是多久?

  • 一個計算型任務的典型存在時間是多少?一個 Task 的多個 Instance 理論上彼此很相似,但是它們運行的時間都一樣嗎?

實際上,學者們甚至可以用這些數據作出更加精彩地分析。2017年,我們開放的第一波數據(Alibaba Cluster Data V2017),已經產生了多篇優秀的學術成果。

以下是學者們在論文中引用數據(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 這樣頂級學術會議收錄的優秀文章。我們期待,未來你也能與我們共同分享你用這份數據產生的成果!

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18" (Best paper award!)

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

資源|Alibaba Cluster Data 開放下載:270 GB 數據揭秘你不知道的阿里巴巴數據中心

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心
资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心
资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心资源|Alibaba Cluster Data 开放下载:270 GB 数据揭秘你不知道的阿里巴巴数据中心

Cluster Data V2018 更出色

DAG 信息加入:我們加入了離線任務的 DAG 任務信息,據瞭解,這是目前來自實際生產環境最大的 DAG 數據。

究竟什麼是 DAG?離線計算任務,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任務,都是以有向無環圖(Directed Acyclic Graph,DAG)的形式進行編排的,其中涉及到任務之間的並行、依賴等方面。下面是一個 DAG 的例子。

規模更大:上一版數據包含了約 1300 臺機器在約 24 小時的內容數據,而新版 Cluster Data V2018 中包括了 4000 臺機器 8 天的數據。

數據獲取方式:

https://github.com/alibaba/clusterdata/blob/v2018/cluster-trace-v2018/trace_2018.md

添加小編微信:color_ld,備註“進群+姓名+公司職位”即可,加入【雲計算學習交流群】,和志同道合的朋友們共同打卡學習!

2.徵稿:

投稿郵箱:[email protected];微信號:color_ld。請備註投稿+姓名+公司職位。


分享到:


相關文章: