在南大超算中心,有這樣一位頂尖「軍師」

《三國演義》中記載,劉備馬跳檀溪,夜宿水鏡山莊,得水鏡先生指點,伏龍、鳳雛,兩得其一,可安天下。隨後,徐庶走馬薦諸葛,水鏡先生再薦臥龍,劉備三顧茅廬,終請得諸葛孔明出山。後面的故事更加膾炙人口,諸葛亮草船借箭、巧借東風,借赤壁一戰奠定三分天下。

從劉備的發家史不難看出,一位頂尖的“軍師”對於戰場決勝、治國安邦有著扭轉乾坤的作用,沒有諸葛妙計,蜀漢恐怕難以頻頻以少勝多、以弱勝強,將戰爭資源發揮出最大效力。

——借古談今,在古戰場,若有一位高明的軍師對武將、軍隊、糧草等戰爭資源進行合理的調度,也就有了更大的勝算。而今,在被譽為計算機界“皇冠上明珠”的超算系統中,也需要有一位“軍師”對任務作業進行優化調度,從而達到更高的作業效率,這位“軍師”就是集群工作負載管理軟件。

在南京大學超算中心,就有著這樣一位頂尖的“軍師”——IBM Spectrum LSF。

南大的超算“情緣”

南京大學坐落於鍾靈毓秀、虎踞龍蟠的金陵古都,是一所歷史悠久、聲譽卓著的百年名校。南大的基礎學科享譽中國,兩彈一星功勳中的任新民、黃緯祿、錢驥、朱光亞、程開甲、趙九章,國家最高科技獎得主中閔恩澤、吳良鏞、劉東生、張存浩等著名科學家都是南大校友。

大氣科學、化學化工、地質科學等基礎學科需要海量的數據處理和大規模計算。正因如此,南大從很早以前就開始採用高性能計算來支撐科研項目,是中國高校應用HPC的先行者之一。早在1980年,南大天文系就建設了第一套超算系統,在2001年和2007年南大又先後對超算系統進行了擴建。

2009年,南大超算中心新建了機房,並開始建設新的超算集群。當時超算中心選擇了IBM的一站式解決方案,包括機房的設計施工以及超算集群的建設等。計算節點採用IBM HS22刀片系統,集群管理軟件採用IBM Spectrum LSF。超算集群共3200核,計算能力理論上高達34萬億次,實際計算能力32萬億次,當時在高校HPC中排名第一、全國排名第七,這讓南大成為當時中國高校超算領域的“明星”。

如今,南大已經具備數學、物理、天文、計算機、化學、地質、生物、氣象等多個國家重點建設學科,其中絕大多數學科需要大量的計算力來支撐。隨著科研項目越來越多,範圍越來越廣,數據量越來越龐大,南大超算中心2009年建設的超算系統已經難以支撐諸多科研項目的需求。

南京大學超算中心的一位負責人曾經表示,由於計算能力不足,舊的超算系統到最後經常任務排的滿滿的,有時候一排一兩個星期,很多學生做畢業論文都來不及,只好去校外租賃計算資源。

於是,2015年,南京大學超算中心投入5000多萬元,開始著手建造一套更為龐大的校級超算系統。這套新的超算系統具有910個計算節點,全部節點採用雙路英特爾至強E5-2680 v3處理器,其中896個節點配置128GB DDR4內存、10個節點配置256GB DDR4內存,4個機架式GPU節點,每節點配置2塊 Nvidia Tesla K40 GPU卡。集群採用了一套全閃存的並行存儲以及一套IBM ESS高端存儲系統,總裸容量合計超過3PB,集群管理軟件仍舊採用IBM Spectrum LSF。

南大這套新的校級超算系統Linpack峰值達到了每秒873.6萬億次,是舊超算系統的近25倍;同時這也是一套非常高效的超算系統,運算效率超過76% (理論最高值為81%),南大超算中心也因此再次成為國內最大的高校超算中心。

新的超算系統已於2016年底正式投入使用,如今已經有一百多個用戶賬戶,為大氣科學學院、物理學院、地球科學與工程學院、化學化工學院等十餘個學院提供服務;同時超算中心也提供對外服務,不少在舊集群做計算的老用戶都已經將任務放到了新集群上來。

超算中心有位頂尖“軍師”

正因為超算系統要同時支撐成百上千個任務作業,故而任務調度就顯得尤為重要。如行軍打仗,需要海陸空等各個兵種的高效配合,否則有再強大的軍隊和武器裝備也可能打敗仗;而超算系統也是如此,節點計算能力再強,如果沒有合理的資源和任務調度,也無從發揮計算基礎架構的能力,導致計算效率低下。

同時,高校往往沒有大型的運維團隊,如南大超算中心負責運維的團隊只有5個人,所以希望超算系統管理能夠簡便、自動容錯,同時希望以簡便的方式看到系統運行狀況、報表等;此外,超算系統用戶有著很多分析和管理需要,如瞭解任務作業運行慢、排隊、效率低下的原因,為管理和決策做支持。

——這就需要超算系統具有一個聰明的“大腦”來指揮調度,或者說需要一位經驗老道的“軍師”來“行軍佈陣”、“運籌帷幄”和“戰場分析”。在南大超算中心,這位“軍師”就是IBM Spectrum LSF工作負載管理平臺。

IBM Spectrum LSF是一個強大的工作負載管理平臺,用於要求苛刻的分佈式 HPC 環境,可提供由策略驅動的全面的智能調度功能集,支持所有計算基礎架構資源並確保最優的應用程序性能。

具體來說,IBM Spectrum LSF能夠為超算集群提供計算資源的統一管理、統一的WEB訪問、軟件許可證自動排隊和管理、資源運行情況和使用報表和工作流自動化工具,實現了軟硬件資源共享調度,將所有軟硬件資源有機地組合在一起,根據事先定義的調度策略,統一管理,提高軟硬件資源的利用率。

在南大超算中心,有這樣一位頂尖“軍師”

在超算集群中,IBM Spectrum LSF這位“軍師”擅於調度各種不同“兵種”。它支持異構環境,如小型機、x86服務器、胖節點、圖形工作站、GPU和Xeon Phi技術,以及AIX、Linux、Windows、Mac OS、Cray XT、ARM等操作系統,還可以調度KVM,Citrix或Vmware虛擬機,對各種不同異構資源的調度遊刃有餘。

如韓信點兵,IBM Spectrum LSF能夠掌控大規模的集群系統。支持單集群內5000節點、100,000內核擴展、50,000同時等待在線作業。支持多個LSF集群的擴展和共享模式,從而使得系統擴展無瓶頸上限。LSF作業調度系統具有大規模機群商業系統高可靠運營的成功案例,集群系統的平均無故障時間達99.95%,支持多集群間水平擴展,百萬內核調度。

這位“軍師”也深諳用兵之道,提供了豐富實用的調度策略。不僅提供搶佔式調度、公平調度、循環式調度、先進先出、獨佔式調度、用戶分組調度等通用的基礎調度策略,還提供了許可證擠出排隊調度、用戶自定義調度器、基於網絡拓撲的智能調度、基於用戶服務協議的調度等功能,同時提供了CPU自動休眠低能耗技術,以更低的能耗將集群發揮出更高的性能和效率。

IBM Spectrum LSF還擅於做“戰場分析”,它提供了詳細的報表來展示集群資源運行情況和使用情況,展現整個系統軟、硬件的使用效率、是如何被使用的,以及每個用戶或項目對資源的使用情況,這些對用戶來說都是非常重要的數據。利用這些數據,用戶既能對任務作業的工作效率作出評估,又能找出資源的瓶頸,為任務優化提供依據。

據IBM項目負責人介紹,未來IBM還會為Spectrum LSF引入“認知”能力,使之分析能力更加智能自動化。“LSF可以通過經過一段時間的作業運行,可以把這些作業的實際特點以及資源的使用需求自動智能的得到很多分析的結果。然後根據結果自動調整策略的設定,而不是完全通過人。真正將超算系統變成一套具有自主智能系統。”

南大超算中心從2009年建設的超算系統開始就一直使用IBM Spectrum LSF,對其調度、計費、報表等功能讚譽有加,南大如今校級超算系統以及部分院級集群均使用IBM Spectrum LSF進行管理。

值得一提的是,南大超算中心所採用的是最新的IBM Spectrum LSF 10版本,其調度性能、吞吐率、軟件功能等方面相對上一版本均有了大幅提升。“LSF 10相比上一個版本性能提升了5倍多,換句話說,同樣一套系統、在同樣的時間裡LSF 10能夠多調度5倍的任務;而相對一些開源的集群調度軟件,LSF 10性能要高出150倍。”

在IBM項目負責人看來,IBM Spectrum LSF相比開源集群調度軟件性能大幅領先,讓集群能發揮更高的效率,實際更能幫助用戶節省成本;此外,從開放性上來看,LSF提供了開放的接口,支持各種異構資源,是通過開放性來實現像開源那樣的開放可控能力。而相對開源產品,LSF是一個成熟的商業軟件,有著大量成功實施案例,久經驗證,且具有更加長遠的產品路線圖和更加專業完善的服務,這是眾多超算用戶選擇LSF的原因。

如今,不僅是南京大學超算中心,清華大學生命科學學院、上海交大等院校也採用了IBM Spectrum LSF工作負載管理平臺;此外LSF在製造、航空、電子設計和製造等多個行業都有了大規模應用,有不少是超過萬顆GPU的用戶。

為高校HPC應用再樹“標杆”

HPC是計算機界“皇冠上的明珠”,也被譽為“國之重器”。如今,隨著各行各業計算需求的不斷攀升,HPC早已走出實驗室,進入更加廣泛的應用領域。在2016年中國超算TOP100榜單中,有超過半數的HPC所從事的都是互聯網應用。

高校是HPC的傳統領域,隨著科研、教學項目的深度和廣度不斷提升,近年來高校越來越重視HPC的建設、應用和人才培養。高校HPC應用已經不僅限於傳統的大氣、地球科學、物理、化學、天文、環境科學、生命科學、工業設計等科研及工程項目,亦已拓展到圖像處理、動漫設計等新興領域,或者用於校園雲的建設,高校HPC應用可謂是遍地開花。

南京大學是典型的例子。一直以來,這所研究型高校都是HPC應用的先行者和“標杆”,其HPC應用規模和廣度接連在中國高校保持領先,在過去六年中,南京大學超算中心完成作業數超過50萬,用戶計算總機時超過1.2億, 為南大基礎科學的研究和教育工作貢獻巨大;而HPC助推科研和教學的顯著成果也讓南大對HPC建設及應用更為重視,形成良性循環,為HPC在高校的普及應用帶來了很好的示範作用。

除了服務於南大各個院系,南大超算中心的這套新的超算系統如今亦已對外開放,希望為更多的學校、企業用戶共享超算資源,進一步推廣HPC普及應用,共同提升HPC應用水平。


分享到:


相關文章: