百度的開源理想:技術派、建築師和佈道者

1997年,著名黑客埃裡克·斯蒂芬·雷蒙在《大教堂與市集》一書中預測了兩種不同的自由軟件開發模式:

一種是大教堂模式,原始代碼是公開的,但每個版本的開發過程由一個專屬的團隊管控;一種是市集模式,原始代碼同樣是公開的,不過是放在互聯網上供人檢視及開發,最直接的例子就是Linux。

最終“市集模式”證明了開源比閉源更加高效,全球99%的組織在IT系統中使用了大量的開源代碼,開源的價值也被越來越多的企業重視。比如微軟在2018年以75億美元的代價將代碼託管平臺 GitHub 收入囊中,IBM則在2019年斥資340億美元收購了著名開源解決方案供應商紅帽。

即便是開源文化一度貧瘠的中國市場,近幾年圍繞開源項目的討論也逐漸熱鬧了起來,BAT代表的科技巨頭們扛起了國內開源的大旗,陸續加入到開源項目的建立和維護中,一次次釋放了湧動的激情。

對於中國的開源文化從哪裡來,又將要走向何處,百度這樣的開源力量可以說是不可錯失的研究樣本。

01 聚焦AI的技術派

早在上世紀90年代末,開源力量就在太平洋的彼岸澎湃。但彼時的中國幾乎絕緣於互聯網之外,就連計算機都還是少數派的玩物。

時間上的遲到削弱了中國在開源世界中的存在感,缺少在硬件和底層技術上的話語權,缺少自主的操作系統和軟件生態,缺少通過開源實現商業化的成功案例,導致中國開發者在很長一段時間內扮演著學習者的角色。

人工智能浪潮的興起,為中國開發者創造了追平前輩們的機會,何況人工智能和開源幾乎有著天然的關聯。

正如人工智能領域家喻戶曉的一個比喻:如果說AI是一場饕餮盛宴,數據是原材料,算力是天然氣,算法是菜譜,開源就如同無數廚師用經驗與智慧合著而成的烹飪百科全書。其他廚師可以從書中學習經驗製作菜餚,也可以指出書中存在的問題,並源源不斷地為百科全書貢獻新的菜譜。

百度則進一步證明了這樣一個道理:開源不是論資排輩的武林江湖,而是屬於技術派的自由世界。

2013年百度率先開源了可視化庫ECharts,提供了直觀、生動、可交互、可個性化定製的數據可視化圖表,並由此開始了百度的開源之路。

2016年是百度開源的破局之年,深度學習框架百度飛槳正式開源,填補了國產深度學習框架的市場空白。

2017年百度開源繼續兇猛發力,當年發佈了全球首個自動駕駛開源項目——Apollo 自動駕駛開放平臺,加速了智能駕駛的行業進程。

2018年百度內部應用了十年的 Doris正式擁抱開源世界,孵化於百度鳳巢的交互式 SQL數據倉庫,至今仍是國內唯一的分析型數據庫。

2019年百度開源項目持續刷新,扛住了數次春晚紅包流量波峰的七層流量轉發平臺BFE對外開源,並在2020年6月份被 CNCF接納為Sandbox Project。

截止到目前,百度已經主導了上千個開源項目,在GitHub上收穫了超過30萬Star,社區貢獻者數量也已上萬。不過作為AI領域的技術派,百度的存在感儼然不只是建立在開源項目的數量上,同時還刷新了中國開源項目的高度。

百度的開源理想:技術派、建築師和佈道者

注:2020/2019年度全球開源深度學習框架活躍度排名榜單

按照衡量深度學習框架活躍趨勢的權威性指標pull request的數據顯示,百度飛槳PaddlePaddle均力壓谷歌TensorFlow,緊隨Facebook PyTorch之後,已經成為了國內第一、世界第二的深度學習開源框架;Apache ECharts (incubating) 在 Github 中的 star 數已經超過 41.4k,每週 npm 下載量超過 22 萬;Doris被廣泛應用於美團、小米、京東、華為、快手等頭部企業的項目中……

開源創造了技術最大的公約數,百度正成為這個時代的弄潮人。

02 社區中的建築師

開源的世界裡流傳著這樣一句格言:社區重於代碼。

這句話的題中之意,恰恰道出了開源世界的鐵律,開源社區的聚合和放大效應比開源代碼更有價值。

正如開源社聯合創始人劉天棟給出的觀點:“開源市場就像魔方,表面上看每個成員都是獨立的一面,但經過排列、融合,會呈現出很多種組合可能。”這也是不少人為開源唱讚歌,並努力推動中國開源進程的直接原因。

開源的精神是自由的,可細究到開源世界裡的話語權,起決定性作用的往往不是精神,而是精神背後的市場規律,以至於常常出現開源社區被強權左右的現象。就連一向以“開源”自居的GitHub,也屢屢傳出封禁伊朗、俄羅斯等國籍開發者的消息,已然違背了開源社區存在的初衷。

百度的開源理想:技術派、建築師和佈道者

注:全球範圍內開源社區百花齊放

留給BAT們的挑戰在於,所要扮演的角色不只是“兩耳不聞身外事”的技術派,還要著實捍衛中國開發者的權益。

在開源社區的運作中,百度找到了兩個著力點:

一是深度參與了國內外頂級開源基金會和組織,成為了 Apache 基金會、Linux 基金會以及雲原生計算基金會的金牌會員,以及開放原子基金會的理事單位。由於基金會擁有對開源軟件的管理和所有權,積極參與到基金會的運作有利於維護社區的中立,比如避免中國的開源項目被惡意孤立。

二是戰略投資中文開源技術社區開源中國,後者運營的Gitee代碼託管平臺已經是全球僅次於GitHub的代碼託管平臺,每日約增加5000名開發者、200家企業客戶、1.7萬代碼倉庫,已經具備了在國際市場上與GitHub全面抗衡的基礎,也是中國開源力量不可或缺的底牌所在。

百度的開源理想:技術派、建築師和佈道者

注:Gitee代碼託管平臺

打一個比方的話,百度對開源的認識並沒有侷限於貢獻了多少代碼,還在一磚一瓦砌出中國的開源社區生態。

至於其中的原因,可以參考百度創始人李彥宏的觀點:“開源並不意味著所有東西都是免費的,還需要是我們自主可控的,很多開源的東西還是掌握在別人手裡的,這個我們要有充分的認識。”

無獨有偶,華為消費者BG軟件部總裁王成錄也有著同樣的擔憂:“大家想一想,我們現在的軟件開發,開源已經是大家都無法再去把它忘掉的模式,那麼這些開源社區的代碼就是離不開的資源。如果中國沒有自己的開源社區去維護管理這些代碼,我們中國的所有軟件行業將是非常危險的。”

社區是開源協作精神與創新的搖籃,除了對技術的一腔豪情,還要勇於擔當起秩序守衛者的責任,畢竟現實世界不同於理想主義。

03 產業化的佈道者

跳出開源中立與否的語境,中國開源的現實問題在於產業化。

整個商業的重心已經從To C轉向To B,新基建、智能經濟的浪潮再度為這種趨勢摁下了“快進鍵”,開源平臺能否抓住產業智能化的窗口期,釋放出技術拓荒的生態紅利,將是打通戰略價值的關鍵一躍。

國內開源生態存在的短板也不無明顯,比如開源軟件集中在數據庫、操作系統等應用層,缺少深入產業細枝末節的生態協同,開源技術的落地應用還有很長一段路要走。也就是說,中國的開源生態還集中在產業鏈上游,中游和下游的環節仍然有些薄弱,需要花費一定的時間補課。

不過這並非是唱衰中國開源生態的藉口。

一方面,中國有著全球最龐大的人口和市場,將是最好的開源項目孵化器。

特別是在新基建浪潮的驅動下,將有越來越多的企業擁抱開源項目。百度、華為等行業領頭羊們也開始將開源軟件從技術與商業上形成合圍,提供各個層次的技術賦能,比如在飛槳和百度大腦的基礎上,通過與百度智能雲的融合打通,向外界輸出智能交通、智能家居、智慧金融等場景化的解決方案。

百度的開源理想:技術派、建築師和佈道者

注:百度智能雲服務架構

另一方面,源代碼並不是開源最重要的元素,而是人與人通過代碼的聯結。

百度代表的科技巨頭紛紛颳起了產學結合風,激勵國內的大學生們參與到開源社區的建設中來,增強和激勵開源精神的同時,也在為行業持續輸送高端人才。可以找到的例子有很多,Gitee上的高校數量已經超過1000所、百度飛槳推出了針對高校的生態激勵計劃……開源的產業化進程正在以肉眼可見的速度推進。

這個過程中,百度開源迎來了自己的第三個角色,即產業化過程中的佈道者。

小凱(化名)是一名本科在校生,卻在飛槳社區中被稱為“GT大佬”。除了有一副為別人答疑的熱心腸,小凱還參與了大自然保護協會的野生動物圖片篩選和標註項目,找來自己比賽時的小夥伴,利用飛槳的監督學習算法完成了大批量數據標註的驗證和調優,預計將在年底將項目交付大自然保護協會。

小鵬(化名)是飛槳社群中的一員,在社區裡認識了很多有趣的朋友,並且嘗試藉助飛槳搭建自己的深度學習模型。小鵬的想法是通過攝像頭捕捉和識別手語,再將手語轉化成語音,從而實現和聾啞人交流的目標。目前小鵬的模式已經有了比較準確的識別,並將項目代碼上傳到了社區開源,希望可以幫助更多的人。

小凱和小鵬都是百度開源社區中的一份子,或許他們的力量還有些稚弱,對社區的貢獻還非常有限。可當00後的年輕一代都開始活躍於開源社區的時候,中國的開源生態已經燃起了持續壯大的星星之火。

04 寫在最後

中國開源的崛起和擴張,似乎並沒有什麼捷徑可走。

需要更多聚焦AI的技術派,持續貢獻優質的開源項目,讓中國在開源世界的站位逐步從邊緣移向舞臺中央;

需要更多社區中的建築師,不斷增強中國在開源社區中的話語權,並一步一個腳印的打造中國的開源社區;

還需要更多立足於產業化的佈道者,將開源項目和產業需求深度融合,同時培養下一代年輕人的開源信仰。

至少在這條看得見的路上,百度們正在堅定向前。


分享到:


相關文章: