巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

日前,一份来自技术社区 InfoQ 的中国科技公司开源情况的统计引发诸多关注。

据了解, InfoQ 选取了国内 7 家主要科技公司(百度、阿里、腾讯、华为、美团、360、小米)在开源社区 Github 上 50 多个账号、2800 个开源项目。在统计方法上,infoQ 从开源项目的关注度(包括 Star、贡献者等)、各个公司的开源项目数量以及项目涉及的领域等几个方面展开,以此展现中国主要科技公司的开源状况。

巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

由于这份统计所涉及的排名、数字较多,自然有不同维度的解读,不过如果从技术发展的角度去看,也需要撇开单纯的项目数量对比,而要从开源项目的质量以及技术前瞻性的角度去观察。

1. GitHub 开源项目的「数字游戏」

InfoQ 统计的是来自开源社区 Github 的数据,在 Github 上,一个项目的数字指标主要包括 Star 数量,贡献者数量,前者是类似于社交媒体的关注度,一个项目的 Star 越多,这个项目也更流行,而后者,主要是看项目的开放程度如何,换句话说,如果项目开放程度大,贡献者也越多。

但正如 InfoQ 所注意到的,「部分大公司会 fork 一些知名的第三方项目并创建分支,但并未体现在 github 的 fork 关系里」,这也导致部分公司刻意制造「开源」的假象,堆积了大量「开源」项目,比如统计里提到,阿里体系里开源项目数虽然多,但获得 Star 的项目比例并不高,可以对比一下腾讯,虽然只有 130 个开源项目,但 Star 数 100 以上的项目有 97 个。

另一方面,仅以 Star、贡献者的标准来展现开源项目的价值,多少也有失偏颇。不同领域的项目所涉及的开发难度、开发语言各有不同,其所面向的群体数量也有较大差异。

比如在此次统计里,大量 Star 多、贡献者多的项目集中在大前端领域,这既是因为前端社区活跃,也是因为其代码不会涉及到公司核心产品,因此各大公司也热衷于这样的开源项目。这里并非否定前端的价值,而是要澄清一点:开源项目上的数字,与开源项目的价值并没有必然关系

基于上述两个方面分析,我们也可以更好理解 GitHub 上开源项目的数字表述游戏,开源项目的数量以及 Star 数量、贡献者数量并不能真实体现一个公司开源能力或一个开源项目的价值,或者换句话说,「十只蚂蚁」或许难敌「一只大象」。

2.中国AI开源的「领头雁」

如果细心去看 infoQ 统计的这些开源项目领域,大前端(前端和移动开发)项目最多,几乎每家公司都有相应的项目,其中,腾讯的 10 个受欢迎的项目里居然有 9 个涉及到前端。

而百度的开源项目则一如既往的聚焦AI。百度有 4 个是 AI 领域项目,在 Commits 数前十中,百度的深度学习框架 PaddlePaddle 和自动驾驶开源平台 Apollo 位于前列。

巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

InforQ 指出,「commits 提交数越多,表明项目越复杂,开发周期较长,协作者数量更多」。这也意味着,从 Commits 提交次数的角度可以观察出某个项目的开发难度,或者说技术含量。

深度学习和自动驾驶也是当下科技领域最具技术含量的两个领域。

从 2013 年开始,以深度学习为代表的人工智能再次成为科技行业关注的焦点,而深度学习算法在图像、语音方面的表现也让整个行业为之兴奋,各大科技巨头们,如 Google、Facebook 相继开源了自己的深度学习框架,比如 Google 的 Tensorflow 和 FB 的 Caffe。

百度的 PaddlePaddle 也位列其中,公开资料显示,2016 年,百度正式开源 PaddlePaddle,这是一个面向全球的深度学习开源框架,而且是中国首个,也是唯一一个深度学习开源框架,考虑到百度内部复杂的业务需求,也充分佐证了 PadddlePaddle 架构的可用性。

与国外其他竞争对手相比,PaddlePaddle 有着非常完备和齐全的文档支持。尤其是针对中国市场的需求,PaddlePaddle 能够提供更适合中国市场的自然语言处理、人脸以及中文语音处理的技术支持

。同时,在面向开发者的运营服务上,也可以提供实时响应的中文服务。

巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

随着 PaddlePaddle 3.0 在去年 7 月 AI 开发者大会的正式亮相, 提供了核心框架 PaddlePaddle Fluid、PaddlePaddle Serving、PaddlePaddle Mobile,以及零门槛的快速应用平台EasyDL、AutoDL网络平台自动化设计以及AI Studio在线实训平台等。

这一系列产品的发布,不仅丰富了 PaddlePaddle 的产品线,也让百度实现了从芯片到文档,从框架到应用工具的全面自主化

。这也意味着,PaddlePaddle 作为 AI 基础设施,能够满足国家安全需要的、满足产业大规模需要的、满足中国 AI 开发者需要的知识产权自主化。

巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

另一方面,自动驾驶正在成为重塑未来交通的重要技术,Apollo 则是百度提供给全球自动驾驶领域的开源方案。

自 2017 年亮相以来,Apollo 已经更新有了三次大版本的更新,伴随快速迭代的系统版本,Apollo 生态也从无到有、从一到多,快速成长为世界级的自动驾驶开放平台,公开资料显示,Apollo 平台已经开放了 22W+ 行代码,其托管在 GitHub 上的开放代码数量在一年之内增长了 6 倍,而根据 InfoQ 的统计,Apollo 的代码贡献者数量也相当可观。

巨头扎堆前端、百度押注 AI,一文读懂中国技术公司开源现状

infoQ 这样评价这两个开源项目:「百度声称的在 AI 方面基于开源理念来打造项目和产品,兑现了它自己的承诺,值得尊重」。更重要的一点则是,无论是深度学习还是自动驾驶,都让中国科技公司的开源项目更具有技术前瞻性和示范性,也从某种意义上验证了「一只大象」远比「十只蚂蚁」更有价值。

3. 尾巴:开源之路还在继续

过去 40 多年里,计算机领域的开源推动了整个行业的技术创新,而随着中国互联网公司在全球技术领域的崛起,这些公司也理应肩负起新的责任,是否拥抱开源、参与开源以及开源程度如何,都将成为衡量一家技术公司的重要标准。

正如 InfoQ 在调查汇总的总结部分所言,这些最优秀的中国互联网公司,「在底层关键项目上和国外还是存在较大差距」,即便是在扎堆的大前端领域,其开源产品所覆盖的,也「只是 React、Vue 等前端框架的组件库」,而非是具有生态核心的产品,这也极大限制了其开源产品的价值。

另一方面,刻意堆积开源项目数量、大量开源技术含量低的项目获得高 Star 数量和贡献者数量,也构成了不少公司的开源策略。

这也充分说明了中国公司的开源才刚刚开始,大公司们从开源项目数量到项目质量的工作已基本完成,而从质量到技术前瞻性尤其是可引领全球技术趋势的开源项目还很少。这其中,百度的开源项目虽然数量不多,但是在质量、技术难度和前瞻性上已具有一定的引领意义,也为中国 AI 开源领域做出了表率,未来,我们也期待更多的公司推出更多这样的开源项目,从而进一步扩大中国技术的全球影响力。(完)


分享到:


相關文章: