编辑:大明
【新智元导读】近日,Github出炉报告,统计了2018年最受欢迎的编程语言、使用最广的软件包和贡献者最多的热门项目Top10。Python、Numpy和Tensorflow分别位列第一,可谓众望所归。C++、Java、Pandas、Scikit-learn等热门语言、库和项目均进入Top10。
在我们2018年的Octoverse报告中,机器学习和数据科学成为GitHub上的热门话题。 tensorflow是贡献最大的项目之一,pytorch 是增长最快的项目之一,Python是GitHub上第三大最受欢迎的语言。我们决定在GitHub上继续深入研究机器学习和数据科学的现状。
我们抓取了2018年1月1日到2018年12月31日之间的贡献数据。这里的贡献可能包括推送代码、提出问题或提取请求,评论问题或提取请求,或审查提取请求。对于大多数导入包,我们使用了依赖关系图中的数据,其中包括所有公共存储库和已选择加入依赖关系图的全部私有存储库。
最受欢迎的机器学习编程语言:Python居首
2018年GitHub上最受欢迎的机器学习语言
我们查看了使用“机器学习”主题标记的存储库的贡献者,并对存储库中最常见的主要语言进行了排名。 Python是机器学习资源库中最常用的语言,也是GitHub上第三常用的语言。然而,并非所有机器学习项目都使用Python:GitHub上的一些最常见的语言也是机器学习项目的通用语言。
C ++,JavaScript,Java,C#,Shell和TypeScript等语言都位列GitHub上最常使用的语言前10名,它们也位列机器学习项目最常用语言的前10名。
Julia、R和Scala等语言也位列机器学习项目的前10名,但没有进入整个GitHub使用语言的前十。 Julia和R都是数据科学家常用的语言,而Scala在与Apache Spark等语言在大数据系统交互下的应用越来越普遍。
使用最广泛的机器学习和数据科学软件包:Numpy第一
2018年导入Github资源库的顶级软件包
我们从依赖图中提取数据,计算出导入流行Python包的机器学习或数据科学主题的项目百分比。上面的列表显示了这些项目导入的前十个包。结果如下图所示:
Numpy是一个支持多维数据数学运算的软件包,是被导入次数最多的包,被用于近四分之三的机器学习和数据科学项目中。
Scipy是一个用于科学计算的软件包,Pandas是一个用于管理数据集的软件包,matplotlib是一个可视化库,这三个包被用于超过40%的机器学习和数据科学项目中。
Scikit-learn是一种非常流行的机器学习包,包含大量机器学习算法实现,近40%的项目使用它。
Tensorflow是一种用于处理神经网络的软件包,有近四分之一的软件包使用它。
前十名中的其他包都是功能性程序包:其中六个是Python 2和3兼容性库,python-dateutil和pytz是用于处理日期的包。
最受欢迎的机器学习项目:Tensorflow折桂
2018年GitHub上的顶级机器学习项目
我们还考察了2018年“机器学习”标签下贡献者最多的开源项目。Tensorflow是迄今为止最受欢迎的项目,是排名第二的scikit-learn的贡献者数量的5倍多。
explosion/spaCy和RasaHQ /rasa_nlu这两个项目专注于自然语言处理问题。
另外四个项目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition和tesseract-ocr / tesseract,专注于图像处理。 Julia语言源代码项目也是2018年贡献者最多的项目之一。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。