编译:叶一、Shan LIU、Aileen
2017年是机器学习应用全面开花的一年,惊为天人的想法和项目层出不穷。
我们对比了过去一年中近8800个开源机器学习项目,并挑选了其中较好的30个(Top 0.3%)列举于此。
这是一份极具竞争性的列表,它精挑细选了发表于2017年1月-12月份的机器学习库、数据集和应用类的优质项目。我们通过流行度、参与度和时近性来对其质量进行评级。有一项数据可以让你对表单质量有一个直观印象:这些项目的GitHub平均stars数是3558。
开源项目对于数据科学家而言是很有意义的。
你可以通过阅读源代码,在前人的基础上构建更加强大的项目。你可以尽情尝试一下这些可能在去年与你失之交臂的机器学习项目。
No.1 - FastText:
快速文本表示/分类库
GitHub stars数: 11786个
来源:Facebook研究
以及[Muse:基于FastText的多语言无监督/监督词嵌入(GitHub stars数:695个)
No.2- Deep-photo-styletransfer:
康奈尔大学 Fujun Luan 论文《Deep Photo Style Transfer》的代码与数据
GitHub stars数:9747个
链接:
No.3 - face recognition:世界上最简单的适用于Pyhthon的面部识别api以及命令行
GitHub stars数:8672个
来源:Adam Geitgey
No.4 - Magenta:
机器智能音乐与艺术生成器
GitHub stars数:8113
No.5 - Sonnet:
基于 TensorFlow 的神经网络库
GitHub stars数:5731个
来源:DeepMind 成员 Malcolm Reynolds
No.6 - deeplearn.js:
网页端硬件加速机器学习库
GitHub stars数:5462个
来源:Google Brain 团队 Nikhil Thorat
No.7 - Fast Style Transfer:
TensorFlow 快速风格转换
GitHub stars数:4843个
来源:MIT的Logan Engstrom
No.8 - Pysc2:
星际争霸II 学习环境
GitHub stars数:3683个
来源:DeepMind Timo Ewalds 等人
No.9 - AirSim:
微软AI和研究院出品的基于虚幻引擎的开源自动驾驶模拟器
GitHub stars数:3681个
来源:微软的Shital Shah
No.10 - Facets:
机器学习数据集可视化工具
GitHub stars数:3371个
来源:Google Brain
No.11 - Style2Paints:
AI漫画线稿上色工具
GitHub stars数: 3310个
No.12 - Tensor2Tensor:
用于广义序列-序列模型的工具库
GitHub stars数目: 3087个
来源:Google Brain 的Ryan Sepassi
No.13-
基于 PyTorch 的图像对图像转换工具 (如horse2zebra, edges2cats,等)
GitHub stars数:2847个
来源:UC Berkeley 朱俊彦博士
No.14 - Faiss:
用密集向量高效相似性检索与聚类的工具库
GitHub stars数:2629个
来源:Facebook
No.15 Fashion-mnist:
一个类似于 MNIST 的时尚产品数据集
GitHub stars数:2780个
来源:Zalando Tech 的 Han Xiao
No.16 - ParlAI:
适用于在各类公开的对话数据集上训练与评估AI模型的一个框架
GitHub stars数: 2578个
来源:Facebook Research的 Alexander Miller
No.17 Fairseq:
序列到序列工具包
GitHub stars数: 2571个
来源:FAIR
No.18 Pyro:
使用 Python 和 PyTorch 进行深度通用概率编程
GitHub stars数: 2387个
来源:Uber AI Labs
No.19 iGAN:
基于 GAN 的交互图像生成器
GitHub stars数: 2369个
No.20 Deep-image-prior:
使用神经网络进行图像恢复,然而无需学习过程
GitHub stars数: 2188个
来源:Skoltech 的 Dmitry Ulyanov博士
No.21 Face_classification:
基于 Keras CNN 模型与 OpenCV 的实时面部检测和表情/性别分类,训练与 fer2013/imdb 数据集
GitHub stars数: 1967个
No.22 Speech to Text WaveNet:
使用 DeepMind 的 WaveNet 和 TensorFlow 构成的端到端句级英语语音识别
GitHub stars数: 1961个
来源: Kakao Brain 的 Namju Kim
No.23 StarGAN:
用于多领域图像-图像转换的统一生成对抗网络
GitHub stars数: 1954个
来源:韩国大学的Yunjey Choi
No.24 MI-agents:
Unity 机器学习智能体
GitHub stars数: 1658个
来源:深度学习 Unity3D 的Arthur Juliani
No.25 Deep Video Analytics:
分布式可视化搜索和可视化数据分析平台
GitHub stars数: 1494个
来源:康奈尔大学的Akshay Bhat
No.26 OpenNMT:
Torch 上的开源神经机器翻译
GitHub stars数:1490个
No.27 Pix2PixHD:
使用条件 GAN 合成和处理 2048×1024 分辨率的图像
GitHub stars数:1283个
来源:英伟达 AI 科学家 Ming-Yu Liu
No.28 Horovod:
分布式 TensorFlow 训练框架
GitHub stars数:1188 个
来源:Uber 工程团队
No.29 AI-Blocks:
强大而直观的 WYSIWYG 界面,可让任何人创建机器学习模型
GitHub stars数:899 个
No.30 Voice Conversion with Non-Parallel Data:
基于 TensorFlow 的深度神经网络语音转换(语音风格转换)
GitHub stars数:845个
来源:Kakao Brain人工智能研究团队的Dabi Ahn
【今日机器学习概念】Have a Great Definition
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。