大數據文摘作品
編譯:葉一、Shan LIU、Aileen
2017年是機器學習應用全面開花的一年,驚為天人的想法和項目層出不窮。我們對比了過去一年中近8800個開源機器學習項目,并挑選了其中較好的30個(Top 0.3%)列舉于此。
這是一份極具競爭性的列表,它精挑細選了發表于2017年1月-12月份的機器學習庫、數據集和應用類的優質項目。我們通過流行度、參與度和時近性來對其質量進行評級。有一項數據可以讓你對表單質量有一個直觀印象:這些項目的GitHub平均stars數是3558。
開源項目對于數據科學家而言是很有意義的。你可以通過閱讀源代碼,在前人的基礎上構建更加強大的項目。你可以盡情嘗試一下這些可能在去年與你失之交臂的機器學習項目。
No.1 - FastText:快速文本表示/分類庫
GitHub stars數: 11786個
來源:Facebook研究
鏈接:
https://github.com/facebookresearch/fastText
以及[Muse:基于FastText的多語言無監督/監督詞嵌入(GitHub stars數:695個)https://github.com/facebookresearch/MUSE]
No.2- Deep-photo-styletransfer:康奈爾大學 Fujun Luan 論文《Deep Photo Style Transfer》的代碼與數據
GitHub stars數:9747個
鏈接:
https://github.com/luanfujun/deep-photo-styletransfer
No.3 - face recognition:世界上最簡單的適用于Pyhthon的面部識別api以及命令行
GitHub stars數:8672個
來源:Adam Geitgey
鏈接:
https://github.com/ageitgey/face_recognition
No.4 - Magenta:機器智能音樂與藝術生成器
GitHub stars數:8113
鏈接:
https://github.com/tensorflow/magenta
No.5 - Sonnet:基于 TensorFlow 的神經網絡庫
GitHub stars數:5731個
來源:DeepMind 成員 Malcolm Reynolds
鏈接:
https://github.com/deepmind/sonnet
No.6 - deeplearn.js:網頁端硬件加速機器學習庫
GitHub stars數:5462個
來源:Google Brain 團隊 Nikhil Thorat
鏈接:
https://github.com/PAIR-code/deeplearnjs
No.7 - Fast Style Transfer:TensorFlow 快速風格轉換
GitHub stars數:4843個
來源:MIT的Logan Engstrom
鏈接:
https://github.com/lengstrom/fast-style-transfer
No.8 - Pysc2:星際爭霸II 學習環境
GitHub stars數:3683個
來源:DeepMind Timo Ewalds 等人
鏈接:
https://github.com/deepmind/pysc2
No.9 - AirSim:微軟AI和研究院出品的基于虛幻引擎的開源自動駕駛模擬器
GitHub stars數:3681個
來源:微軟的Shital Shah
鏈接:
https://github.com/Microsoft/AirSim
No.10 - Facets:機器學習數據集可視化工具
GitHub stars數:3371個
來源:Google Brain
鏈接:
https://github.com/PAIR-code/facets
No.11 - Style2Paints:AI漫畫線稿上色工具
GitHub stars數: 3310個
鏈接:
https://github.com/lllyasviel/style2paints
No.12 - Tensor2Tensor:用于廣義序列-序列模型的工具庫
GitHub stars數目: 3087個
來源:Google Brain 的Ryan Sepassi
鏈接:
https://github.com/tensorflow/tensor2tensor
No.13- 基于 PyTorch 的圖像對圖像轉換工具 (如horse2zebra, edges2cats,等)
GitHub stars數:2847個
來源:UC Berkeley 朱俊彥博士
鏈接:
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
No.14 - Faiss:用密集向量高效相似性檢索與聚類的工具庫
GitHub stars數:2629個
來源:Facebook
鏈接:
https://github.com/facebookresearch/faiss
No.15 Fashion-mnist:一個類似于 MNIST 的時尚產品數據集
GitHub stars數:2780個
來源:Zalando Tech 的 Han Xiao
鏈接:
https://github.com/zalandoresearch/fashion-mnist
No.16 - ParlAI:適用于在各類公開的對話數據集上訓練與評估AI模型的一個框架
GitHub stars數: 2578個
來源:Facebook Research的 Alexander Miller
鏈接:
https://github.com/facebookresearch/ParlAI
No.17 Fairseq:序列到序列工具包
GitHub stars數: 2571個
來源:FAIR
鏈接:
https://github.com/facebookresearch/fairseq
No.18 Pyro:使用 Python 和 PyTorch 進行深度通用概率編程
GitHub stars數: 2387個
來源:Uber AI Labs
鏈接:
https://github.com/uber/pyro
No.19 iGAN:基于 GAN 的交互圖像生成器
GitHub stars數: 2369個
鏈接:
https://github.com/junyanz/iGAN
No.20 Deep-image-prior:使用神經網絡進行圖像恢復,然而無需學習過程
GitHub stars數: 2188個
來源:Skoltech 的 Dmitry Ulyanov博士
鏈接:
https://github.com/DmitryUlyanov/deep-image-prior
No.21 Face_classification:基于 Keras CNN 模型與 OpenCV 的實時面部檢測和表情/性別分類,訓練與 fer2013/imdb 數據集
GitHub stars數: 1967個
鏈接:
https://github.com/oarriaga/face_classification
No.22 Speech to Text WaveNet:使用 DeepMind 的 WaveNet 和 TensorFlow 構成的端到端句級英語語音識別
GitHub stars數: 1961個
來源: Kakao Brain 的 Namju Kim
鏈接:
https://github.com/buriburisuri/speech-to-text-wavenet
No.23 StarGAN:用于多領域圖像-圖像轉換的統一生成對抗網絡
GitHub stars數: 1954個
來源:韓國大學的Yunjey Choi
鏈接:
https://github.com/yunjey/StarGAN
No.24 MI-agents:Unity 機器學習智能體
GitHub stars數: 1658個
來源:深度學習 Unity3D 的Arthur Juliani