原文:Who contributed the most to open source in 2017? Let’s analyze GitHub’s data and find out
作者:Felipe Hoffa
翻譯:無阻我飛揚
摘要:作者依據來自GitHub 2017年度的數據,對近百家公司的開源貢獻數據進行了分析排名,也對自己的分析方法做了說明,以下是譯文。
這篇分析,我們將看到GitHub在2017年度發表的所有的pushevents
。對每個GitHub用戶,我們不得不盡最大努力推測他們屬于哪個組織。本分析只關注在 2017 年增長超過 20 個 star 的倉庫。
下面是我的分析結果,大家可以在我的交互數據倉庫報告中修改這些結果。
2017年度GitHub數據:
亞馬遜遠遠落后于微軟和谷歌,那處在它們之間的有哪些公司呢? 根據貢獻情況排名如下:RedHat,Pivotal,Intel也對GitHub做出了突出貢獻。
注意,下面的表格合并了所有的IBM全球的域名(IBM在各個國家的域名都會帶有各個國家的域名后綴)——雖然各個區域仍舊出現在接下來的表格中。
Facebook 和 IBM(US) 的 GitHub 用戶數量與亞馬遜的相似,但它們貢獻的項目收獲到了更多的 star(尤其是 Facebook):
緊接著是Alibaba, Uber, 和 Wix:
GitHub自己,Apache 和 Tencent:
Baidu, Apple, Mozilla:
Oracle, Stanford, Mit, Shopify, MongoDb, Berkeley, VmWare, Netflix, Salesforce, Gsa.gov:
LinkedIn, Broad Institute, Palantir, Yahoo, MapBox, Unity3d, Automattic, Sandia, Travis-ci, Spotify:
Chromium, UMich, Zalando, Esri, IBM (UK), SAP, EPAM, Telerik, UK Cabinet Office, Stripe:
Cern, Odoo, Kitware, Suse, Yandex, IBM (Canada), Adobe, AirBnB, Chef, The Guardian:
Arm, Macports, Docker, Nuxeo, NVidia, Yelp, Elastic, NYU, WSO2, Mesosphere, Inria
Puppet, Stanford (CS), DatadogHQ, Epfl, NTT Data, Lawrence Livermore Lab:
確定每個GitHub用戶隸屬于哪個組織并不容易—但是我們可以通過email的域名來確定,域名信息包含在提交的PushEvents里:
#standardSQLWITHperiod AS ( SELECT * FROM `githubarchive.month.2017*` a),repo_stars AS ( SELECT repo.id, COUNT(DISTINCT actor.login) stars, APPROX_TOP_COUNT(repo.name, 1)[OFFSET(0)].value repo_name FROM period WHERE type='WatchEvent' GROUP BY 1 HAVING stars>20), pushers_guess_emails_and_top_projects AS ( SELECT *# , REGEXP_EXTRACT(email, r'@(.*)') domain, REGEXP_REPLACE(REGEXP_EXTRACT(email, r'@(.*)'), r'.*.ibm.com', 'ibm.com') domain FROM (SELECT actor.id , APPROX_TOP_COUNT(actor.login,1)[OFFSET(0)].value login , APPROX_TOP_COUNT(JSON_EXTRACT_SCALAR(payload, '$.commits[0].author.email'),1)[OFFSET(0)].value email , COUNT(*) c , ARRAY_AGG(DISTINCT TO_JSON_STRING(STRUCT(b.repo_name,stars))) reposFROM period aJOIN repo_stars bON a.repo.id=b.idWHERE type='PushEvent'GROUP BY 1HAVING c>3 )) SELECT * FROM ( SELECT domain, githubers, (SELECT COUNT(DISTINCT repo) FROM UNNEST(repos) repo) repos_contributed_to, ARRAY( SELECT AS STRUCT JSON_EXTRACT_SCALAR(repo, '$.repo_name') repo_name , CAST(JSON_EXTRACT_SCALAR(repo, '$.stars') AS INT64) stars , COUNT(*) githubers_from_domain FROM UNNEST(repos) repo GROUP BY 1, 2 HAVING githubers_from_domain>1 ORDER BY stars DESC LIMIT 3 ) top, (SELECT SUM(CAST(JSON_EXTRACT_SCALAR(repo, '$.stars') AS INT64)) FROM (SELECT DISTINCT repo FROM UNNEST(repos) repo)) sum_stars_projects_contributed_to FROM (SELECT domain, COUNT(*) githubers, ARRAY_CONCAT_AGG(ARRAY(SELECT * FROM UNNEST(repos) repo)) reposFROM pushers_guess_emails_and_top_projects#WHERE domain IN UNNEST(SPLIT('google.com|microsoft.com|amazon.com', '|'))WHERE domain NOT IN UNNEST(SPLIT('gmail.com|users.noreply.github.com|qq.com|hotmail.com|163.com|me.com|googlemail.com|outlook.com|yahoo.com|web.de|iki.fi|foxmail.com|yandex.ru', '|')) # email hostersGROUP BY 1HAVING githubers > 30 ) WHERE (SELECT MAX(githubers_from_domain) FROM (SELECT repo, COUNT(*) githubers_from_domain FROM UNNEST(repos) repo GROUP BY repo))>4 # second filter email hosters)ORDER BY githubers DESC
我做了關聯過濾,只計算了2017年度的star數。例如,在GitHub上Apache有大于1500個倉庫,但在2017年,只有205個收到多于20個star數。
請注意,分析GitHub數據不包括頂級的團體,如Android,Chromium, GNU, Mozilla,也不包括Apache或者Eclipse基金會,還有一些其它項目選擇在GitHub之外運行它們的大部分活動。
我只能計算我所能看見的。大家可以質疑我的臆斷,告訴我你如何用更好的方式來衡量。工作查詢是最好的方法。
例如,當將IBM的基于區域的域名用一個SQL轉換語句合并為頂級域名時,看看它們的排名是如何變化的:
SELECT *, REGEXP_REPLACE(REGEXP_EXTRACT(email, r'@(.*)'), r'.*.ibm.com', 'ibm.com') domain
我以前可能錯過——錯誤可能還會再次發生。請看看GitHub所有可用的原始數據,并質疑我所有的臆斷——那會很酷,可以看看你會得到什么樣的結果。