精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
25個免費數(shù)據(jù)集網(wǎng)站大放送——For 熱愛數(shù)據(jù)科學(xué)的你

如果要一句話概括數(shù)據(jù)科學(xué)的本質(zhì),那就是:

“學(xué)習(xí)數(shù)據(jù)科學(xué)最好的方法就是應(yīng)用數(shù)據(jù)科學(xué)。”

如果你是一個初學(xué)者,那么這將對你正在運營的新項目幫助極大。如果你是一個有經(jīng)驗的數(shù)據(jù)科學(xué)專家,那么我想你已經(jīng)懂我在說什么了。

然而,當我向人們給到此類建議時,他們通常會反問我——那我可以在哪里獲取到數(shù)據(jù)集進行練習(xí)呢?可能有的同學(xué)們還不太了解,現(xiàn)在有很多數(shù)據(jù)集是開放的。

如果你現(xiàn)在也需要大量的數(shù)據(jù)集進行練習(xí),那么本文就可以解決你現(xiàn)在的困境,你可以利用這些數(shù)據(jù)進行練習(xí),甚至可以利用它們創(chuàng)建自己的項目,甚至是產(chǎn)品。

如何利用這些資源?

對于數(shù)據(jù)的應(yīng)用來說,是無止境的。如果在這里提供了具體的應(yīng)用方法或者使用方式只會限制你的創(chuàng)造力。

我想最簡單的方法就是使用她們來創(chuàng)建自己的“數(shù)據(jù)故事”,并將其發(fā)布在自己的博客里。這不僅可以提高你的數(shù)據(jù)可視化技能,還可以提高你的結(jié)構(gòu)化思維。

另一方面,如果你正在考慮或者已經(jīng)在運營一款數(shù)據(jù)產(chǎn)品,本文中的這些數(shù)據(jù)集將可以為你提供額外的新的數(shù)據(jù)源。

在本文中,我將這些數(shù)據(jù)源基于應(yīng)用將其分為不同的類別。首先從簡單通用且容易處理的數(shù)據(jù)集開始,然后最后是大量的或行業(yè)相關(guān)的數(shù)據(jù)集。接下來我們再來為特定的需求來進行為本挖掘、圖像分類等等。

如果你還想到了其他的數(shù)據(jù)集資源,請在評論中與我分享哦~

簡單&通用的數(shù)據(jù)集——for 初學(xué)者

data.gov(https://www.data.gov/)——這是美國政府公開數(shù)據(jù)源的站點。Data.gov提供各種數(shù)據(jù)及標準數(shù)據(jù)接口,方便用戶下載數(shù)據(jù),參與政府事務(wù),提供反饋意見和建議,消除政府和公眾之間的信息不對稱問題。這個站點上有多種領(lǐng)域的數(shù)據(jù),包括氣候、教育、能源和金融等等。

data.gov

data.gov.in(https://data.gov.in/)該站點為印度政府的公開數(shù)據(jù)網(wǎng)站。在該站點上你可以找到各種行業(yè)的數(shù)據(jù),類似氣候、健康等等。

data.gov.in

World Bank(http://www.shihang.org/)從該網(wǎng)站上你可以獲取到世界銀行的公開數(shù)據(jù)。該站點提供類似數(shù)據(jù)目錄、DataBank和微數(shù)據(jù)這樣的數(shù)據(jù)工具可供你在線使用。

World Bank

RBI(https://rbi.org.in/Scripts/Statistics.aspx)該站點為印度央行的公開數(shù)據(jù)。你可以在該站點中查看到類似貨幣市場業(yè)務(wù)、國際收支以及一些產(chǎn)品的使用等等。如果你身處印度的BFSI(Banking, Financial services and Insurance)行業(yè),我想這是一個你必去的網(wǎng)站。

RBI

Five Thirty Eight Datasets(https://github.com/fivethirtyeight/data),該站點中的每一個數(shù)據(jù)集中都有大量的數(shù)據(jù),以及一個對數(shù)據(jù)進行解釋的字典。如果你正在學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,那么。這將是你最好的選擇。

Five Thirty Eight Datasets

大數(shù)據(jù)集——難度提升!

Amazon Web Services (AWS) datasets(https://aws.amazon.com/datasets/)亞馬遜提供了一些大數(shù)據(jù)集,你可以在他們的平臺或者本地計算機上使用。

Google datasets(https://cloud.google.com/bigquery/public-data/)作為BigQuery的一部分,Google提供了一些大數(shù)據(jù)集,該站點上的數(shù)據(jù)集包括嬰兒名字,GitHub的公開數(shù)據(jù)等等。

Youtube labeled Video Dataset(https://research.google.com/youtube8m/)幾個月前,Google Research Group發(fā)布了Youtube的數(shù)據(jù)集。其中包括800萬Youtube視頻ID和相關(guān)標簽。

預(yù)測模型&機器學(xué)習(xí)數(shù)據(jù)集

UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets.html)UIC機器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲庫。這通常是你尋找數(shù)據(jù)集相關(guān)的第一個機器學(xué)習(xí)庫。在這里有各種數(shù)據(jù)集,從泰坦尼克相關(guān)數(shù)據(jù)到最近的空氣質(zhì)量和GPS數(shù)據(jù)等。存儲庫中有超過350種分類。你可以利用這些分類過濾器來確定自己需要的數(shù)據(jù)集。

Kaggle(https://www.kaggle.com/datasets)該站點是一個可以讓人們捐贈自己的數(shù)據(jù)集的地方,同時其他的成員可以對其進行使用和優(yōu)化。他們有超過350個數(shù)據(jù)集。這個站點的另一個優(yōu)勢在于 ,你可以看到其他成員的提問和他們寫的腳本等信息。

Analytics Vidhya(https://datahack.analyticsvidhya.com/contest/all/)你可以從該站點下載數(shù)據(jù)集,但是該站點的數(shù)據(jù)量級相對較小。

Quandl(https://www.quandl.com/)該站點提供經(jīng)濟、金融以及其他各種他們通過自己的網(wǎng)站/API獲取并整合的公開數(shù)據(jù)源。在該站點上的數(shù)據(jù)源分為公開版和高級版。你可以免費使用公開版的數(shù)據(jù)源,但是需要支付一定的費用才可以訪問高級版。

Past KDD Cups(http://www.kdd.org/kdd-cup)KDD Cups是ACM Special Interest Group組織的競賽,每年舉行一次,有關(guān)發(fā)現(xiàn)和數(shù)據(jù)挖掘。獲獎?wù)呖梢允褂闷渲械拇蟛糠仲Y源。

Driven Data(https://www.drivendata.org/)Driven Data發(fā)現(xiàn)數(shù)據(jù)科學(xué)可以用來對社會產(chǎn)生積極的影響。然后他們通過運行在線建模競賽的方式讓數(shù)據(jù)科學(xué)家可以開發(fā)最好的模型來解決這些問題。

圖像分類數(shù)據(jù)集

The MNIST Database(http://yann.lecun.com/exdb/mnist/)該站點是最受歡迎的手寫數(shù)據(jù)圖像識別數(shù)據(jù)集。這個站點上有6萬個訓(xùn)練案例和1萬組練習(xí)集。這通常會是新手使用的第一個圖像識別訓(xùn)練數(shù)據(jù)集。

The MNIST Database

Chars74K(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)該站點上是圖像識別的下一個階段,如果你已經(jīng)掌握了手寫圖像數(shù)據(jù),在該站點上你可以得到很多關(guān)于自然圖像識別的數(shù)據(jù)集。在該站點上包含了74000張圖片。

Chars74K

Frontal Face Images(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)如果你已經(jīng)對前兩個站點的項目有一定的了解,那么這個站點就是下一個挑戰(zhàn)——人臉識別。圖片是由卡內(nèi)基梅隆大學(xué)和麻省理工大學(xué)整理收集,分別存放在4個文件夾下。

Frontal Face Images

ImageNet(http://image-net.org/)現(xiàn)在要為大家介紹一些通用的資料。圖像數(shù)據(jù)集是根據(jù)WordNet的層級來組織的。

ImageNet

文本分類數(shù)據(jù)集

Spam – Non Spam(http://www.esp.uem.es/jmgomez/smsspamcorpus/)這是一個對垃圾信息標記收集的研究站點。


Spam – Non Spam

Twitter Sentiment Analysis(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)該站點中包含1,578,627個已經(jīng)分類的推特狀態(tài)。每一條都被標記了是積極情緒還是消極情緒。數(shù)據(jù)是基于Kaggle和Nick Sanders的調(diào)研結(jié)果。

Twitter Sentiment Analysis

Movie Review Data(http://www.cs.cornell.edu/People/pabo/movie-review-data/)該網(wǎng)站提供了有關(guān)電影評論的集合文件,用正面或者負面情緒以及主觀評級將其標注。

Movie Review Data

推薦引擎數(shù)據(jù)集

GroupLens(http://grouplens.org/)該站點通過對真實的個人創(chuàng)建深度分析系統(tǒng),來改進社交計算的理論和實踐。同時在GroupLens Research中,收集了MovieLens中的網(wǎng)站數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的大小,在不同的時間段收集數(shù)據(jù)。

GroupLens

Jester(http://www.ieor.berkeley.edu/~goldberg/jester-data/)這是一個有關(guān)線上笑話評論系統(tǒng)的數(shù)據(jù)集。

Jester

其他數(shù)據(jù)源網(wǎng)站

KDNuggets(http://www.kdnuggets.com/datasets/index.html)在KNDuggets上的這個頁面一直是人們尋找數(shù)據(jù)集的一個頁面。但是有一些數(shù)據(jù)源已經(jīng)不再提供數(shù)據(jù)集,所以建議在下載或者使用時謹慎按需選擇。


KDNuggets

Awesome Public Datasets(https://github.com/caesar0301/awesome-public-datasets),這是一個GitHub上的數(shù)據(jù)集分類綜合列表。在這個列表中數(shù)據(jù)集被分為各種種類。

Awesome Public Datasets

Reddit Datasets Subreddit(https://www.reddit.com/r/datasets/)因為這是一個社區(qū)論壇,可能你會覺得這個網(wǎng)站又短混亂。但是,你可以通過人氣對數(shù)據(jù)集排序,來查看最受的歡迎的數(shù)據(jù)集是哪些。同時在這個站點上你可以發(fā)現(xiàn)很多有趣的討論。

Reddit Datasets Subreddit

小結(jié):

希望以上資源對于大家學(xué)習(xí)數(shù)據(jù)科學(xué)有所助益。對于初學(xué)者來說,這絕對是個實戰(zhàn)練習(xí)的絕佳資源。如果你還有其他的數(shù)據(jù)科學(xué)練習(xí)資源,歡迎在評論區(qū)和大家分享~!

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
20個非常好的免費數(shù)據(jù)源(免費哦!)
入門|從文本處理到自動駕駛:機器學(xué)習(xí)最常用的50大免費數(shù)據(jù)集
力薦!50 個最實用的免費機器學(xué)習(xí)數(shù)據(jù)集
運動想象,情緒識別等公開數(shù)據(jù)集匯總
機器學(xué)習(xí)和數(shù)據(jù)科學(xué)的最佳公共數(shù)據(jù)集
上海交大:我們做了一個醫(yī)療版MNIST數(shù)據(jù)集,發(fā)現(xiàn)常見AutoML算法沒那么好用
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 武宁县| 庐江县| 灵丘县| 徐汇区| 金秀| 扎鲁特旗| 南汇区| 宁城县| 五河县| 桃江县| 清流县| 阳新县| 镇原县| 新邵县| 安化县| 嫩江县| 四子王旗| 定远县| 鸡东县| 洛宁县| 滕州市| 红安县| 鹰潭市| 黎城县| 霍城县| 昌都县| 昭苏县| 黄石市| 右玉县| 河北区| 富源县| 湘潭市| 淮安市| 天津市| 锦屏县| 孟州市| 阜新市| 灵武市| 阳新县| 沙田区| 阳西县|