精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數據科學簡化講解:原理和過程

2006年,英國數學家Clive Humbly和Tesco俱樂部卡的設計師創造了“數據就是新油(Data is the new oil)”這句話。他說:

“數據是新的石油。它很有價值,但如果未經提煉就不能使用。它必須轉變為天然氣,塑料,化學品等,以創造一個有價值的實體驅動盈利的活動; 所以,必須對數據進行分解和分析,才能使其具有價值。“

在本文中,我將首先介紹數據科學中的基本原理,一般過程和問題類型。

數據科學是一個多學科領域。它是以下領域之間的交集:

  • 商業知識
  • 機器學習
  • 計算機編程

我們的重點將是簡化數據科學的機器學習方面。在本文中,我將首先介紹數據科學中的原理,一般過程和問題類型。

關鍵原理

  • 數據是一項戰略資產:這一概念是一種組織心態。要問的問題是:“我們是否正在使用我們收集和存儲的所有數據資產?我們能從中獲取有意義的見解嗎?“ 我確信這些問題的答案都是“不”。云計算的公司本質上是數據驅動的,將數據視為戰略資產是他們的心理,這種心態對大多數組織都無效。
  • 信息提取的系統過程:需要有一個有條理的過程來從數據中提取見解。這個過程應該有清晰明確的階段,并有明確的可交付成果。跨行業標準數據挖掘流程(CRISP-DM)就是這樣一個過程。
  • 沉浸在數據中:組織需要投資于對數據充滿熱情的人。將數據轉化為見解并不是魔法,他們需要了解數據所產生的價值,他們需要能夠連接數據,技術和業務的人員。
  • 不確定性因素:數據科學不是靈丹妙藥,它不是一個水晶球。與報告和KPI一樣,它是決策促成因素。數據科學是一種工具,而不是結束的手段,它不屬于絕對領域,它屬于概率領域,管理者和決策者需要接受這一事實。他們需要在決策過程中接受量化的不確定性,如果組織采用失敗的快速學習方法,這種不確定性只能根深蒂固。只有組織選擇實驗文化,它才會蓬勃發展。
  • BAB原則:我認為這是最重要的原則。許多數據科學文獻的重點是模型和算法,這個等式沒有商業背景。業務分析 - 業務(BAB)是強調業務部分的原則,將它們置于業務環境中是至關重要的。定義業務問題,使用分析來解決它。將輸出集成到業務流程中。BAB。

處理

根據第二條原則,現在讓我強調一下數據科學的過程部分。以下是一個典型的數據科學項目的階段:

1.定義業務問題

阿爾伯特愛因斯坦曾引用“每件事都應該盡可能地簡單,但不能越簡單越好”。這句話是定義業務問題的關鍵。需要開發和構建問題陳述,需要建立明確的成功標準。根據我的經驗,業務團隊忙于處理他們的操作任務。這并不意味著他們沒有需要解決的挑戰。頭腦風暴會議,研討會和訪談可以幫助發現這些挑戰并提出假設。讓我用一個例子來說明這一點。讓我們假設一家電信公司由于客戶群減少而導致其同比收入下降。在這種情況下,業務問題可能定義為:

  • 該公司需要通過定位新的細分市場和減少客戶流失來擴大客戶群。

2.分解為機器學習任務

業務問題一旦定義,就需要分解為機器學習任務。讓我們詳細說明我們在上面設置的示例。如果組織需要通過定位新的細分市場并減少客戶流失來擴大客戶群,那么我們如何將其分解為機器學習問題?以下是分解的示例:

  • 將客戶流失率降低x%。
  • 為目標市場確定新的客戶群。

3.數據準備

一旦我們定義了業務問題并將其分解為機器學習問題,我們就需要深入研究數據。數據理解應該明確手頭的問題。它應該有助于我們制定正確的分析策略。需要注意的關鍵事項是數據來源,數據質量,數據偏差等。

4.探索性數據分析

宇航員穿越宇宙的未知。同樣,數據科學家遍歷數據模式的未知,窺探其特征的奧秘并制定出未被探索的內容。探索性數據分析(EDA)是一項令人興奮的任務。我們可以更好地理解數據,研究其中的細微差別,發現隱藏的模式,開發新特性并制定建模策略。

5.建模

在EDA之后,我們進入建模階段。在這里,我們根據具體的機器學習問題,我們應用有用的算法,如回歸,決策樹,隨機森林等。

6.部署和評估

最后,對所開發的模型進行了部署。它們被持續監測,以觀察它們在現實世界中的行為,并據此進行校準。

通常,建模和部署部分僅占工作量的20%。80%的工作是接觸數據,探索數據并理解數據。

機器學習問題類型

一般來說,機器學習有兩種任務:

監督學習

監督學習是一種機器學習任務,其中存在已定義的目標。從概念上講,建模者將監督機器學習模型以實現特定目標。監督學習可以進一步分為兩類:

回歸

回歸是機器學習任務的主力。它們用于估計或預測數值變量。回歸模型的幾個例子可以是:

  • 下個季度潛在收入的預測?
  • 明年能夠完成多少筆交易?

分類

顧名思義,分類模型對某些事物進行了分類。估計哪個最合適。分類模型經常用于所有類型的應用程序。分類模型的例子很少:

  • 垃圾郵件過濾是分類模型的流行實現。在這里,根據特定特征,每個傳入的電子郵件都被歸類為垃圾郵件或非垃圾郵件。
  • 客戶流失預測是分類模型的另一個重要應用。在電信公司中廣泛使用的流失模型可以對給定客戶是否會流失(即停止使用服務)進行分類。

無監督學習

無監督學習是一類沒有目標的機器學習任務。由于無監督學習沒有任何特定目標,因此有時難以解釋其產生的結果。有許多類型的無監督學習任務。關鍵是:

  • 聚類:聚類是將類似事物組合在一起的過程。客戶細分使用聚類方法。
  • 關聯:關聯是一種尋找經常相互匹配的產品的方法。零售市場分析使用關聯方法將產品捆綁在一起。
  • 預測:預測用于發現數據項之間的連接。Facebook,亞馬遜和Netflix采用的推薦引擎大量使用鏈接預測算法來分別向我們推薦朋友、要購買的商品和電影。
  • 數據簡化:數據簡化方法用于簡化從許多特征到少數特征的數據集。它使用具有許多屬性的大型數據集,并找到用更少的屬性表示它們的方法。

機器學習任務從模型到算法

一旦我們將業務問題分解為機器學習任務,一個或多個算法就可以解決給定的機器學習任務。通常,模型是在多種算法上訓練的。選擇提供最佳結果的算法或算法集用于部署。

Azure Machine Learning具有30多種預先構建的算法,可用于訓練機器學習模型。

Azure Machine Learning備忘錄將有助于瀏覽它。

結論

數據科學是一個廣闊的領域。這是一個令人興奮的領域。這是一門藝術,這是一門科學。在本文中,我們剛剛探討了冰山的表面。如果不知道“為什么”,那么“如何”將是徒勞的。在隨后的文章中,我們將探討機器學習的“原理”。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
萬字干貨|一文助你了解機器學習
數據分析:揭示戰略重點舉措的隱藏模式
從來沒有接觸過編程的人怎樣從頭開始自學python?
簡明數據科學 第一部分:原則與過程
機器學習的基本任務是什么?
機器學習專題
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 嘉荫县| 岢岚县| 淮阳县| 屯昌县| 新源县| 麻江县| 昌邑市| 庆阳市| 汤阴县| 阳曲县| 宁化县| 晴隆县| 抚宁县| 长春市| 登封市| 观塘区| 武邑县| 通州市| 库车县| 民和| 太仆寺旗| 应城市| 武宣县| 普定县| 册亨县| 荥阳市| 乌拉特中旗| 无极县| 安国市| 四川省| 自治县| 新津县| 颍上县| 九台市| 宁蒗| 桐城市| 海宁市| 富裕县| 潞城市| 五台县| 南投县|