什么是商業智能
什么是數據倉庫
DW:Data Warehouse,數據倉庫,數據庫的升級概念,一般量更龐大,將多個數據來源的數據進行匯總、整理而來
什么是數據挖掘
DM:Data Mining,數據挖掘
數據挖掘流程:Knowledge Discovery in Database,也叫數據庫中的知識發現,簡稱KDD
KDD流程:輸入數據->數據預處理->數據挖掘->后處理->信息
數據清洗:去除重復數據、干擾數據及填充缺失值
數據集成:將多個數據源中的數據存放在一個統一的數據存儲中
數據變換:將數據轉換成適合數據挖掘的形式,比如將數值東籬一個特定的0~1的區間
1. 數據挖掘的核心
分類:通過訓練集得到一個分類模型,然后用這個模型可以對其他數據進行分類 分類是已知了類別,然后看樣本屬于哪個分類
聚類:將數據自動聚類成幾個類別, 聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類
預測:通過當前和歷史數據預測未來趨勢,可以更好地幫助我們識別機遇和風險
關聯分析:發現數據中的關聯規則,被廣泛應用于購物、事務數據分析中
2. 數據挖掘的基本流程
商業理解:從商業的角度理解項目需求
數據理解:嘗試收集部分數據,對數據進行探索
數據準備:開始收集數據,并進行清洗、集成等操作
模型建立:選擇和應用數據挖掘模型,并進行優化,以便得到更好的分類結果
模型評估:對模型進行評價,確認模型是否實現了預定的商業目標
上線發布:把挖掘的知識轉換成用戶的使用形式
數據挖掘的數學基礎
概率論與數據統計
線性代數
圖論
最優化方法
數據挖掘的十大算法
1. 分類
C4.5:十大算法之首,決策樹算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的數據
樸素貝葉斯:基于概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
SVM:超平面的分類模型
KNN:每個樣本的分類都可以用其最接近的K個鄰居的分類代表
Adaboost:構建分類器的提升算法,可以讓多個弱的分類器組成一個強的分類器
CART:決策樹算法,分類樹 + 回歸樹
2. 聚類
K-Means:將物體分成K類,計算新點跟K個中心點的距離,哪個距離近,則新點歸為哪一類
EM:最大期望算法,求參數的最大似然估計的一種方法
3. 關聯分析
Apriori:挖掘關聯規則的算法,通過挖掘頻繁項集揭示物品之間的關聯關系
4. 連接分析
PageRank:起源于論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用于計算網頁權重
什么是數據可視化
數據可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息,讓我們直觀了解數據分析的結果
數據可視化工具:
1. python庫
Matplotlib
Seaborn
Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
2. 商業智能軟件
Tableau
PowerBI
3. 可視化大屏
大屏作為一種視覺效果強、科技感強的技術,被企業老板所青睞,可以很好地展示公司的數據化能力
4. 前端可視化組件
可視化組件都是基于 Web 渲染的技術的
Web 渲染技術:Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)
什么是用戶畫像
簡單的說,用戶畫像就是標簽的匯總,用戶畫像是現實世界中的用戶的數學建模,將海量數據進行標簽化,來復以更精準的用戶畫像,用戶標簽能產生的業務價值
在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的用戶
在粘客上,提升用戶的單價和消費頻次
在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%
1. 用戶標簽4個緯度
基礎信息:性別、年齡、地域、收入、學歷、職業等
消費信息:消費習慣、購買意向、是否對促銷敏感
行為分析:時間段、頻次、時長、訪問路徑
內容分析:瀏覽的內容、停留時長、瀏覽次數,內容類型,如金融、娛樂、教育、體育、時尚、科技等
2. 數據處理的3個階段
業務層:獲客預測、個性化推薦、用戶流失率、GMV趨勢預測
算法層:用戶興趣、用戶活躍度、產品購買偏好、用戶關聯關系、用戶滿意度、渠道使用偏好、支付使用偏好、優惠券偏好
數據層:用戶屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次
什么是埋點
在需要的位置采集相應的信息,進行上報。比如用戶信息、設備信息、操作行為數據,埋點一般是在需要統計數據的地方植入統計代碼。
數據采集都有哪些方式
開源數據源
爬蟲抓取
日志采集
傳感器
什么是數據清洗
數據清洗是去除重復數據、干擾數據及填充缺失值。
數據清洗的4個關鍵點(完全合一):
完整性:單條數據是否存在空值,統計的字段是否完善
全面性:觀察某一列的全部數值,判斷列是否有問題,比如:數據定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
合法性:數據的類型、內容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。
唯一性:數據是否存在重復記錄。因為數據通常來自不同渠道的匯總,重復的情況是常見的,行和列數據都需要是唯一的
什么是數據集成
數據集成是將多個數據源合并存放在一個數據存儲中(如數據倉庫) 大數據項目中80%的工作都和數據集成有關。
Extract / 提取 :從datasource/txt/csv/Excel/等原始數據源中 Extract數據
Transform / 轉換 :將數據預處理,字段補全、類型檢查、去除重復數據等,根據預定的條件將數據統一起來
Load / 裝載 :將轉換完的數據存到數據倉庫中
1. 數據集成的兩種架構
ELT 過程為數據提取(Extract)——轉換(Transform)——加載(Load),在數據源抽取后首先進行轉換,然后將轉換的結果寫入目的地。
ETL 過程為數據提取(Extract)——加載(Load)——轉換(Transform),在數據抽取后將結果先寫入目的地,然后利用數據庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。
2. ETL和ELT的區別
ETL和ELT主要是先清洗數據還是先入庫的區別。ETL一般使用主流框架用程序在提取的時候就將數據進行清洗,ELT則是將數據存到數據倉庫,再用sql進行數據清洗。
未來使用ELT作為數據集成架構的會越來越多,有以下好處:
使用 ELT 方法,在提取完成之后,數據加載會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數據,為分析師提供了更大的靈活性,使之能更好地支持業務。
在 ELT 架構中,數據變換這個過程根據后續使用的情況,需要在 SQL 中進行,而不是在加載階段進行。這樣做的好處是你可以從數據源中提取數據,經過少量預處理后進行加載。這樣的架構更簡單,使分析人員更好地了解原始數據的變換過程。
什么是數據變換
數據變換是數據準備的重要環節,通過數據平滑、數據聚集、數據概化和規范化等方式將數據轉換成適用于數據挖掘的形式。
1. 數據平滑
去除數據中的噪聲,將連續數據離散化
2. 數據聚集
對數據進行匯總,例如Sum、Max、Mean等
3. 數據概化
將數據由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。
4. 數據規范化
合屬性數據按比例縮放,將原來的數值映射到新的特定區域中。
min-max規范化:將原始數據變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函數
z-score規范化:可以用相同的標準比較不同規格的成績。公式為:新數值=(原數值-均值) / 標準差。對應的有SciKit-Learn的preprocessing.scale函數,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分布
小數定標規范:通過移動小數點的位置來進行規范化
5. 屬性構造
構造出新的屬性并添加到屬性集中。
什么是方差、標準差
方差和標準差是測算離散趨勢最重要、最常用的指標
標準差是方差的平方根
一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
由于方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。
End.
作者:雪山飛豬