什么是商業智能

BI：Business Intelegence，商業智能，基于數據倉庫，經過數據挖掘后，得到了商業價值的過程。例如利用數據預測用戶購物行為屬性商業智能

什么是數據倉庫

DW：Data Warehouse，數據倉庫，數據庫的升級概念，一般量更龐大，將多個數據來源的數據進行匯總、整理而來

什么是數據挖掘

DM：Data Mining，數據挖掘

數據挖掘流程：Knowledge Discovery in Database，也叫數據庫中的知識發現，簡稱KDD

KDD流程：輸入數據->數據預處理->數據挖掘->后處理->信息

數據清洗：去除重復數據、干擾數據及填充缺失值
數據集成：將多個數據源中的數據存放在一個統一的數據存儲中
數據變換：將數據轉換成適合數據挖掘的形式，比如將數值東籬一個特定的0~1的區間

1. 數據挖掘的核心

分類：通過訓練集得到一個分類模型，然后用這個模型可以對其他數據進行分類分類是已知了類別，然后看樣本屬于哪個分類
聚類：將數據自動聚類成幾個類別，聚類是不知道有哪些類別，按照樣本的屬性來進行聚類
預測：通過當前和歷史數據預測未來趨勢，可以更好地幫助我們識別機遇和風險
關聯分析：發現數據中的關聯規則，被廣泛應用于購物、事務數據分析中

2. 數據挖掘的基本流程

商業理解：從商業的角度理解項目需求
數據理解：嘗試收集部分數據，對數據進行探索
數據準備：開始收集數據，并進行清洗、集成等操作
模型建立：選擇和應用數據挖掘模型，并進行優化，以便得到更好的分類結果
模型評估：對模型進行評價，確認模型是否實現了預定的商業目標
上線發布：把挖掘的知識轉換成用戶的使用形式

數據挖掘的數學基礎

概率論與數據統計
線性代數
圖論
最優化方法

數據挖掘的十大算法

1. 分類

C4.5：十大算法之首，決策樹算法，特點包括：1.構造過程中剪枝 2.處理連續屬性；3.處理不完整的數據
樸素貝葉斯：基于概率論原理，計算未知物體出現的條件下，各個類別出現的概率，取概率最大的分類
SVM：超平面的分類模型
KNN：每個樣本的分類都可以用其最接近的K個鄰居的分類代表
Adaboost：構建分類器的提升算法，可以讓多個弱的分類器組成一個強的分類器
CART：決策樹算法，分類樹 + 回歸樹

2. 聚類

K-Means：將物體分成K類，計算新點跟K個中心點的距離，哪個距離近，則新點歸為哪一類
EM：最大期望算法，求參數的最大似然估計的一種方法

3. 關聯分析

Apriori：挖掘關聯規則的算法，通過挖掘頻繁項集揭示物品之間的關聯關系

4. 連接分析

PageRank：起源于論文影響力的計算方式，如果一篇文論被引入的次數越多，就代表這篇論文的影響力越強，Google將其用于計算網頁權重

什么是數據可視化

數據可視化主要是借助于圖形化手段,清晰有效地傳達與溝通信息，讓我們直觀了解數據分析的結果

數據可視化工具：

1. python庫

Matplotlib

Seaborn

Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等

2. 商業智能軟件

Tableau

PowerBI

3. 可視化大屏

大屏作為一種視覺效果強、科技感強的技術，被企業老板所青睞，可以很好地展示公司的數據化能力

4. 前端可視化組件

可視化組件都是基于 Web 渲染的技術的

Web 渲染技術：Canvas（位圖）、SVG （失量圖）和 WebGL（3D繪圖）

什么是用戶畫像

簡單的說，用戶畫像就是標簽的匯總，用戶畫像是現實世界中的用戶的數學建模，將海量數據進行標簽化，來復以更精準的用戶畫像，用戶標簽能產生的業務價值

在獲客上，找到優勢的宣傳渠道，通過個性化的宣傳手段吸引有潛在需求的用戶
在粘客上，提升用戶的單價和消費頻次
在留客上，降低流失率，顧客流失率降低 5%，公司利潤提升 25% ~ 85%

1. 用戶標簽4個緯度

基礎信息：性別、年齡、地域、收入、學歷、職業等
消費信息：消費習慣、購買意向、是否對促銷敏感
行為分析：時間段、頻次、時長、訪問路徑
內容分析：瀏覽的內容、停留時長、瀏覽次數，內容類型，如金融、娛樂、教育、體育、時尚、科技等

2. 數據處理的3個階段

業務層：獲客預測、個性化推薦、用戶流失率、GMV趨勢預測
算法層：用戶興趣、用戶活躍度、產品購買偏好、用戶關聯關系、用戶滿意度、渠道使用偏好、支付使用偏好、優惠券偏好
數據層：用戶屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次

什么是埋點

在需要的位置采集相應的信息，進行上報。比如用戶信息、設備信息、操作行為數據，埋點一般是在需要統計數據的地方植入統計代碼。

數據采集都有哪些方式

開源數據源
爬蟲抓取
日志采集
傳感器

什么是數據清洗

數據清洗是去除重復數據、干擾數據及填充缺失值。

數據清洗的4個關鍵點（完全合一）：

完整性：單條數據是否存在空值，統計的字段是否完善
全面性：觀察某一列的全部數值，判斷列是否有問題，比如：數據定義、單位標識、數值本身。例如有的單位是克，有的是千克或磅
合法性：數據的類型、內容、大小的合法性。例如存在非ASCII字符，性別未知，年齡超過150歲等。
唯一性：數據是否存在重復記錄。因為數據通常來自不同渠道的匯總，重復的情況是常見的，行和列數據都需要是唯一的

什么是數據集成

數據集成是將多個數據源合并存放在一個數據存儲中（如數據倉庫）大數據項目中80%的工作都和數據集成有關。

Extract / 提取：從datasource/txt/csv/Excel/等原始數據源中 Extract數據
Transform / 轉換：將數據預處理，字段補全、類型檢查、去除重復數據等，根據預定的條件將數據統一起來
Load / 裝載：將轉換完的數據存到數據倉庫中

1. 數據集成的兩種架構

ELT 過程為數據提取(Extract)——轉換(Transform)——加載(Load)，在數據源抽取后首先進行轉換，然后將轉換的結果寫入目的地。
ETL 過程為數據提取(Extract)——加載(Load)——轉換(Transform)，在數據抽取后將結果先寫入目的地，然后利用數據庫的聚合分析能力或者外部框架，如Spark來完成轉換的步驟。

2. ETL和ELT的區別

ETL和ELT主要是先清洗數據還是先入庫的區別。ETL一般使用主流框架用程序在提取的時候就將數據進行清洗，ELT則是將數據存到數據倉庫，再用sql進行數據清洗。

未來使用ELT作為數據集成架構的會越來越多，有以下好處：

使用 ELT 方法，在提取完成之后，數據加載會立即開始。一方面更省時，另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數據，為分析師提供了更大的靈活性，使之能更好地支持業務。

在 ELT 架構中，數據變換這個過程根據后續使用的情況，需要在 SQL 中進行，而不是在加載階段進行。這樣做的好處是你可以從數據源中提取數據，經過少量預處理后進行加載。這樣的架構更簡單，使分析人員更好地了解原始數據的變換過程。

什么是數據變換

數據變換是數據準備的重要環節，通過數據平滑、數據聚集、數據概化和規范化等方式將數據轉換成適用于數據挖掘的形式。

1. 數據平滑

去除數據中的噪聲，將連續數據離散化

2. 數據聚集

對數據進行匯總，例如Sum、Max、Mean等

3. 數據概化

將數據由較低的概念抽象成較高的概念，如北上廣深圳概化為中國。

4. 數據規范化

合屬性數據按比例縮放，將原來的數值映射到新的特定區域中。

min-max規范化：將原始數據變化到[0, 1]的空間中，公式為：新數值=(原數值-極小值) / (極大值-極小值)，對應的有SciKit-Learn的preprocessing.MinMaxScaler函數

z-score規范化：可以用相同的標準比較不同規格的成績。公式為：新數值=(原數值-均值) / 標準差。對應的有SciKit-Learn的preprocessing.scale函數,求出每行每列的值減去了平均值，再除以方差的結果，使得數值都符合均值為0，方差為1的正態分布

小數定標規范：通過移動小數點的位置來進行規范化

5. 屬性構造

構造出新的屬性并添加到屬性集中。

什么是方差、標準差

方差和標準差是測算離散趨勢最重要、最常用的指標
標準差是方差的平方根
一個較大的標準差，代表大部分數值和其平均值之間差異較大；一個較小的標準差，代表這些數值較接近平均值。
由于方差是數據的平方，與檢測值本身相差太大，人們難以直觀的衡量，所以常用方差開根號換算回來這就是我們要說的標準差。

End.

作者：雪山飛豬

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

BI：Business Intelegence，商業智能，基于數據倉庫，經過數據挖掘后，得到了商業價值的過程。例如利用數據預測用戶購物行為屬性商業智能