精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
【機器學習】分類算法

一、LR分類器(Logistic Regression Classifier)

        在分類情形下,經過學習后的LR分類器是一組權值w0,w1, …, wn,當測試樣本的數據輸入時,這組權值與測試數據按照線性加和得到x = w0+w1x1+w2x2+… wnxn,這里x1,x2, …xn是樣本的n個特征。

         之后按照sigmoid函數的形式求出f(x) = 1/(1+e^(-x))

        由于sigmoid函數的定義域為(-INF, INF),值域為(0, 1),因此最基本的LR分類器適合對兩類目標進行分類。

        所以Logistic回歸最關鍵的問題就是研究如何求得w0,w1, …, wn這組權值。這個問題是用極大似然估計來做的。

 

二、logistic回歸模型

考慮具有n個獨立變量的向量x = (x1,x2, …, xn),設條件慨率P(y=1|x) = p為根據觀測量相對于某事件x發生的概率。那么Logistic回歸模型可以表示為


這里

稱為Logistic函數。其中g(x) =w0+w1x1+w2x2+…+wnxn。

那么在x條件下y不發生的概率為 

所以事件發生與不發生的概率之比為


 這個比值稱為事件的發生比(the oddsof experiencing an event),簡記為odds。 

對odds取對數得到 

        可以看出Logistic回歸都是圍繞一個Logistic函數來展開的。接下來就講如何用極大似然估計求分類器的參數。

        假設有m個觀測樣本,觀測值分別為y1,y2, …, ym,設pi = P(yi=1|xi)為給定條件下得到yi=1的概率,同樣地,yi=0的概率為P(yi=0|xi) = 1-p,所以得到一個觀測值的概率為P(yi) = pi^(yi)*(1-p)^(1-yi)。 

        因為各個觀測樣本之間相互獨立,那么它們的聯合分布為各邊緣分布的乘積。得到似然函數為 

         然后我們的目標是求出使這一似然函數的值最大的參數估計,最大似然估計就是求出參數w0, w1, …, wn,使得L(w)取得最大值,對函數L(w)取對數得到

 繼續對這n+1個wi分別求偏導,得到n+1個方程,比如現在對參數wk求偏導,由于

所以得到 


         這樣的方程一共有n+1個,所以現在的問題轉化為解這n+1個方程形成的方程組。 

        上述方程比較復雜,一般方法似乎不能解之,所以我們引用了牛頓-拉菲森迭代方法求解。 

        利用牛頓迭代求多元函數的最值問題以后再講。 

        簡單牛頓迭代法:http://zh.m.wikipedia.org/wiki/%E7%89%9B%E9%A1%BF%E6%B3%95 

        實際上在上述似然函數求最大值時,可以用梯度上升算法,一直迭代下去。梯度上升算法和牛頓迭代相比,收斂速度慢,因為梯度上升算法是一階收斂,而牛頓迭代屬于二階收斂。


三、總結

Logistic是用來分類的,是一種線性分類器,需要注意的地方有:

  1. logistic函數表達式(sigmoid函數):


其導數形式為:


2. logsitc回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:


  得到整個樣本的后驗概率:


其中:


 通過對數進一步化簡為:


 3. 其實它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:



------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

四、要點

1. 二值型輸出(0、1),也被看做是一種概率估計,是一種線性分類器。基本函數(線性回歸)z = w0+ w1x1 + w2x2 + … + wnxn,求出z值后帶入sigmoid函數判斷01值分類。

2. 在每個特征上都乘上一個回歸系數,然后把所有結果相加,將此總和帶入sigmoid函數,進而得到一個范圍為0~1之間的數值,再用二值映射判定0或1.

3.分類:(sigmoid函數輸出)

         大于0.5:結果為1

         小于0.5:結果為0

4.關鍵:回歸系數的求解  →→   梯度上升法隨機梯度上升法(在線算法)

           (采用最優化算法)

5.處理缺失數據:依實際情況而定

 

核心:

1.是一種線性分類器,sigmoid函數表達式h(x) = 1/(1+e^(-x))求回歸系數x(最大似然估計)

2.回歸系數求解是用最大似然估計來學習的,由單個樣本后驗概率p(y|xjo)求得整個樣本后驗概率L(o) = ∏(…),然后對L(o)進行對數化簡得到l(o) = logL(o) = ∑(…)

3.其他loss function為 -I(o),因此需使lossfunction最小。可采用梯度下降法得到,梯度下降法公式:L(o)對o求偏導……

 

優點:

1.實現簡單;

2.分類時計算量很小,速度很快,存儲資源低

缺點:

1.容易欠擬合,準確度不高

2.只能處理二分類問題(在此基礎上衍生出來的softmax可以用于多分類),且必須線性可分。

數據類型:數值型、標稱型

 


本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
機器學習實戰ByMatlab(5):Logistic Regression
分類器
邏輯斯蒂(logistic)回歸深入理解、闡述與實現
Logistic Regression(邏輯回歸)原理及公式推導
入門|從原理到應用:簡述Logistic回歸算法
boosting方法(Adaboost,GBDT)
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 五华县| 江门市| 栾川县| 山阳县| 新竹市| 平罗县| 宜兰县| 德保县| 怀化市| 巴青县| 沐川县| 随州市| 涞源县| 红河县| 洞口县| 兴国县| 革吉县| 宜阳县| 毕节市| 岱山县| 手机| 宁远县| 西乌珠穆沁旗| 嘉义市| 佛学| 佛冈县| 滨海县| 海城市| 沂南县| 镇赉县| 永春县| 永丰县| 缙云县| 武宁县| 庄浪县| 额尔古纳市| 含山县| 梓潼县| 阿克苏市| 山东省| 汕尾市|