在分類情形下,經過學習后的LR分類器是一組權值w0,w1, …, wn,當測試樣本的數據輸入時,這組權值與測試數據按照線性加和得到x = w0+w1x1+w2x2+… wnxn,這里x1,x2, …xn是樣本的n個特征。
之后按照sigmoid函數的形式求出f(x) = 1/(1+e^(-x))
由于sigmoid函數的定義域為(-INF, INF),值域為(0, 1),因此最基本的LR分類器適合對兩類目標進行分類。
所以Logistic回歸最關鍵的問題就是研究如何求得w0,w1, …, wn這組權值。這個問題是用極大似然估計來做的。
考慮具有n個獨立變量的向量x = (x1,x2, …, xn),設條件慨率P(y=1|x) = p為根據觀測量相對于某事件x發生的概率。那么Logistic回歸模型可以表示為
這里
稱為Logistic函數。其中g(x) =w0+w1x1+w2x2+…+wnxn。
那么在x條件下y不發生的概率為
所以事件發生與不發生的概率之比為
這個比值稱為事件的發生比(the oddsof experiencing an event),簡記為odds。
對odds取對數得到
可以看出Logistic回歸都是圍繞一個Logistic函數來展開的。接下來就講如何用極大似然估計求分類器的參數。
假設有m個觀測樣本,觀測值分別為y1,y2, …, ym,設pi = P(yi=1|xi)為給定條件下得到yi=1的概率,同樣地,yi=0的概率為P(yi=0|xi) = 1-p,所以得到一個觀測值的概率為P(yi) = pi^(yi)*(1-p)^(1-yi)。
因為各個觀測樣本之間相互獨立,那么它們的聯合分布為各邊緣分布的乘積。得到似然函數為
然后我們的目標是求出使這一似然函數的值最大的參數估計,最大似然估計就是求出參數w0, w1, …, wn,使得L(w)取得最大值,對函數L(w)取對數得到
繼續對這n+1個wi分別求偏導,得到n+1個方程,比如現在對參數wk求偏導,由于
所以得到
這樣的方程一共有n+1個,所以現在的問題轉化為解這n+1個方程形成的方程組。
上述方程比較復雜,一般方法似乎不能解之,所以我們引用了牛頓-拉菲森迭代方法求解。
利用牛頓迭代求多元函數的最值問題以后再講。
簡單牛頓迭代法:http://zh.m.wikipedia.org/wiki/%E7%89%9B%E9%A1%BF%E6%B3%95
實際上在上述似然函數求最大值時,可以用梯度上升算法,一直迭代下去。梯度上升算法和牛頓迭代相比,收斂速度慢,因為梯度上升算法是一階收斂,而牛頓迭代屬于二階收斂。Logistic是用來分類的,是一種線性分類器,需要注意的地方有:
1. logistic函數表達式(sigmoid函數):
其導數形式為:
2. logsitc回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:
得到整個樣本的后驗概率:
其中:
通過對數進一步化簡為:
3. 其實它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1. 二值型輸出(0、1),也被看做是一種概率估計,是一種線性分類器。基本函數(線性回歸)z = w0+ w1x1 + w2x2 + … + wnxn,求出z值后帶入sigmoid函數判斷01值分類。
2. 在每個特征上都乘上一個回歸系數,然后把所有結果相加,將此總和帶入sigmoid函數,進而得到一個范圍為0~1之間的數值,再用二值映射判定0或1.
3.分類:(sigmoid函數輸出)
大于0.5:結果為1
小于0.5:結果為0
4.關鍵:回歸系數的求解 →→ 梯度上升法、隨機梯度上升法(在線算法)
(采用最優化算法)
5.處理缺失數據:依實際情況而定
核心:
1.是一種線性分類器,sigmoid函數表達式h(x) = 1/(1+e^(-x)) →求回歸系數x(最大似然估計)
2.回歸系數求解是用最大似然估計來學習的,由單個樣本后驗概率p(y|xjo)求得整個樣本后驗概率L(o) = ∏(…),然后對L(o)進行對數化簡得到l(o) = logL(o) = ∑(…)
3.其他loss function為 -I(o),因此需使lossfunction最小。可采用梯度下降法得到,梯度下降法公式:L(o)對o求偏導……
優點:
1.實現簡單;
2.分類時計算量很小,速度很快,存儲資源低
缺點:
1.容易欠擬合,準確度不高
2.只能處理二分類問題(在此基礎上衍生出來的softmax可以用于多分類),且必須線性可分。
數據類型:數值型、標稱型