8月3日,中國互聯網絡信息中心發布的第38次《中國互聯網絡發展狀況統計報告》顯示:我國互聯網網民規模已達7.1億,其中互聯網金融理財用戶首次超過1億。與2014年12月底的7849萬的數據相比,接近30%的高速增長令世界矚目。然而,隨著互聯網金融用戶數量飛速增長的同時,大量的網貸機構、P2P也暴露出風控不嚴、壞賬率過高的問題。互聯網金融風控,尤其是線上大數據風控已經成為行業亟待提升的關鍵環節。平安集團旗下的前海征信,依托平安集團大數據和海量外部數據,致力于提供大數據反欺詐、風控、催收等全流程解決方案,目前已在大數據金融風控建模中積累了許多寶貴的經驗。下面,就有請前海征信 “朝陽35處”以征信評分中常見問題為引,帶領大家了解一下在一個統一的概率圖框架下如何優雅的、創新性的建立個人征信評分模型。
大數據之殤:數據缺失與共線性
與傳統征信中心采用上報數據不同,在大數據征信領先企業——如ZestFinance, Ondeck以及前海征信——的風控建模實踐中,都使用了來自申請書填報、政府數據與征信報告、網站和手機APP采集、與其他企業合作、互聯網公開信息等多個數據源的數據,體現出了維度特別高、來源特別廣、數據結構特別雜的大數據特征。使用來自多種數據源的聚合數據(data-fusion)的方法,在引入更多、更全面信息的同時,也天然地帶來了兩大問題:大量數據缺失、以及數據間相關性太強,最后往往導致了過擬合的問題。
一方面,如果我們有來源于兩個不同的數據來源,由于不同數據源的覆蓋人群不一樣,在數據拼接在一起的時候,沒有同時被兩個數據源觀測到的人群(經常是大部分的人群)在另一數據源的變量天然地全部缺失。而一旦關鍵變量有缺失,在邏輯回歸這一類線性模型中,便會極大地影響模型效果。甚至有人認為:大數據風控最重要的問題,就是處理多源數據帶來的數據缺失問題。
尤其需要注意的是,這種缺失通常不屬于隨機缺失,不恰當的處理都有可能降低模型效果。傳統的金融建模中,關鍵變量的缺失,如無信用記錄、沒有購房記錄,可以將缺失本身做成0-1虛擬變量乘以負權重進入邏輯回歸模型,這和控制風險的業務需要相符。但是大數據評分中,數據維度被拓展到包含互聯網行為數據等等的非金融數據。如果僅僅因為客戶在某個業務上沒有數據就降低評分,那么征信評分很可能會變成“會員分”,即使用業務越多的客戶具有更高的評分。這與用更多信息客觀評分的初衷完全背道而馳,也有極大可能導致數據上的過度擬合而降低樣本外的模型效果,最終給采信的貸款機構帶來損失。
另一方面,金融的本質決定了大數據領域模型中變量的個數往往遠遠超過征信評分這一問題的本征維度。多個源的數據之間、同數據源不同變量之間,可能有顯著的簡單線性相關性或者更高階的共線性。機器學習通常的做法是使用Regularized方法,限制模型的復雜度。但是,金融風控建模的樣本數量往往不足以分出足夠的驗證集調整合適的超參數,由于有效樣本的不足,模型效果隨著變量數量提升有限,空有數萬個變量,能用上的卻緲緲無幾。
共線性帶來更嚴重的問題是偽相關。數據的因果性和相關性一直以來都是世界級難題,這一問題在海量變量的大數據環境下尤為突出。邁爾舍恩伯格在《大數據時代》里說,“要相關,不要因果。”這句話,在以效率取勝的推薦問題和營銷問題上可能是有效的。因為推薦問題和營銷問題都是對準確度要求很低的模型,注重模型的快速迭代,在很短的時間內可以驅動業務收入提升。然而,如果在風控建模也使用同樣的觀念,則可能會帶來極大的問題。試想一下,超市可以把啤酒和尿布放在一起,能獲得協同效應是最好,但是即便沒有利潤的提升也無傷大雅;然而如果因為巧克力銷量和幸福指數相關,一個國家就大力扶植巧克力行業那就有點不負責任了。類似的,如果類別A的客戶恰好平均的每月信用卡額度使用比例較高,如果另一個客戶沒有觀測到信用卡使用情況,這個時候因為單純同屬于類別A就獲得一個較低評分是不科學的。比起新潮的機器學習算法,在生物統計、物理上已經證明卓有成效的統計推斷在大數據風控中更為重要。
概率圖模型在風控中的應用
面對缺失數據和數據間高度相關的問題,傳統做法是首先使用不同的填充方法,如中值/眾數直接填充,或者使用回歸模型/C4.5/熱卡/KMeasn模型來建模填充,最后進行PCA或者變量選擇降維。這一方案的效果并不盡如人意,主要的問題在于填充的時候,這些方法都只能給出似然概率最高的單一估計,而后續的建模中往往無法將數據本身的準確度放入模型,填充數據的偏差可能會淹沒變量本身的信號,反而降低了模型效果。
貝葉斯與貝葉斯理論
因此,在綜合考慮數據有缺失、數據相關性、因果分析等方面的問題,我的經驗是選擇基于貝葉斯理論,將針對連續數據的概率主成分分析(Probabilistic Principle Componets Analysis, PPCA)和針對離散數據的貝葉斯網絡(Bayesian Network)方法結合為概率圖模型,打造統一的風控模型,在模型解釋性、模型預測能力上以求達到最佳的平衡。
圖1
概率PCA方法與PCA方法類似,是一種變換(Transform)方法,即將多維數據進行函數映射(而非簡單多選一)到低維平面。傳統的PCA方法無法處理缺失數據,而概率PCA作為一種適用于缺失數據情況下的特征提取方法,特別適用于征信風控這一問題。那么什么是概率PCA呢?我們首先回歸一下PCA方法:當我們手上有p維的數據,通過求取這p維數據的協方差矩陣,得到協方差矩陣的特征根和特征向量,根據特征值最大排序取前k個(k<>< span=''><>
圖2
貝葉斯網絡本身就是一種有向無環的概率圖模型,適用于離散變量,用變量間的相關性,構建變量間的決定網絡。圖2中,每一個結點表示一個變量,每一條邊表示變量間相關。比如,x5的分布取決于x1和x3的取值,而x5確定以后,又會影響x7的取值。x1到x7七個變量,可以聯立寫一個長長的聯合分布函數,在部分變量觀測到的情況下根據貝葉斯定理求出剩余缺失變量的后驗分布。
圖3
最后,我們來看如何用統一的概率圖框架把兩者結合在一起。繼續沿用前面的例子,現在有5個變量但是僅有2個本征維度。與之前不同的是,之前隱變量給定以后,所有的觀測向量都是服從正態分布的連續變量,現在我們把其中兩個替換為服從二項分布的0-1變量(如圖3,其實logis表示logistic變換)。這樣,我們便簡單的通過改變概率PCA中的分布形式,實現了連續變量和離散變量放入同一個模型。同樣的,在給定數據部分缺失的情況下,我們依然可以根據貝葉斯定理推斷參數b的后驗分布;同樣的,在部分觀測到x的情況,我們也可以推斷缺失數據的分布。
圖4
好了,到此為止,我們使用一個帶有隱變量的概率圖模型把連續問題和離散問題鏈接在了一起。從這個角度看,概率圖方法與其稱之為模型,不如稱之為一種統一的模型框架。一方面,根據貝葉斯理論,我們可以在部分數據已知部分未知的情況下,求出未知變量在已知變量被觀測時的條件概率,實現了缺失填充的目的;另一方面,由于因變量的個數遠遠小于觀測變量的個數,我們同時解決的數據降維的問題。最后,我們可以使用隱變量建立邏輯回歸模型;而如果我們添加多層隱變量,再把是否違約當作一個部分觀測的自變量,那我們相當于得到了一個貝葉斯深度網絡模型(Deep Bayesian Network, DBN,如圖4就是一個示例用的包含兩個隱含層的DBN,業務目標和自變量在結構上平級)。
言機器學習必談深度學習已經被很多從業人員詬病。我在這里也想強調,沒有技術最強、唯一最好的模型,只有最貼合業務需要、最適合數據的模型。因為圖像識別和語音識別問題中數據上都具有“平穩性”,所以卷積網絡特別適用于這一類問題。而同樣的拓撲結構,是不能直接應用于金融風控建模的。限于現有的樣本數據和計算能力,金融建模需要對數據有充分的理解和對業務的深刻認識,需要用業務知識來指導模型的建立、優化和解釋。
朝陽35處有話說:在首批獲得8家個人征信牌照試點的企業中,平安集團旗下前海征信已經為1500家金融機構提供服務,遙遙領先于競爭對手。在接入更多數據、打通數據孤島、提供更好服務的數據聚合過程中,前海征信積累的大量的缺失填充經驗和在數據缺失情況下的建模優化。概率圖模型雖然有著模型效果極佳,模型解釋能力強的諸多優點,同時也有著模型訓練難度大,所需時間長等缺點。但是,35處君相信,在未來發展趨勢中,深度學習框架和貝葉斯推斷框架將會更緊密的聯系在一起,我們也將持續探索這一領域在金融建模中更為精妙的應用。