標(biāo)題叫再說(shuō)相關(guān)性分析,為什么叫再說(shuō)呢?因?yàn)橹罢f(shuō)過(guò)了唄,但是一個(gè)知識(shí)點(diǎn)你反復(fù)咀嚼的時(shí)候就是會(huì)有不同的感悟,因此這篇文章要再來(lái)說(shuō)說(shuō)相關(guān)性分析。
百度百科給的解釋是:兩個(gè)變量的關(guān)聯(lián)程度。
或者多個(gè)變量,或者變量與變量之間吧的關(guān)聯(lián)程度,都可以,就是說(shuō)A和B之間肯定存在著某種關(guān)系,確定的關(guān)系我們用函數(shù)就可以描述出來(lái)了,而這種不穩(wěn)定、不確定、不精確變化的關(guān)系我們就稱之為相關(guān)關(guān)系。
比如不久前的新聞,說(shuō)深圳離婚都要排號(hào)了,然后我們發(fā)現(xiàn)哈,越是大城市,人們的離婚率就越高,這就反映了城市化水平和離婚率之間的一個(gè)相關(guān)關(guān)系。
這是生活中的例子,工作中也很常見(jiàn)啊,如果一個(gè)指標(biāo)和另一個(gè)指標(biāo)是一起變化的,說(shuō)明它們是相關(guān)的,而如果是一個(gè)指標(biāo)先變化從而導(dǎo)致了另一個(gè)指標(biāo)的變化,說(shuō)明它們是有因果性的,什么是因果性,請(qǐng)接著往下看。
兩個(gè)變量之間存在相關(guān)關(guān)系,并不意味著一個(gè)變量會(huì)影響另一個(gè)變量,也不意味著二者存在實(shí)際關(guān)系。
再深入理解一下,相關(guān)性是數(shù)學(xué)關(guān)系,而因果性是邏輯關(guān)系。
還是城市化水平和離婚率的例子,只能說(shuō)明城市化的水平越高的同時(shí),離婚率也增加了(相關(guān)),但不能說(shuō)是因?yàn)槌鞘谢礁?,所以?dǎo)致人們離婚(因果),因?yàn)檫@中間還有很多因素,城市化水平只是其中的一個(gè)。
在知乎上看到一個(gè)例子也可以來(lái)說(shuō)一下,火災(zāi)現(xiàn)場(chǎng),救護(hù)車的數(shù)量與死亡人數(shù)呈正相關(guān),這可能確是實(shí)情,但我們不能說(shuō)是因?yàn)榕扇サ木茸o(hù)車多了導(dǎo)致死亡人數(shù)的增加,更不能因此作出通過(guò)減少救護(hù)車的數(shù)量來(lái)降低死亡人數(shù)的結(jié)論。
《精益數(shù)據(jù)分析》這本書里有提到:發(fā)現(xiàn)相關(guān)性可以幫助你預(yù)測(cè)未來(lái),而發(fā)現(xiàn)因果性意外著你可以改變未來(lái)。相關(guān)性已經(jīng)很好了,但因果性更佳,但很多時(shí)候,我們只能發(fā)現(xiàn)相關(guān)性,但應(yīng)永不停止尋找因果性。
另外說(shuō)一點(diǎn),蝴蝶效應(yīng),是相關(guān)性還是因果性呢?大家可以評(píng)論區(qū)補(bǔ)充。
為什么要進(jìn)行相關(guān)性分析,如果你認(rèn)真閱讀的話,相信你已經(jīng)知道答案了,前兩段剛說(shuō)完:相關(guān)性可以預(yù)測(cè)未來(lái)。
在判斷兩個(gè)變量是否相關(guān)的時(shí)候,會(huì)畫出散點(diǎn)圖,其中與數(shù)據(jù)點(diǎn)擬合程度最高的線稱為最佳擬合線,通過(guò)這條線可以用來(lái)預(yù)測(cè)數(shù)值。
相關(guān)關(guān)系有很多種分類,根據(jù)變量間相互關(guān)系的形式可以分為線性相關(guān)和非線性相關(guān),通常比較常用的是線性相關(guān),這里我們也只討論線性相關(guān)。
比較常用的線性相關(guān)分析,用來(lái)衡量它的指標(biāo)是線性相關(guān)系數(shù),又叫皮爾遜相關(guān)系數(shù),通常用r表示,取值范圍是[-1,1],這里要注意的是在什么取整范圍內(nèi)時(shí)強(qiáng)相關(guān),什么又是弱相關(guān),但這也只是數(shù)學(xué)意義,在實(shí)際工作中也需要結(jié)合業(yè)務(wù)去判斷。
散點(diǎn)圖是將兩個(gè)變量可視化觀察其關(guān)系的最好呈現(xiàn)方式。通過(guò)散點(diǎn)圖我們可以清晰地看出來(lái)到底是正相關(guān)還是負(fù)相關(guān)。
在Excel中,可以用CORREL函數(shù)來(lái)計(jì)算相關(guān)系數(shù),同時(shí)還可以用數(shù)據(jù)——數(shù)據(jù)分析——相關(guān)系數(shù),這個(gè)功能來(lái)進(jìn)行相關(guān)分析。在之前寫的文章里有詳細(xì)的運(yùn)用說(shuō)明:
用Excel做相關(guān)性分析
@ 作者:可樂(lè)
@ 公眾號(hào)/知乎專欄/頭條/簡(jiǎn)書:可樂(lè)的數(shù)據(jù)分析之路
@加個(gè)人微信:data_cola,備注:進(jìn)群,拉你入 可樂(lè)的數(shù)據(jù)分析群 和各行各業(yè)的小伙伴交流探討數(shù)據(jù)分析相關(guān)內(nèi)容
聯(lián)系客服