電影業(yè)是一個龐大的投資領(lǐng)域,但較大的商業(yè)領(lǐng)域更加復(fù)雜,而且很難選擇如何投資。此外,重大投資伴隨著更大的風(fēng)險。隨著電影行業(yè)日益增長,現(xiàn)在互聯(lián)網(wǎng)上有大量的數(shù)據(jù)可供使用,這使其成為一個令人興奮的數(shù)據(jù)分析領(lǐng)域。預(yù)測電影的票房成功是一項非常復(fù)雜的任務(wù)。
只有預(yù)先發(fā)布的特征才被認(rèn)為是預(yù)測一部即將上映的電影的成功。這里預(yù)先發(fā)布的特征包括電影預(yù)算、電影上映的屏幕數(shù)量、美國電影協(xié)會(MPAA)的評級、演員/女演員的明星影響力、導(dǎo)演的啟動力和上映月份。在發(fā)布電影一到幾周后,發(fā)布后的特征將有助于提高預(yù)測的準(zhǔn)確性,因為這些特征是可用的。為了更好的分類,我使用了5個類別而不是2個(慘淡/大賣)類別。預(yù)先發(fā)布的特征將作為輸入,它將被分為這5類。
將有兩種類型的預(yù)測,一種是精確匹配,它指的是正確的分類,另一種是遠(yuǎn)離預(yù)測,這意味著從特定類型向上或向下考慮一個類以及完全匹配。
現(xiàn)在,下一部分將是數(shù)據(jù)準(zhǔn)備。它可以分5個階段完成,
1.數(shù)據(jù)采集? - 可以通過抓取IMDb,爛番茄,Metacritic和Box Office Mojo等網(wǎng)站來提取一些預(yù)測特征,同時可以使用python API提取某些特征。
2.數(shù)據(jù)清理 - 數(shù)據(jù)集中有很多電影的預(yù)算是不可用的。在這些電影中,沒有幾部不具備大部分特征。這些電影中有許多是中國、俄羅斯或印度電影,因此無法正確地翻譯標(biāo)題,以鏈接和提取相應(yīng)的用戶評論和評級。這些影片必須從數(shù)據(jù)集中刪除。
3.特征提取 - 許多預(yù)測成功的特征必須使用數(shù)據(jù)集中提供的原始數(shù)據(jù)進(jìn)行計算。例如,評分的倍增值和評分的用戶數(shù)量被用作單個特征。一個演員的明星影響力是由他/她主演的所有電影的收入總和來計算的。
預(yù)算是另一個預(yù)發(fā)布的特征。如果一部電影的制作預(yù)算較高,它就有更大的機(jī)會通過宣傳獲得更多的人氣。所以預(yù)算高的電影有更高的機(jī)會獲得更多的收入。計算所有在兩周內(nèi)上映的電影的數(shù)量,包括之前和之后,并將其稱為“Competition Score(CS)”。然后根據(jù)CS的倒數(shù)計算'Competition Factor(CF)',這意味著競爭越激烈,得分越低。 同樣,也提取其他特征。
4.數(shù)據(jù)整合和轉(zhuǎn)換 - 為此,目標(biāo)分為5類,從慘淡到大賣。每個特征都分為這5個類。例如,放映數(shù)量的分類如下:
同樣,其他特征也分為5類。為了根據(jù)評論對電影進(jìn)行分類,將進(jìn)行情緒分析,并預(yù)測電影的情緒(范圍在5以內(nèi))。
5.數(shù)據(jù)歸一化? - 首先將演員、導(dǎo)演和發(fā)布日期等非數(shù)值變量轉(zhuǎn)換為數(shù)值。然后對數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使數(shù)值位于0和1之間,以避免數(shù)值的較大變化。在數(shù)據(jù)準(zhǔn)備完成之后,使用分類算法對電影進(jìn)行5類分類。利潤預(yù)測將按如下方式計算:
利潤=總計- 預(yù)算
根據(jù)預(yù)測的類別對電影進(jìn)行分組。計算組的最大利潤和最小利潤的平均值。該范圍將是電影的預(yù)測利潤范圍。
例如:
類 - - - - 利潤范圍;
[2]用于對5類中的電影進(jìn)行分類的分類算法:
壹.隨機(jī)森林
它本質(zhì)上適用于多類問題。它適用于處理數(shù)值和分類特征的混合,在這個問題中是一個主要因素。當(dāng)特征在各種尺度上,它也很好。粗略地說,使用隨機(jī)森林,您可以按原樣使用數(shù)據(jù)。隨機(jī)森林算法比支持向量機(jī)(SVM)更容易調(diào)整。
優(yōu)點(diǎn):
缺點(diǎn):
貳.支持向量機(jī)(SVM)
對于預(yù)測,可以使用幾種機(jī)器學(xué)習(xí)算法,例如Naive Bayes,Random Forest和Logistic回歸等。這些分類器足以用于二進(jìn)制分類,其中一些可用于多類分類。但是,當(dāng)數(shù)據(jù)模式非常復(fù)雜時,SVM始終產(chǎn)生更好的結(jié)果。對于電影利潤預(yù)測,需要健全的特征。對于這種復(fù)雜的數(shù)據(jù)模式,SVM在機(jī)器學(xué)習(xí)算法中發(fā)揮最佳作用。
優(yōu)點(diǎn):
缺點(diǎn):
叁.神經(jīng)網(wǎng)絡(luò)
使用深度神經(jīng)網(wǎng)絡(luò)可以在所有方面最好地解決這個問題。它由一組隱藏層組成,借助反向傳播技術(shù)學(xué)習(xí)復(fù)雜的數(shù)據(jù)模式。深度神經(jīng)網(wǎng)絡(luò)是迄今為止用于分類的最佳方法。
我們向網(wǎng)絡(luò)提供的數(shù)據(jù)越多,它給出的結(jié)果就越準(zhǔn)確。我們知道電影行業(yè)是一個快速發(fā)展的行業(yè),隨著時間的推移,我們可以獲得更多的數(shù)據(jù)集。
優(yōu)點(diǎn):
缺點(diǎn):
結(jié)論
在使用神經(jīng)網(wǎng)絡(luò)的這三種算法中,這是解決此問題的最佳方法。這是因為對神經(jīng)網(wǎng)絡(luò)中的預(yù)測的準(zhǔn)確性沒有限制。隨著數(shù)據(jù)集的增加,其準(zhǔn)確性也會提高。此外,對于復(fù)雜的數(shù)據(jù)模式,如電影預(yù)發(fā)布特征,深度神經(jīng)網(wǎng)絡(luò)可能比其他機(jī)器學(xué)習(xí)算法非常有用。