精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
使用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)預(yù)測電影利潤

使用機(jī)器學(xué)習(xí)預(yù)測電影的利潤

電影業(yè)是一個龐大的投資領(lǐng)域,但較大的商業(yè)領(lǐng)域更加復(fù)雜,而且很難選擇如何投資。此外,重大投資伴隨著更大的風(fēng)險。隨著電影行業(yè)日益增長,現(xiàn)在互聯(lián)網(wǎng)上有大量的數(shù)據(jù)可供使用,這使其成為一個令人興奮的數(shù)據(jù)分析領(lǐng)域。預(yù)測電影的票房成功是一項非常復(fù)雜的任務(wù)。

只有預(yù)先發(fā)布的特征才被認(rèn)為是預(yù)測一部即將上映的電影的成功。這里預(yù)先發(fā)布的特征包括電影預(yù)算、電影上映的屏幕數(shù)量、美國電影協(xié)會(MPAA)的評級、演員/女演員的明星影響力、導(dǎo)演的啟動力和上映月份。在發(fā)布電影一到幾周后,發(fā)布后的特征將有助于提高預(yù)測的準(zhǔn)確性,因為這些特征是可用的。為了更好的分類,我使用了5個類別而不是2個(慘淡/大賣)類別。預(yù)先發(fā)布的特征將作為輸入,它將被分為這5類。

將有兩種類型的預(yù)測,一種是精確匹配,它指的是正確的分類,另一種是遠(yuǎn)離預(yù)測,這意味著從特定類型向上或向下考慮一個類以及完全匹配。

現(xiàn)在,下一部分將是數(shù)據(jù)準(zhǔn)備。它可以分5個階段完成,

1.數(shù)據(jù)采集? - 可以通過抓取IMDb,爛番茄,Metacritic和Box Office Mojo等網(wǎng)站來提取一些預(yù)測特征,同時可以使用python API提取某些特征。

2.數(shù)據(jù)清理 - 數(shù)據(jù)集中有很多電影的預(yù)算是不可用的。在這些電影中,沒有幾部不具備大部分特征。這些電影中有許多是中國、俄羅斯或印度電影,因此無法正確地翻譯標(biāo)題,以鏈接和提取相應(yīng)的用戶評論和評級。這些影片必須從數(shù)據(jù)集中刪除。

3.特征提取 - 許多預(yù)測成功的特征必須使用數(shù)據(jù)集中提供的原始數(shù)據(jù)進(jìn)行計算。例如,評分的倍增值和評分的用戶數(shù)量被用作單個特征。一個演員的明星影響力是由他/她主演的所有電影的收入總和來計算的。

預(yù)算是另一個預(yù)發(fā)布的特征。如果一部電影的制作預(yù)算較高,它就有更大的機(jī)會通過宣傳獲得更多的人氣。所以預(yù)算高的電影有更高的機(jī)會獲得更多的收入。計算所有在兩周內(nèi)上映的電影的數(shù)量,包括之前和之后,并將其稱為“Competition Score(CS)”。然后根據(jù)CS的倒數(shù)計算'Competition Factor(CF)',這意味著競爭越激烈,得分越低。 同樣,也提取其他特征。

4.數(shù)據(jù)整合和轉(zhuǎn)換 - 為此,目標(biāo)分為5類,從慘淡到大賣。每個特征都分為這5個類。例如,放映數(shù)量的分類如下:

  1. - - - 放映數(shù)量<= 100;
  2. - - - 100 <放映數(shù)量<= 500;
  3. - - - 500 <放映數(shù)量<= 2000;
  4. - - - 2000 <放映數(shù)量<= 3000;
  5. - - - 放映數(shù)量> 3000 。

同樣,其他特征也分為5類。為了根據(jù)評論對電影進(jìn)行分類,將進(jìn)行情緒分析,并預(yù)測電影的情緒(范圍在5以內(nèi))。

5.數(shù)據(jù)歸一化? - 首先將演員、導(dǎo)演和發(fā)布日期等非數(shù)值變量轉(zhuǎn)換為數(shù)值。然后對數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使數(shù)值位于0和1之間,以避免數(shù)值的較大變化。在數(shù)據(jù)準(zhǔn)備完成之后,使用分類算法對電影進(jìn)行5類分類。利潤預(yù)測將按如下方式計算:

利潤=總計- 預(yù)算

根據(jù)預(yù)測的類別對電影進(jìn)行分組。計算組的最大利潤和最小利潤的平均值。該范圍將是電影的預(yù)測利潤范圍。

例如:

類 - - - - 利潤范圍;

  1. - - - - - 利潤<= 五百萬(慘淡);
  2. - - - - - 五百萬<利潤<= 1千萬;
  3. - - - - - 1千萬<利潤<= 4千萬;
  4. - - - - - 4千萬<利潤<= 1.5億;
  5. - - - - -利潤> 1.5億(大賣)。

[2]用于對5類中的電影進(jìn)行分類的分類算法:

壹.隨機(jī)森林

它本質(zhì)上適用于多類問題。它適用于處理數(shù)值和分類特征的混合,在這個問題中是一個主要因素。當(dāng)特征在各種尺度上,它也很好。粗略地說,使用隨機(jī)森林,您可以按原樣使用數(shù)據(jù)。隨機(jī)森林算法比支持向量機(jī)(SVM)更容易調(diào)整。

優(yōu)點(diǎn):

  1. 它通過平均幾棵樹來減少過度擬合的可能性。
  2. 它們不需要準(zhǔn)備輸入數(shù)據(jù)。您不必縮放數(shù)據(jù)。

缺點(diǎn):

  1. 與其他算法相比,隨機(jī)森林算法的預(yù)測過程比較耗時。
  2. 它們需要更多的計算資源,也不太直觀。當(dāng)您擁有大量決策樹時,很難直觀地掌握輸入數(shù)據(jù)中存在的關(guān)系。

貳.支持向量機(jī)(SVM)

對于預(yù)測,可以使用幾種機(jī)器學(xué)習(xí)算法,例如Naive Bayes,Random Forest和Logistic回歸等。這些分類器足以用于二進(jìn)制分類,其中一些可用于多類分類。但是,當(dāng)數(shù)據(jù)模式非常復(fù)雜時,SVM始終產(chǎn)生更好的結(jié)果。對于電影利潤預(yù)測,需要健全的特征。對于這種復(fù)雜的數(shù)據(jù)模式,SVM在機(jī)器學(xué)習(xí)算法中發(fā)揮最佳作用。

優(yōu)點(diǎn):

  1. 作為一種代價敏感的分類器,它可以解決數(shù)據(jù)不平衡的問題。在現(xiàn)實(shí)生活中的問題中,可能存在正數(shù)據(jù)的數(shù)量大于負(fù)數(shù)據(jù)的數(shù)量的情況。
  2. 與其他非線性分類器相比,該算法降低了計算復(fù)雜度并且提高了分類效率 。

缺點(diǎn):

  1. 在SVM中很難選擇最優(yōu)的內(nèi)核函數(shù)。
  2. 速度,大小和學(xué)習(xí)速率都有限制。

叁.神經(jīng)網(wǎng)絡(luò)

使用深度神經(jīng)網(wǎng)絡(luò)可以在所有方面最好地解決這個問題。它由一組隱藏層組成,借助反向傳播技術(shù)學(xué)習(xí)復(fù)雜的數(shù)據(jù)模式。深度神經(jīng)網(wǎng)絡(luò)是迄今為止用于分類的最佳方法。

我們向網(wǎng)絡(luò)提供的數(shù)據(jù)越多,它給出的結(jié)果就越準(zhǔn)確。我們知道電影行業(yè)是一個快速發(fā)展的行業(yè),隨著時間的推移,我們可以獲得更多的數(shù)據(jù)集。

優(yōu)點(diǎn):

  1. 神經(jīng)網(wǎng)絡(luò)是一種非參數(shù)模型,即消除了參數(shù)估計中的誤差 ,而大多數(shù)統(tǒng)計方法(MLR等)是需要較高統(tǒng)計背景的參數(shù)模型。
  2. 它具有處理不完整知識的能力。

缺點(diǎn):

  1. 它需要大量的計算時間。
  2. 與其他模型(如決策樹)相比,由于學(xué)習(xí)權(quán)重背后的未知符號邏輯意義,模型的可解釋性較差 。

結(jié)論

在使用神經(jīng)網(wǎng)絡(luò)的這三種算法中,這是解決此問題的最佳方法。這是因為對神經(jīng)網(wǎng)絡(luò)中的預(yù)測的準(zhǔn)確性沒有限制。隨著數(shù)據(jù)集的增加,其準(zhǔn)確性也會提高。此外,對于復(fù)雜的數(shù)據(jù)模式,如電影預(yù)發(fā)布特征,深度神經(jīng)網(wǎng)絡(luò)可能比其他機(jī)器學(xué)習(xí)算法非常有用。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能及其在心血管精準(zhǔn)醫(yī)療中的應(yīng)用
支持向量機(jī)及其應(yīng)用
選擇最佳機(jī)器學(xué)習(xí)模型的10步指南
深度了解卷積神經(jīng)網(wǎng)絡(luò)
貝葉斯機(jī)器學(xué)習(xí)到底是什么?看完這篇你就懂啦
深度學(xué)習(xí)六十問!一位算法工程師經(jīng)歷30+場CV面試后總結(jié)的常見問題合集下篇(含答案)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 柳州市| 沙河市| 南开区| 宁化县| 大理市| 随州市| 南和县| 镇宁| 莫力| 三门峡市| 沧州市| 桃园市| 许昌市| 化隆| 淅川县| 囊谦县| 金溪县| 谢通门县| 灌南县| 文昌市| 彭水| 延吉市| 台江县| 阳城县| 上犹县| 洪雅县| 道真| 孟连| 呼和浩特市| 通辽市| 济南市| 阳江市| 潜山县| 滦南县| 文成县| 宁阳县| 莱芜市| 嘉定区| 定远县| 宣武区| 巴里|