精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕
打開APP
未登錄
開通VIP,暢享免費電子書等14項超值服
開通VIP
首頁
好書
留言交流
下載APP
聯(lián)系客服
開源機器學習:R Meets Weka
ShangShujie
>《DM,ML》
2008.07.30
關注
背景介紹:
1)Weka:
Weka有兩種意思:一種不會飛的鳥的名字,一個機器學習開源項目的簡稱(Waikato Environment for Knowledge Analysis,
http://www.cs.waikato.ac.nz/~ml/weka/
)。我們這里當然要介紹的是第二種意思啦,Weka項目從1992年開始,由新西蘭政府支持,現(xiàn)在已在機器學習領域大名鼎鼎。Weka里有非常全面的機器學習算法,包括數(shù)據(jù)預處理、分類、回歸、聚類、關聯(lián)規(guī)則等。Weka的圖形界面對不會寫程序的人來說非常方便,而且提供“KnowledgeFlow”功能,允許將多個步驟組成一個工作流。另外,Weka也允許在命令行執(zhí)行命令。
2)R
R就不用我廢話了吧,呵呵,越來越受歡迎的統(tǒng)計軟件(
http://www.r-project.org/
)。
3)R與Weka:
R里有很多機器學習的函數(shù)和包,不過Weka里提供的函數(shù)更全面更集中,所以我有時候需要用到Weka。以前我是這樣用R和Weka的:
在R中準備好訓練的數(shù)據(jù)(如:提取數(shù)據(jù)特征……);
整理成Weka需要的格式(*.arff);
在Weka里做機器學習(如:特征選擇、分類……);
從Weka的預測結(jié)果計算需要的統(tǒng)計量(如:sensitivity, specificity, MCC……)。
來回搗騰兩個軟件還是挺麻煩的;為了偷懶,我沒學Weka的命令行,只會用圖形界面的,在數(shù)據(jù)量大的時候非常受罪,有時候還會內(nèi)存不夠?,F(xiàn)在發(fā)現(xiàn)R竟然提供了和Weka的接口函數(shù)包RWeka,以后方便多了哦,下面介紹一下RWeka的功能:
RWeka
(
http://cran.r-project.org/web/packages/RWeka/index.html
) :
1) 數(shù)據(jù)輸入和輸出
WOW():查看Weka函數(shù)的參數(shù)。
Weka_control():設置Weka函數(shù)的參數(shù)。
read.arff():讀Weka Attribute-Relation File Format (ARFF)格式的數(shù)據(jù)。
write.arff:將數(shù)據(jù)寫入Weka Attribute-Relation File Format (ARFF)格式的文件。
2) 數(shù)據(jù)預處理
Normalize():無監(jiān)督的標準化連續(xù)性數(shù)據(jù)。
Discretize():用MDL(Minimum Description Length)方法,有監(jiān)督的離散化連續(xù)性數(shù)值數(shù)據(jù)。
3) 分類和回歸
IBk():k最近鄰分類
LBR():naive Bayes法分類
J48():C4.5決策樹算法(決策樹在分析各個屬性時,是完全獨立的)。
LMT():組合樹結(jié)構(gòu)和Logistic回歸模型,每個葉子節(jié)點是一個Logistic回歸模型,準確性比單獨的決策樹和Logistic回歸方法要好。
M5P():M5 模型數(shù)算法,組合了樹結(jié)構(gòu)和線性回歸模型,每個葉子節(jié)點是一個線性回歸模型,因而可用于連續(xù)數(shù)據(jù)的回歸。
DecisionStump():單層決策樹算法,常被作為boosting的基本學習器。
SMO():支持向量機分類
AdaBoostM1():Adaboost M1方法。-W參數(shù)指定弱學習器的算法。
Bagging():通過從原始數(shù)據(jù)取樣(用替換方法),創(chuàng)建多個模型。
LogitBoost():弱學習器采用了對數(shù)回歸方法,學習到的是實數(shù)值
MultiBoostAB():AdaBoost 方法的改進,可看作AdaBoost 和 “wagging”的組合。
Stacking():用于不同的基本分類器集成的算法。
LinearRegression():建立合適的線性回歸模型。
Logistic():建立logistic回歸模型。
JRip():一種規(guī)則學習方法。
M5Rules():用M5方法產(chǎn)生回歸問題的決策規(guī)則。
OneR():簡單的1-R分類法。
PART():產(chǎn)生PART決策規(guī)則。
4) 聚類
Cobweb():這是種基于模型方法,它假設每個聚類的模型并發(fā)現(xiàn)適合相應模型的數(shù)據(jù)。不適合對大數(shù)據(jù)庫進行聚類處理。
FarthestFirst():快速的近似的k均值聚類算法
SimpleKMeans():k均值聚類算法
XMeans():改進的k均值法,能自動決定類別數(shù)
DBScan():基于密度的聚類方法,它根據(jù)對象周圍的密度不斷增長聚類。它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義為一組“密度連接”的點集。
5)關聯(lián)規(guī)則
Apriori():Apriori是關聯(lián)規(guī)則領域里最具影響力的基礎算法,是一種廣度優(yōu)先算法,通過多次掃描數(shù)據(jù)庫來獲取支持度大于最小支持度的頻繁項集。它的理論基礎是頻繁項集的兩個單調(diào)性原則:頻繁項集的任一子集一定是頻繁的;非頻繁項集的任一超集一定是非頻繁的。在海量數(shù)據(jù)的情況下,Apriori 算法的時間和空間成本非常高。
Tertius():Tertius算法。
6)預測和評估:
predict():根據(jù)分類或聚類結(jié)果預測新數(shù)據(jù)的類別
table():比較兩個因子對象
evaluate_Weka_classifier():評估模型的執(zhí)行,如:TP Rate,F(xiàn)P Rate,Precision,Recall,F(xiàn)-Measure。
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報
。
打開APP,閱讀全文并永久保存
查看更多類似文章
猜你喜歡
類似文章
WEKA入門教程
Weka 中文站|論壇 ? 查看主題 - [原創(chuàng)]WEKA入門教程
[轉(zhuǎn)帖]當weka遇到大數(shù)據(jù)集時[中國商業(yè)智能論壇] -- Powered By Dvbb...
微軟機器學習Azure Machine Learning入門概覽
【干貨】機器學習資料整理,收藏了不后悔!
盤點:為 Java 開發(fā)者量身定制的五款機器學習庫
更多類似文章 >>
生活服務
首頁
萬象
文化
人生
生活
健康
教育
職場
理財
娛樂
藝術
上網(wǎng)
留言交流
回頂部
聯(lián)系我們
分享
收藏
點擊這里,查看已保存的文章
導長圖
關注
一鍵復制
下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!
聯(lián)系客服
微信登錄中...
請勿關閉此頁面
先別劃走!
送你5元優(yōu)惠券,購買VIP限時立減!
5
元
優(yōu)惠券
優(yōu)惠券還有
10:00
過期
馬上使用
×
主站蜘蛛池模板:
临高县
|
龙州县
|
揭西县
|
阳山县
|
邢台县
|
江川县
|
象山县
|
茶陵县
|
丁青县
|
九龙城区
|
潜江市
|
延庆县
|
忻州市
|
建德市
|
蒙城县
|
芜湖县
|
乌拉特中旗
|
邹平县
|
新郑市
|
泗水县
|
松滋市
|
荣昌县
|
扶绥县
|
汉寿县
|
千阳县
|
兴安县
|
枝江市
|
高碑店市
|
页游
|
隆子县
|
玉林市
|
晋州市
|
蓝田县
|
马山县
|
曲阳县
|
赤城县
|
大余县
|
阳城县
|
南木林县
|
河源市
|
台南市
|