特级做A爰片毛片免费69,永久免费AV无码不卡在线观看,国产精品无码av地址一,久久无码色综合中文字幕

分類算法中數(shù)據(jù)不平衡問(wèn)題的分析研究.doc

  
約29頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)

分類算法中數(shù)據(jù)不平衡問(wèn)題的分析研究,analysis of the problem of unbalanced data classification1.6萬(wàn)字29頁(yè)原創(chuàng)作品,已通過(guò)查重系統(tǒng) 摘要: 不平衡數(shù)據(jù)分類問(wèn)題是分類學(xué)習(xí)中的難點(diǎn)。不平衡數(shù)據(jù)分類問(wèn)題在各個(gè)領(lǐng)域中的廣泛應(yīng)用推動(dòng)著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)...
編號(hào):99-1440046大小:322.93K
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 馬甲線女神 發(fā)布

分類算法中數(shù)據(jù)不平衡問(wèn)題的分析研究
Analysis of the problem of unbalanced data classification

1.6萬(wàn)字 29頁(yè) 原創(chuàng)作品,已通過(guò)查重系統(tǒng)


摘要: 不平衡數(shù)據(jù)分類問(wèn)題是分類學(xué)習(xí)中的難點(diǎn)。不平衡數(shù)據(jù)分類問(wèn)題在各個(gè)領(lǐng)域中的廣泛應(yīng)用推動(dòng)著其研究發(fā)展。以集成分類與數(shù)據(jù)預(yù)處理相結(jié)合的分類方法是現(xiàn)今解決不平衡分類問(wèn)題的主流。集成分類主要運(yùn)用了不同分類器之間的差異性,通過(guò)簡(jiǎn)單篩選后,形成各分類器間的優(yōu)勢(shì)互補(bǔ),經(jīng)典的分類器集成方法有Bagging、Adaboost、random space等。針對(duì)不平衡數(shù)據(jù)的預(yù)處理方法主要有降采樣、過(guò)采樣、聚類等,同時(shí)也有SMOTE等優(yōu)化采樣方法不斷涌現(xiàn)。
實(shí)驗(yàn)發(fā)現(xiàn),使用經(jīng)典Adaboost算法處理不平衡數(shù)據(jù)時(shí),訓(xùn)練集樣本結(jié)構(gòu)始終處于較大波動(dòng)狀態(tài),基分類器性能不穩(wěn)定。當(dāng)數(shù)據(jù)集不平衡程度較大時(shí),以算法中的樣本權(quán)重調(diào)整方法需要氦時(shí)間才能獲取較為平衡的訓(xùn)練集用于分類學(xué)習(xí)。權(quán)重調(diào)整過(guò)程中產(chǎn)生的具有偏向性分類器較多,嚴(yán)重影響了最終集成效果。
本文基于對(duì)Adaboost算法的分析研究,逐步從初始權(quán)重賦值、基分類器篩選、權(quán)重調(diào)整機(jī)制等方面,對(duì)Adaboost算法進(jìn)行改進(jìn)。樣本初始權(quán)重的設(shè)定,力求達(dá)到快速進(jìn)入能夠通過(guò)加權(quán)隨機(jī)抽取,抽到較平衡的訓(xùn)練集的效果。每次訓(xùn)練后,訓(xùn)練集中樣本權(quán)重調(diào)整機(jī)制的修改,保證了后續(xù)訓(xùn)練集持續(xù)處于較平衡的狀態(tài),穩(wěn)定了分類器性能。通過(guò)不同算法間實(shí)驗(yàn)結(jié)果的比較,證實(shí)了改進(jìn)后的算法,在處理不平衡數(shù)據(jù)分類問(wèn)題上具有更高的性能。


關(guān)鍵詞:不平衡數(shù)據(jù)集 集成分類 隨機(jī)采樣 樣本權(quán)重 平衡訓(xùn)練集