雖然資料探勘中之分類分析技術針對類別分佈對稱的資料集合可以建構出具有良好分類效能的分類預測模式,然而在實務的運用上(如流失客戶預測與信用卡詐欺偵測),資料集合卻常有類別資料分佈極不平均的「非對稱性分配」(Skewed Distribution)問題,使得分類預測模式無法針對量少的目標資料進行正確類別預測。多專家分類器、減少多數法及增加少數法是目前文獻中用以解決資料集合的非對稱性分配問題的三種主要的方法。本研究將利用資料分群法改良文獻中的多專家分類器而提出分群式多專家分類器的建構法,並嘗試利用最近距離法、最遠距離法、最近平均距離法及最遠平均距離法改善文獻中減少多數法對「非對稱性分配」問題的處理效能。
本研究收集了燒燙傷醫療資料及精品量販店客戶消費資料兩個具有「非對稱性分配」問題的實際資料集合並採用以決策樹為基礎的分類器,測試本研究所提出用以解決「非對稱性分配」問題五種方法的分類效能,並以文獻中的多專家分類器建構法作為比較基準。利用十次取樣驗證實驗的實驗結果顯示,在兩個收集得的資料集合上,採用類別調整適當比例(如1:2)的分群式多專家法所建構的分類預測模式具有最佳的分類效能。
|