文件分類技術可以自動化的從已經分類好的訓練範例中學習出分類模式,並藉由此模式,將未分類的文件歸類到正確的類別之中。傳統二分類情況下的文件分類技術,
所需要的訓練範例必須包含正範例與負範例,然而,在很多現實情況下,取得負範例需要很昂貴的成本,相較之下,正範例與未分類範例的取得就容易許多。因此,
本研究針對現有只以正範例與未分類範例作為學習範例的演算法的限制,利用Ensemble的概念提出了一個混合式的研究架構,並以垃圾郵件過濾器作為我們
評估的例子,實證評估結果顯示,本研究確實比PNB與PEBL此兩種演算法能達到更穩定且可靠的分類結果。
|