文件分類技術可以自動化的從已經分類好的訓練文件中學習出分類模式,藉由所學出的分類基準,將未分類的文件歸類到正確的類別之中。現存的文件分類技術只能
處理單語言的文件,也就是不論是訓練文件以及測試文件中的所有文件必須是以同一種語言撰寫而成。然而因為網際網路的發達,以及受到全球企業環境的影響,不
論是個人與組織都會使用不同語言的文件,進而需要對其建檔與歸類,因此跨語言文件分類就有其需求存在。在現存跨語文件分類的研究中,都是採用翻譯預測端文
件之策略,因此無法系統化的降低翻譯帶來的雜訊,也局限了跨語分類之效能。為了解決翻譯預測端文件之策略的侷限性,本研究提出翻譯訓練端文件的跨語言文件
分類之方法,透過分類器具有的一般化能力以降低翻譯雜訊。實證結果顯示,本研究所提出的跨語文件分類技術有效的降低翻譯雜訊帶來的影響,也較現有的技術達
到更高的分類準確度。
|