隨著網際網路的出現、普及與全球化的趨勢,產生了大量且能夠在網際網路上取得的不同語言的文件,有效率且有效的管理這些不同語言的文件成為組織或個人的重
要工作。雖然多語言文件管理可以用多個獨立的單語文件分類器來達成,但這個方法卻只採用相同語言內的訓練文件而失去了利用多語言訓練文件中潛在分類資訊的
機會。況且,目前現存的多語文言文件分類方法因為同時考慮全部語言之詞彙而引進太多分類雜訊,以致於它的正確性甚至比單語言文件分類更低。基於多語言文件
分類技術需求愈來愈重要,本研究提出了一個在考慮全部訓練文件下,為特定語言所建構的單語分類器的多語言文件分類方法。與獨立的單語文件分類器方法比較起
來,本研究所提出的多語言文件分類方法,不論在中文或英文的實驗資料下,都達到較佳的分類效能。
|