摘要(中) |
隨著網際網路的興起,資訊的傳播與取得隨著線上應用程式的使用頻繁,越來越簡單且快速。大量的文件與資訊在網路上流通,如何對資訊進行管理與應用變得越來越重要,其中文件自動分類技術(Document
Clustering and
Classification)為最基本且有效的管理方式之一,已經廣泛使用在新聞、搜尋引擎等網站上。過去在文件分類領域的研究,大多偏重在演算法效率的改進與分類正確性的提升,而忽略了隨著文件不斷地增加,文件的類別會隨著有所變動,而造成原始分類類別不適用的情況。
在分類的結構方面,階層式分類架構是常用的分類方式,尤其是在處理大量文件資料的時候,透過階層式的架構可以降低使用者搜尋的時間成本,同時提高文件管理的效率。明顯地,在一個適當的階層式文件類別架構當中,隱含著架構者對於該文件領域的知識與個人分類上的偏好,而這些對於文件自動分類技術都是相當有用的資訊。
本研究的目的在於發展以資料探勘為基礎的階層式文件類別演進技術(Category Hierarchy Evolution, CHE),以改善分類類別之品質。不同於Arawal等人(1999)所提之文件類別探索之技術,本研究的文件類別演進(CHE)技術利用文件庫中原來的分類知識,再結合各類別中所包含文件的特性,以演進的方式,進行類別的重新整合,使得該類別架構能隨著文件的日益增加而進行動態調整,且持續地適用。
本實證研究結果顯示,本研究所提出的文件類別演進(CHE)技術能改良部分原有的分類架構,可適用於不同品質的文件類別之演進,且提升文件分類之正確性。
|