隨著資訊科技與網際網路的日益發達,電子商務及知識管理的相關應用快速增加,相對的,個人與企業所需要面對的資訊量也呈現巨幅的成長,其中又以文字類型的
文件為多數。為了有效管理這些數量龐大的文件,個人及企業常以單層或多層的類別將這些文件進行分類,便於日後的檢索及瀏覽,而文件分群技術也是協助管理文
件的方法之一。
文件分群是一種隱含個人分群偏好的行為,每個人會依照他對這篇文章的語意認知及類別上的判斷,來進行分群。因此一個有效的文件分群技術,必須考慮每個人的
分群偏好,讓分群的結果能符合個人需求,且在形式上也必須能適用於階層式的群集。然而傳統的文件分群技術主要是分析文件的內容,因此無法產生符合個人偏好
的分群結果。此外現存的文件分群技術,多是產生單層的分群結果,而非多層式的階層架構。
基於上述理由,本研究發展出一種階層式的個人文件分群技術(hierarchical personalized
document-clustering),簡稱HPEC。此方法不僅可依個人的分群偏好來產生他們所需要分群結果,所產生的群集形式也是階層式的。在實驗評估結果中,本研究發現HPEC在招回率上(cluster
recall)比它的基準方法(HAC+P)來得優異,而在準確率(cluster precision)及距離差(location
discrepancy)的表現上,也能得到相似的水平。
|