學術活動
博士班seminar演講 12/6 雲科大系主任 許中川教授
演講題目:探勘中文新聞文件

演講時間:12月6日

內容摘要:
  新聞報導每天發生的重要事件,大量的新聞文件中,往往蘊含重要的資訊。文件資料探勘技術用來發覺隱藏在大量文件中的特徵。然而,目前的文件探勘研究集中在歐美語系文件,且代表文件的關鍵詞彙的擷取,都是人工處理。本研究以中文新聞文件為探勘對象,試圖發覺其中隱含的知識。針對新聞文件的特殊結構,在收集關鍵詞彙方面,以混合式斷詞法進行中文斷詞,經過關鍵既有詞彙擷取與關鍵新生詞彙擷取步驟,獲得每篇新聞文件的關鍵詞彙,代表該文件重要概念,供後續探勘之用。在資料探勘方面,首先為切合新聞文件知識開採需求,使用概念階層樹建構背景知識與關鍵詞彙。然後以關聯法則為基礎,我們提出三個改良式關聯模式:第一個是新生詞彙關聯法則,第二個是結構化資料與高頻詞彙關聯,第三個是結構化資料與某同類詞彙關聯;另外,以線性迴歸及卡方分配技術,分別探勘關鍵詞彙的報導趨勢與分佈情況。最後並以實驗驗證此探勘架構的可行性。
回電子報首頁

國立中山大學資管系 版權所有
Copyright 2001 Department of Information Management, NSYSU.
歡迎轉載 但請尊重智慧財產權 註明出處