隨著資訊科技的發展,工程顧問公司開始逐步地將組織內的文件與圖件進行數位化的工作,並建構組織的數位圖書館,以協助文件之擷取。然而,即使在數位化圖書館的環境下,工程師仍面臨著一個重大的挑戰–如何在數位圖書館中尋找所需的圖件。如果所在之數位圖書館僅儲存了少量的圖件,工程師或許可以藉由瀏覽圖件縮圖的方式來尋找所需之圖件,但隨著圖件數量的快速增加,人工瀏覽式的圖件找尋,勢將成為一項費時的工作,並且可能因為無法找到適當圖件而令人感到挫折。
為了因應圖件快速增加的數位圖書館環境下,有效率與有效地擷取圖件的需求與重要性,本論文旨在發展一套圖件擷取系統。一般而言,工程文件中的圖件常伴隨著一些用以說明該圖件的文字一同出現。這些用以說明圖件的週邊文字,事實上提供了進行自動化圖件索引的重要資訊,藉由自週邊文字中適當地萃取索引字(關鍵字),我們便能夠以傳統的資訊擷取技術,來進行圖件擷取的工作。
具體而言,本論文提出了以圖件週邊文字做為基礎的圖件擷取技術。我們利用相同的週邊文字選取中心,以段落或句子的文法基本單位,建構了四種不同資訊量的週邊文字模型,同時以兩種不同的擷取方法–非擴展式與擴展式–進行了實證評估,以驗證不同週邊文字選取量與擷取方法對於圖件擷取效能的影響。實證的結果顯示,以圖件編號為週邊文字選取中心,配合三個句子的週邊文字選取量,可以得到較佳的圖件擷取效能。
|