漢籍自動化資訊擷取研究與系統開發

基本資料
計畫類別	數位文化中心計畫
計畫編號	ASCDC-106-10
通過年度	106
執行單位	資訊所
主持人	馬偉雲
簡介	對漢籍進行標記與資訊擷取是數位典藏與研究不可或缺的步驟，例如人、事、時、地、物或是詞語的詞性標注，是人文研究者豐富的研究素材。人工標記過程費時費力，因此我們希望開發自動化的資訊標注與擷取系統。專有名詞方面，我們藉由一定數量的人工標記語料，擬自動將詞語進行斷詞詞性並標注人名、地名、職官、藥名等等辨。藥名目前還未有人工標記語料，故我們從本草綱目中整理出藥典，並從中研院史語所提供的127部古醫書中得到藥名的上下文資訊。我們擬用條件機率隨機場（Conditional Random Field）的技術以及統計式準則模型（Statistical Principle-based Approach，PBA）來分別訓練我們的辨識模型。我們第一年目標是自動化標記新、舊唐書，新、舊五代史等的人名、地名、職官名、藥名的辨識與標注。第二年除了藥名之外，我們擬自動標記疾病名稱、症狀、誘因等專有名詞。第三年則集中在將藥名、疾病名稱、症狀、誘因等專有名詞彼此之間建立關連，藉由一定數量的人工標記語料，自動將專有名詞彼此之間的關連性建立起來。第四年由於相關專有名詞辨識技術應已相當成熟，會嘗試標注更多類型的專有名詞，並且因為新增了類型，訓練資料的短缺必定會是問題，這就提供了研究上的挑戰，boostrapping 是一個可能的解決方案。第五年將所有類型的專有名詞彼此之間的關連性建立起來，著手自動化建構全方位的漢籍知識庫供全世界人文學者使用。在斷詞與詞性標注方面，目前中研院語言所針對上古、中古、近代漢籍已經標注了一些文本並對外開放，標記的過程是由中研院資訊所的斷詞系統先進行初步自動標記再輔以語言所進行人工檢查。可是上下文訊息或是整句訊息並沒有反匱給斷詞系統重新做系統的訓練與優化，針對這一點，我們提出條件機率隨機場後處理的技術，將自動斷詞結果與標準答案中間的誤差與其上下文資訊作為特徵，來訓練條件機率隨機場。斷詞與詞性標注的結果也會作為專有名詞上下文的特徵，提供專有名詞辨識系統之用，進一步提升專有名詞的辨識效能，因此五年的計畫進程也會跟著專有名詞辨識的進程連動。我們期待透過這次資訊所、史語所、語言所的共同合作，建立一個漢籍的標記與資訊擷取平台，不但提供人文學者漢籍大數據的環境，並將大數據進行高品質的加值，方便人文學者進行各類分析研究。以中醫舉例來說，當我們把所有漢籍當中的藥名、疾病名稱、症狀、誘因以及他們彼此的關連都標注清楚後，人文學者就可以針對歷世歷代的用藥情形進行精準的分析統計與交叉比對，進而研究藥物數量與習慣是否有時代，地域，醫書，醫者之間的差異等等，同時中醫領域也可能藉由這樣的分析，進一步促進中醫醫療的進步。近期目標是將史語所與語言所的標記語料更加豐富，提供web查詢介面給學者與大眾使用。我們的最終目標是自動化建構全方位的漢籍知識庫，follow國際知識庫規格和國際接軌，並開放給全世界人文學者使用，同時根據反饋，修正與提供更豐富正確的資訊擷取內容。

回計畫列表