漢籍自動化資訊擷取研究與系統開發（第二年）

基本資料
計畫類別	數位文化中心計畫
計畫編號	ASCDC-107-10
通過年度	107
執行單位	資訊所
主持人	馬偉雲
簡介	對漢籍進行標記與資訊擷取是數位典藏與研究不可或缺的步驟，例如人、事、時、地、物或是詞語的詞性標注，是人文研究者豐富的研究素材。人工標記過程費時費力，因此本計畫希望開發自動化的資訊標注與擷取系統。此為五年的研究計畫，107年的目標放在自動化建立漢籍詞彙知識本體以及缺乏訓練語料情況下的專有名詞辨識技術，同時本計畫目前正將106年的斷詞標記語與專有名詞技術移交給數位文化中心的技術部門，打造一漢籍語言處理技術的平台，在107年可上線供數位文化中心所有計畫免費使用。專有名詞方面，本計畫藉由一定數量的人工標記語料，擬自動將詞語進行斷詞詞性並標注人名、地名、職官、藥名等等。藥名目前還未有人工標記語料，故本計畫從本草綱目中整理出藥典，並從中研院史語所提供的127部古醫書中得到藥名的上下文資訊。本計畫擬用條件機率隨機場（Conditional Random Field）的技術以及統計式準則模型（Statistical Principle-based Approach, PBA）來分別訓練其辨識模型。第一年（106年）目標是自動化標記新、舊唐書，新、舊五代史等的人名、地名、職官名、藥名的辨識與標注。經過去年的努力，在辨識率上可以達到大約9成的f-score。第二年（107年）擬建立自動化建立漢籍詞彙知識本體，所有詞彙包含專有名詞均可列入統一的知識本體之下，有清楚的分類與上下位關係。除了藥名之外，擬藉由知識本體的比對以及詞彙向量的學習來自動標記疾病名稱、症狀、誘因等專有名詞，這些特定領域的專有名詞是沒有充足的人工標記語料的，因此需要發展缺乏訓練語料情況下的專有名詞辨識技術，並且因為新增了類型，訓練資料的短缺必定會是問題，這就提供了研究上的挑戰，distant supervision是一個可能的解決方案。第三年則集中在將藥名、疾病名稱、症狀、誘因等專有名詞彼此之間建立關連，藉由一定數量的人工標記語料，自動將專有名詞彼此之間的關連性建立起來。第四年由於相關專有名詞辨識技術應已相當成熟，進一步擴充專有名詞的種類，bootstrapping是一個可能的解決方案。同時可充分進行漢籍的大數據分析，例如不同朝代的用藥習慣等。第五年將所有類型的專有名詞彼此之間的關連性建立起來，並打造漢籍大數據分析的公用平台，供全世界人文學者使用。在斷詞與詞性標注方面，目前中研院語言所針對上古、中古、近代漢籍已經標注了一些文本並對外開放，標記的過程是由中研院資訊所的斷詞系統先進行初步自動標記再輔以語言所進行人工檢查。可是上下文訊息或是整句訊息並沒有反匱給斷詞系統重新做系統的訓練與優化，針對這一點，本計畫提出條件機率隨機場後處理的技術，將自動斷詞結果與標準答案中間的誤差與其上下文資訊作為特徵，來訓練條件機率隨機場。斷詞與詞性標注的結果也會作為專有名詞上下文的特徵，提供專有名詞辨識系統之用，進一步提升專有名詞的辨識效能，因此五年的計畫進程也會跟著專有名詞辨識的進程連動。106年本計畫利用CRF得到不錯的效能，107年由於同步建立漢籍知識本體，本計畫希望利用知識本體以及漢籍語料庫共同訓練出詞彙向量，再將詞彙向量放在深度學習的框架下，進一步提升及效能。本計畫期待透過這次資訊所、史語所、語言所的共同合作，建立一個漢籍的標記與資訊擷取平台，不但提供人文學者漢籍大數據的環境，並將大數據進行高品質的加值，方便人文學者進行各類分析研究。以中醫舉例來說，當把所有漢籍當中的藥名、疾病名稱、症狀、誘因以及彼此的關連都標注清楚後，人文學者就可以針對歷世歷代的用藥情形進行精準的分析統計與交叉比對，進而研究藥物數量與習慣是否有時代，地域，醫書，醫者之間的差異等等，同時中醫領域也可能藉由這樣的分析，進一步促進中醫醫療的進步。近期目標是將史語所與語言所的標記語料更加豐富，提供web查詢介面給學者與大眾使用。最終目標為自動化建構全方位的漢籍知識庫，follow國際知識庫規格和國際接軌，並開放給全世界人文學者使用，同時根據反饋，修正與提供更豐富正確的資訊擷取內容。

回計畫列表