漢籍自動化資訊擷取研究與系統開發

基本資料
計畫類別	數位文化中心計畫
計畫編號	AS-ASCDC-110-202
通過年度	110
執行單位	資訊所
主持人	馬偉雲
簡介	對漢籍語料進行自動化標注與資訊擷取，是數位典藏與研究不可或缺的步驟。例如人、事、時、地、物或詞語的詞性標記，是人文研究者豐富的研究素材。人工標記過程費時費力，因此我們希望開發自動化的資訊標注與擷取系統。透過中央研究院資訊科學研究所、歷史語言研究所、語言學研究所的合作，我們建立一個漢籍的標記與資訊擷取平台，不但提供人文學者漢籍大數據的環境，更將大數據進行高品質的加值，方便人文學者進行各類分析研究。此為五年的研究計畫，2021年為第五年，延續2019年與史語所學術創新數位深耕計畫子五「數位內容學術加值計畫」與子四「漢籍全文資料庫」合作，從漢籍文本中自動學習出各類大量具高品質的權威檔。在2017年，也就是計畫第一年，我們的目標是辨認已有權威詞彙是否能辨別出種類。2018年我們開發斷詞標記的信心值估算技術與API。2019-2020年，則和史語所劉錚雲老師團隊展開一個新的研究題目───建立三元關係為基礎的知識圖譜，進一步在文本中直接自動化產生出新的、未收錄的權威詞彙，也就是產生出權威檔。當我們能夠自漢籍文本中自動辨識出專有名詞時，更希望這些人名、地名、職官名、組織名彼此之間的關係能夠自動連結，例如知道什麼人擔任什麼官職。2019年我們初步先以人名和職官名的配對進行研究開發，自動建立人名權威檔中最具關鍵性的履歷資料。2020年我們提出三元組關係的生成模型（generative model），建立新的的履歷資料，將人名與職官配對，例如「人名─擔任─職官」之如「苗澄為四川總督」，或是「職官─人名」之如「直隸總督李鴻章」，由此邏輯在文本中推算出新的三元組，發掘新的職官、人名詞彙。目前已發掘多個人名檔未有之人名，以及電腦判讀有異之履歷資料，如此不僅可開發新的人名、官名，補充尚未建置之基層官員資料。 2021年預計運用更多文本資料推演出更多三元組，發掘人名與職銜，幫助史語所陸續納入後設資料校對與新增目標，協助職官年表之增建。我們會以史語所的回饋為持續改進演算法的線索，亦可輔助既有之人名檔、職官檔除錯、校對，並增加異名名稱，增進資料正確度與豐富性。同時, 我們預計利用類似的技術，文本自動化分析出某人當了某官後曾經做過哪些事，或是某人曾經待過哪些地方，甚至綜合得知某人當了某官後曾在某地做過某事。如此對人物的描述與刻劃必定更為細緻，可以提供人文學者大量地素材來進行各類分析。另外，時程已進入五年計畫的最後一年，我們希望延續過去和數位文化中心的平台整合工作，將所開發的各項技術全數整合至「中央研究院數位人文研究平台」。2018年已將所開發的各項技術及API，提供數位文化中心技術部門，平台並於2019年上線，同時持續改善中。另亦於2019年將專有名詞信心指數整合至數位人文研究平台，且在 2020年提供斷詞及詞類標記系統，包含可以處理漢籍的上古、中古、近代語料。預計2021年提供自動化關係抽取工具予數位文化中心使用，以落實人文研究的具體貢獻。2021年將延續過去在自動化建立知識本體，以及斷詞與詞性標注方面的技術改善，並針對近年所碰到的問題進行分析，同時提出對策。
相關連結	漢籍「人名-職官名連結展示」系統漢籍詞彙分類信心指數系統人物仕途分析系統知識本體架構呈現詞彙語意上古中古近代現代漢藉標記語料庫上古中古近代現代

回計畫列表