中文版 | English

漢籍自動化資訊擷取研究與系統開發

基本資料
計畫類別 數位文化中心計畫
計畫編號 AS-ASCDC-110-202
通過年度 110
執行單位 資訊所
主持人
簡介

對漢籍語料進行自動化標注與資訊擷取,是數位典藏與研究不可或缺的步驟。例如人、事、時、地、物或詞語的詞性標記,是人文研究者豐富的研究素材。人工標記過程費時費力,因此我們希望開發自動化的資訊標注與擷取系統。透過中央研究院資訊科學研究所、歷史語言研究所、語言學研究所的合作,我們建立一個漢籍的標記與資訊擷取平台,不但提供人文學者漢籍大數據的環境,更將大數據進行高品質的加值,方便人文學者進行各類分析研究。

 

此為五年的研究計畫,2021年為第五年,延續2019年與史語所學術創新數位深耕計畫子五「數位內容學術加值計畫」與子四「漢籍全文資料庫」合作,從漢籍文本中自動學習出各類大量具高品質的權威檔。在2017年,也就是計畫第一年,我們的目標是辨認已有權威詞彙是否能辨別出種類。2018年我們開發斷詞標記的信心值估算技術與API。2019-2020年,則和史語所劉錚雲老師團隊展開一個新的研究題目───建立三元關係為基礎的知識圖譜,進一步在文本中直接自動化產生出新的、未收錄的權威詞彙,也就是產生出權威檔。當我們能夠自漢籍文本中自動辨識出專有名詞時,更希望這些人名、地名、職官名、組織名彼此之間的關係能夠自動連結,例如知道什麼人擔任什麼官職。2019年我們初步先以人名和職官名的配對進行研究開發,自動建立人名權威檔中最具關鍵性的履歷資料。2020年我們提出三元組關係的生成模型(generative model),建立新的的履歷資料,將人名與職官配對,例如「人名─擔任─職官」之如「苗澄為四川總督」,或是「職官─人名」之如「直隸總督李鴻章」,由此邏輯在文本中推算出新的三元組,發掘新的職官、人名詞彙。目前已發掘多個人名檔未有之人名,以及電腦判讀有異之履歷資料,如此不僅可開發新的人名、官名,補充尚未建置之基層官員資料。

 

2021年預計運用更多文本資料推演出更多三元組,發掘人名與職銜,幫助史語所陸續納入後設資料校對與新增目標,協助職官年表之增建。我們會以史語所的回饋為持續改進演算法的線索,亦可輔助既有之人名檔、職官檔除錯、校對,並增加異名名稱,增進資料正確度與豐富性。同時, 我們預計利用類似的技術,文本自動化分析出某人當了某官後曾經做過哪些事,或是某人曾經待過哪些地方,甚至綜合得知某人當了某官後曾在某地做過某事。如此對人物的描述與刻劃必定更為細緻,可以提供人文學者大量地素材來進行各類分析。

 

另外,時程已進入五年計畫的最後一年,我們希望延續過去和數位文化中心的平台整合工作,將所開發的各項技術全數整合至「中央研究院數位人文研究平台」。2018年已將所開發的各項技術及API,提供數位文化中心技術部門,平台並於2019年上線,同時持續改善中。另亦於2019年將專有名詞信心指數整合至數位人文研究平台,且在 2020年提供斷詞及詞類標記系統,包含可以處理漢籍的上古、中古、近代語料。預計2021年提供自動化關係抽取工具予數位文化中心使用,以落實人文研究的具體貢獻。2021年將延續過去在自動化建立知識本體,以及斷詞與詞性標注方面的技術改善,並針對近年所碰到的問題進行分析,同時提出對策。

相關連結

知識本體架構呈現詞彙語意

漢藉標記語料庫

回計畫列表

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed