中文版 | English

歷史人物與事件的自動化擷取技術與系統開發(二)-自動化建構歷史人物的事理圖譜

基本資料
計畫類別 數位文化中心計畫
計畫編號 AS-ASCDC-112-202
通過年度 112
執行單位 資訊所
主持人
簡介

在 2017-2021 年期間,「漢籍自動化資訊擷取研究與系統開發」計畫透過資訊所、史語所、語言所的共同合作,打造了一個漢籍的標記與資訊擷取系統,提供人文學者漢籍大數據的環境,將大數據進行高品質加值,進行各類分析研究。此系統擁有多項功能,包括自動辨識漢籍文本的專有名詞,並將這些人名、地名、職官名、組織名彼此之間的關係自動連結。

 

2022年起,我們提出三年期的「歷史人物與事件的自動化擷取技術與系統開發」計畫,進一步將眼光放在自動化的事績分析,希望能自文本自動化分析出某人當了某官後曾經做過哪些事,或是發生哪些事件。2022年的工作是將歷史人物和其做過的事擷取出來並予以連結,2023 年的目標則除了持續精進「人」與 「事」擷取,還希望綜合得知某人當了某官後曾在某時某地做過某事,亦即「人」、「事」、「時」、「地」、「物」的綜合關係擷取。因此,本整合型計畫今年特別訂定子題名稱—「自動化建構歷史人物的事理圖譜」。

 

當中最主要的挑戰,在於漢籍的「人」、「事」、「時」、「地」、「物」標記資料是不存在的,也就沒有合適的訓練語料來訓練自動辨識的模型。針對此問題,直接的解法是大量的人工標記,但此工作耗時耗力,並不實際。本計畫的目標是如何在沒有標記或極少量標記的情形下,達到自動化的綜合關係擷取,來建立歷史人物的事理圖譜。

 

近來AI遷移學習(Transfer Learning)給了我們靈感:現代漢語(白話文)的語義分析訓練語料豐富,有豐富的語法語義標記,如此一來本計畫即可利用現代漢語的語義分析模型,經過自動化的改造(transfer),使之能適用於漢籍(文言文)的環境來擷取綜合關係。2022 年,本計畫利用深度學習技術,開發了一套全新的現代漢語相依型剖析系統,利用主詞和動詞的關係,來擷取「人」與 「事」,即使在沒有漢籍(文言文)的訓練資料下,也能達到一定的效果。2023 年,本計畫希望在漢籍運用少量標記資料來微調此剖析系統,除了將「人」與 「事」擷取得更精準,也擬進一步擴大為「人」、「事」、「時」、「地」、「物」的綜合關係擷取。具體工作包括:一、 人工少量標記「人」、「事」、「時」、「地」、「物」,包含標記界面的設計與實際的人工標記;二、利用這些少量的標記資料微調相依型剖析系統。

 

我們近幾年的合作夥伴 「史語所學術創新數位深耕計畫」自2022 年起將目標放在方志研究上,而方志除了職官訊息,亦含宦績的篇章,剛好可作為研究素材。本計畫研究成果將持續整合至「中央研究院數位人文研究平台」。 

相關連結

中文相依型剖析系統

漢籍斷詞標記系統

人名-職官自動擷取與仕途分析展示系統 (2.0版)

清實錄的事件擷取


知識本體架構 線上瀏覽系統

上古漢語

中古漢語

近代漢語

現代漢語


漢語標記語料庫

上古

中古

近代

現代

回計畫列表

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed