中文版 | English

漢籍自動化資訊擷取研究與系統開發(第四年)

基本資料
計畫類別 數位文化中心計畫
計畫編號 AS-ASCDC-109-302
通過年度 109
執行單位 資訊所
主持人
簡介

對漢籍語料進行自動化標注與資訊擷取是數位典藏與研究不可或缺的步驟,例如人、事、時、地、物或是詞語的詞性標記,是人文研究者豐富的研究素材。人工標記過程費時費力,因此我們希望開發自動化的資訊標注與擷取系統。我們透過資訊所、史語所、語言所的共同合作,建立一個漢籍的標記與資訊擷取平台,不但提供人文學者漢籍大數據的環境,並將大數據進行高品質的加值,方便人文學者進行各類分析研究。

 

此為五年的研究計畫, 2020年為第四年,延續2019年與「史語所學術創新數位深耕計畫」子五「數位內容學術加值計畫」與子四「漢籍全文資料庫」合作,從漢籍文本中自動學習出各類大量具高品質的權威檔。2017年,也就是計畫第一年,我們的目標是辨認已有權威詞彙是否能辨別出種類。2018年,我們開發斷詞標記的信心值估算技術與API。我們在2019至2020年,和史語所劉錚雲老師團隊展開一個新的研究題目——建立三元關係為基礎的知識圖譜,進一步在文本中直接自動化產生出新的、未收錄的權威詞彙,也就是產生出權威檔。當我們能夠從漢籍文本中自動辨識出專有名詞時,我們希望這些人名、地名、職官名、組織名彼此之間的關係能夠自動連結,例如知道什麼人擔任什麼官職。2019年我們初步先以人名和職官名的配對進行研究開發,自動建立人名權威檔中最具關鍵性的履歷資料。目前已有初步成果與展示系統。 

 

2020年(第四年)延續2019年建立三元關係為基礎的知識圖譜之工作,進一步提出三元組關係的生成模型(Generative Model)。同時我們也希望探索一旦擁有更大量的新履歷資料時(可以預期自動化收錄的人名權威檔,官職應該不高,因為高官通常已經人工收錄了),仕途的軌跡肯定會有很大的不同,可以提供另一種分析視角。2020年也會持續進行知識本體自動化建立以及斷詞與詞性標注上的改善,針對過去2年所碰到的問題進行分析並提出對策。

 

另外,由於時程已進入五年計畫的中期階段,我們希望所開發的各項漢籍語言處理技術,能慢慢開始整合到數位文化中心目前正開發的數位人文研究平台。2018年我們即開始將所開發的各項技術以及API提供給數位文化中心的技術部門,在2019年已經上線並持續精進改善。預計2020年自動化所產生的新履歷資料也能整合至數位文化中心的數位人文研究平台,落實我們在人文研究上能夠真正產生出實質貢獻的初衷。

相關連結

漢籍人名與職官名的自動連結展示系統

漢籍人名辨識的評分數值展示系統

權威詞自動辨認與標註評分展示系統

知識本體架構呈現詞彙語意:

上古

中古

近代

現代

漢籍標記語料庫:

上古

中古

近代

現代

回計畫列表