中文版 | English

漢籍自動化資訊擷取研究與系統開發(第三年)

基本資料
計畫類別 數位文化中心計畫
計畫編號 AS-ASCDC-108-302
通過年度 108
執行單位 資訊所
主持人
簡介

對漢籍語料進行自動化標注與資訊擷取是數位典藏與研究不可或缺的步驟,例如人、事、時、地、物或是詞語的詞性標記,是人文研究者豐富的研究素材。人工標記過程費時費力,因此我們希望開發自動化的資訊標注與擷取系統。我們透過資訊所、史語所、語言所的共同合作,建立一個漢籍的標記與資訊擷取平台,不但提供人文學者漢籍大數據的環境,並將大數據進行高品質的加值,方便人文學者進行各類分析研究。

 

此為五年的研究計畫,2019年為第三年,延續2018年與史語所學術創新數位深耕計畫子五「數位內容學術加值計畫」與子四「漢籍全文資料庫」合作,增進漢籍電子文獻資料庫物件標註系統的人工標記效率, 跟史語所合作廠商—大鐸資訊密切配合,在史語所現有的標記界面下,新增專有名詞辨識技術的評分數值,以增進標記效率。 2019年的另一重點目標是從漢籍文本中自動學習出各類大量具高品質的權威檔(在2017年,也就是計畫第一年,我們的目標是辨認已有權威詞彙是否能辨別出種類。我們在2019年,預計進一步在文本中直接自動化產生出新的、未收錄的權威詞彙,也就是產生出權威檔)。

 

除了辨識出權威詞彙,2019年也擬和史語所劉錚雲老師團隊展開一個新的研究題目—建立三元關係為基礎的知識圖譜:當我們能夠辨識漢籍文本中自動辨識出專有名詞時,我們希望這些人名、地名、職官名、組織名彼此之間的關係能夠自動連結,例如知道什麼人擔任什麼官職。2019年我們會先以人名和職官名的配對進行研究開發, 也就是自動建立人名權威檔中最具關鍵性的履歷資料。同時我們也會探索一旦擁有更大量新的履歷資料時(可以預期自動化收錄的人名權威檔,官職應該不高,因為高官通常已經人工收錄了),希望能夠產生新的有創意的人文學術題目,例如仕途的軌跡肯定會有很大的不同。2019年也會延續過去在自動化建立知識本體以及斷詞與詞性標注上面的持續改善,我們針對過去兩年所碰到的問題進行分析並提出對策。

 

另外,由於時程已進入5年計畫的中期階段,我們希望所開發的各項技術能慢慢開始整合進數位文化中心目前正開發的漢籍語言處理技術平台。2018年我們即開始將所開發的各項技術以及API提供給數位文化中心的技術部門,預計在年底前應可初步整合完成。在2019年上線並持續精進改善,一步步落實我們在人文研究上能夠真正產生出實質貢獻的初衷。

 

相關連結

以知識本體架構呈現詞彙語意:

漢籍標記語料庫:

回計畫列表

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed