在過去5年(2017-2021年),「漢籍自動化資訊擷取研究與系統開發」計畫透過資訊所、史語所、語言所的共同合作,打造了一個漢籍的標記與資訊擷取系統,將大數據進行高品質加值,提供人文學者漢籍大數據的環境,以進行各類分析研究。此系統擁有多項功能,包括自動辨識漢籍文本的專有名詞,並將這些人名、地名、職官名、組織名彼此之間的關係自動連結,例如知道某人擔任某官職,甚至以此為基礎開發了自動化的仕途分析系統。就我們所知,這也是數位人文研究的創舉。
自2022年起,「歷史人物與事件的自動化擷取技術與系統開發」計畫進一步將眼光放在自動化的政績分析,希望能自動化分析出某人當了某官後曾經做過哪些事,或是發生哪些事件、曾經待過哪些地方,甚至綜合得知某人當了某官後曾在某地做過某事。如此一來,對人物的描述與刻劃必定更為細緻,可提供人文學者大量素材進行各類分析。當中最主要的挑戰,在於漢籍的政績分類標記資料是不存在的,甚至連事件的權威檔也付之闕如,也少有人文學者對「政績分類」 或「事件」做一系統性的定義與標注,因此也就沒有合適的訓練語料來訓練自動辨識的模型。針對此問題,直接的解法是大量的人工標記,但此工作耗時耗力,並不實際。本計畫的目標是如何在沒有標記或極少量標記的情形下,達到自動化的事件辨識與政績分析。近來AI遷移學習(Transfer Learning)給了我們靈感:現代漢語(白話文)的語義分析訓練語料豐富,雖然沒有政績分類標記,但有豐富的語法語義標記,那麼我們是否有可能用現代漢語的語義分析模型,經過自動化的改造(Transfer),使之能適用於漢籍(文言文)的環境來預測出政績分類或事件?
我們近幾年的合作夥伴 「史語所學術創新數位深耕計畫」自2022 年起將目標放在方志研究上,而方志除了職官訊息,亦含宦績的篇章,剛好可作為研究素材。本計畫一方面將持續輔助史語所進行人名與職官權威檔的自動化擷取,一方面也合作進行自動化的事件辨識與政績分析研究。本計畫研究成果將持續整合至「中央研究院數位人文研究平台」。 |