中文版 | English
https://ipicbox.tw/picfiles/image/00/0f/43/76_7PL278RE9OPF_source.jpg

【活動報導】韓國檀國大學漢文教育研究所所長率團來訪 交流數位人文工具之開發建置

發佈日期:2023/04/19
發佈者: 中央研究院數位文化中心

 

 

報導/房翠瑩

攝影/林郁靜 

 

本中心召集人陳熙遠、執行秘書陳淑君、研究助技師王祥安,與韓國檀國大學漢文教育研究所所長金愚政(前排右三)、研究教授李海潤(後排右四)一行13人合影。陳熙遠(右)致贈《中央研究院數位典藏精品圖錄》予韓國檀國大學漢文教育研究所。金愚政致贈韓國檀國大學最新出版品《吏讀辭典》予本中心。韓國檀國大學漢文教育研究所研究教授崔至延(前一)介紹該所執行的國家項目,以及在教育、出版、學術交流方面的研究成果。崔至延介紹韓國檀國大學的重要出版品。陳熙遠說明臺灣數位典藏的發展歷程,以及本中心的理念與工作方向。王祥安闡述「中研院數位人文研究平台」的主要功能,並指出甫完成建置的「文字辨識與校對平台」辨識準確率可達 95%。陳淑君(右一)說明本中心藝術與建築索引典(AAT)、鏈結開放資料(LOD)專案的發展概況。本中心專案經理鄧賢瑛於現場操作,演示「小學堂文字學資料庫」的功能。本中心專案經理許正欣分享「開放博物館」所提供的多層次數位服務。雙方就數位人文研究工具的開發建置展開熱烈交流。

 

數位人文此一新崛起的研究領域,藉由國際交流合作而不斷深化發展。本中心近年來積極研發核心數位技術與工具,已漸引起各國數位人文學界關注。韓國檀國大學(Dankook University)漢文教育研究所所長金愚政(Kim Woo Jung),即於2月16日率領研究教授等一行13人,與本中心就數位人文研究工具之開發建置,展開交流對話。

 

檀國大學創辦於1947年,為韓國第一所私立大學,科系眾多。除了以影藝明星推手級學校聞名,其在東方學(韓國學、漢學)的研究成就亦極為突出,所編《漢韓大辭典》共16冊、逾53萬個辭目,是世界上規模最大、水平最高的韓文漢學工具書。

 

成立於2016年的漢文教育研究所,著重漢文古典學(漢字學、漢文學、經學、書誌學等),以及漢字與漢文教育之研究。數位人文在國際間漸成趨勢,該所亦深具洞見,積極導入、發展數位技術以促進相關研究。此次來訪的即為「基於AI技術,古代漢文知識結構化研究」團隊,由所長金愚政領軍,同行者包括共同研究員鄭性勳(Jung Sung Hoon)、研究教授具順玉(Ku Soo Nok)、研究教授申雄哲(Shin Woong Chul)、研究教授李海潤(Lee Hae Yoon)、研究教授林映吉(Yim Young Gil)、研究教授崔至延(Choi Ji Yeon),以及數名博士後研究員等。

 

不約而同 構建圖像文字辨識平台 

金愚政主要研究朝鮮時期的漢文,以及宋明文獻。他表示,韓國屬漢字文化圈國家,擁有豐富的漢籍,惟能讀懂漢文或古文的人日益稀少。因此檀國大學漢文教育研究所對於韓國漢字研究的推進,抱有強烈使命感。

 

專攻文獻學的崔至延在簡報時指出,除了出版古文翻譯及數位人文叢書、《漢文漢字應用研究》學術期刊、推動數位人文工作坊「Indigo教室」等,漢文教育研究所近年更執行國家項目「以開發人工智能翻譯模型為目標,漢文資料語料庫構建方案研究」、「韓國歷代漢字字典DB構建與應用研究」。

 

該所抽取了逾3億個韓國漢字字形圖像資料,建置「韓國歷代字形字典資料庫」。同時,運用人工智能技術,即卷積神經網路(Convolutional Neural Network, CNN)與遮罩型區域卷積類神經網路(Mask Region based Convolution Neural Networks, MASK-RCNN)技術,以《韓國文集叢刊》的漢字字形為學習資料集,研發了漢字的字形識別與分類自動化平台。此平台尚未上線,惟崔至延透露,就金屬活字本和木版本(即刻版印刷)而言,已取得較高的準確率。

 

檀國大學漢文教育研究所對影像文字辨識(Optical Character Recognition, OCR)技術之投入研發,與本中心不謀而合。本中心技術長王祥安在會議中揭示,「中央研究院文字辨識與校對平台」已完成建置,可對中文古籍中較特殊的排版如大小字、單雙行混合等進行辨識,刻版印刷文字的辨識準確率已達 95%。其為國際間少數兼具中文文本影像文字辨識與校對功能的平台,提供直覺式圖文對照校對,允許多人協同校正,並具版本控制功能;同時更可依使用者反饋自我學習,進行自動勘誤。

 

王祥安披露,「中研院文字辨識與校對平台」目前提供合作單位使用,並規劃逐步開放,以協助國內外機構與學術研究人員自行進行中文文本圖像的文字轉製。

 

檀國大學漢文教育研究所來訪團對此表達了高度興趣,隨即探詢此平台所使用之技術及未來開放的方式,並期許後續展開技術交流。

 

整合技術規範 促進漢字圖像檢索展示與研究 

除了研發影像文字辨識技術,本中心亦積極嘗試運用鏈結資料與國際圖像互通架構(International Image Interoperability Framework, IIIF)技術規範,將辨識出的文字資訊,轉化為語意網中可儲存、交換的開放文字資源。執行秘書陳淑君於會上敘述了本中心近年在鏈結開放資料(Linked Open Data, LOD)領域的耕耘,包括資料建置模型、應用平台設置、資料檢索與視覺化呈現等。

 

她進一步以「簡牘字典—史語所藏居延漢簡資料庫」,說明本中心如何利用LOD與IIIF規範,達成簡牘物件及單字的資訊與圖像檢索、圖像分類註記、中文字體圖像跨資料庫查詢等功能,提升漢字釋讀與編聯復原研究。近年本中心更與本院歷史語言研究所,以及日本奈良文化財研究所等五大漢字研究機構合作建置「歷史文字資料庫統合檢索系統」,利用單字檢索、交換API規範等,實踐了漢字文字圖像跨庫即時檢索功能,藉此展現未來漢字圖像研究的新方向與可能性。

 

小學堂文字學資料庫 漢字研究者愛用 

古代漢字相關資料散落各處,收錄近26萬個甲骨文、金文、戰國文字、小篆、隸書等字形,以及134萬筆聲韻資料的「小學堂文字學資料庫」,提供了一站式的檢索平台。其可呈現一目了然的古今漢字形體演變,可謂是國內外文字學研究的重要參考來源,自2013年建站以來已累積網頁瀏覽量逾3,000萬頁。

 

此次來訪的韓國師生亦紛紛表示,「小學堂」是他們經常使用的數位內容工具。本中心專案經理鄧賢瑛於現場操作,演示此資料庫如何呈現漢字一字多音與一字多形的特點,以及如何透過檢索出的字頭,銜接外部不同的形、音、義資料庫。

 

此外,在現今數位時代,為了讓學術研究產生更大的影響力,本中心著重推動數位展示,透過數位工具,以更多元的方式展現研究成果。專案經理許正欣也向與會者分享「開放博物館」所提供的多層次數位服務。

 

交流愉快 期開啟未來合作之門 

在愉快的氣氛中,雙方互贈紀念品,並就本中心的國際活動規劃,以及韓國漢籍研究領域的運作狀況,進一步展開了解與討論。

 

本中心召集人陳熙遠表示,此交流會是個開始,期許未來有更多機會促進對話,甚至開啟雙方合作的契機。

 

韓國檀國大學漢文教育研究所來訪團此行亦拜會了本院人社中心地理資訊科學研究專題中心、國立臺灣大學數位人文研究中心。

 

 

回近期消息

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed