中文版 | English
https://ipicbox.tw/picfiles/image/00/0f/44/30_7P3LRA1_KO7C_source.png

【活動報導】以智慧數據揭示未知,邁向數位人文新境界

發佈日期:2023/12/27
發佈者: 中央研究院數位文化中心

 

 

報導/盧履彥、張仲君、林慧菁、陳弘音、徐千禾

攝影/張倍瑄 

 

近年來,隨著數位科技不斷進步,智慧數據成為數位人文研究的新亮點,為我們帶來了前所未有的新契機。在中央研究院,有歷史語言研究所運用明清時期重要史部書籍人名、地名、職官、時間等基本屬性的標記,將平面的文本資料結構化,以便學者利用統計分析工具,建構歷史事件輪廓或制度沿革演變;也如近代史研究所,在執行農林部《農業推廣委員會》、《農事司》及《農村經濟司》檔案數位化的同時,透過人名、地理名詞、關鍵詞、與圖資等資料的著錄,幫助學者鳥瞰民國時期農業經濟發展脈絡,總攬戰時上溯民國以及戰後的農業概況,勾勒臺灣、中國及近代東亞農業史系譜。

 

為了更進一步挖掘檔案與史料的潛力,2023年孟冬,數位文化中心特別邀請美國肯特州立大學(Kent State University)資訊學院曾蕾教授,透過「數位人文與資料智能專題講座」的分享,從理論與實務並重的角度,解析在人工智慧技術迅速崛起下,智慧數據在人文領域中的研究應用,發現其對研究方法、議題挖掘、以及跨學科合作的作用與影響。

 

 

揭示未知的未知 

11月29日,曾蕾教授以「強化數位人文鏈結資料的潛力—芬蘭SAMPO數位人文語意入口網帶來的啟示」為題帶來第一場演講,藉由芬蘭逾20年語意網知識系統發展的歷程,展示利用「智慧數據」(smart data)輔助數位人文(Digital Humanities,DH)研究的典範。

 

芬蘭Sampo數位人文語意入口網站的發展鑒於2000年,當時芬蘭雖有許多獨立建置的文化資產資料庫,卻因缺乏共通規格與標準,造成資料無法共享、串連的困難。為了促成跨資料庫間檔案整合,而開始建置通用、共享的資料模組架構。在政府資金挹注下,由芬蘭赫爾辛基阿爾多大學(Aalto University)語意計算研究實驗室(Semantic Computing Research Group,SeCo)主導的Sampo語意網建置計畫於焉展開。

 

2002年至2004年間發展的第一代Sampo語意入口網,主要以達成資料發布、聚合、瀏覽等資源初步檢索為目標。其方法主要依據芬蘭國家本體服務規範(FinnONTO),進行博物館典藏資料在語意網中之資源分享與發布。

 

2014至2017年的第二階段,伴隨數位人文研究浪潮,主要運用資料分析工具架構數位人文研究系統,希望提供學者以互動方式解決研究問題的工具。技術開發上運用了以鏈結開放資料(Linked Open Data,LOD)驅動的資料庫搭配資料呈現工具,建構將分散式資料聚合呈現的知識圖譜(knowledge graph)。目前頗富盛名的二戰歷史「WarSampo入口網」即為此階段的重要成果。

 

WarSampo入口網 首頁 

 

發展至第三階段,語意計算研究實驗室導入人工智慧(Artificial Intelligence,AI),以從數據中自動發現知識,進而分析、解決研究問題並詮釋其結果為主要目標。2020年發布之芬蘭人物傳「BiographySampo入口網」就屬此類。在關聯整合資料後,得以檢索出「未知的未知」(the unknown unknown)的知識網絡。

曾蕾教授指出由芬蘭Sampo數位人文語意入口網站三個階段的發展歷程,反映出在人工智能蓬勃發展下,數位人文研究不僅止於協助學者從基礎資料發布、聚合到資料分析及運用AI人工智慧等技術工作發掘更多知識。其中的關鍵是利用大數據進行「方法論的轉變」(methodological shift),以揭示「未知的未知」為目標,從而邁向知識發現。

從芬蘭Sampo入口網的發展,曾教授不斷強調建構國家級語意網超級基礎架構的重要性,活絡數據,讓檔案可以重複再利用、共享的鏈結資料基礎設施是達成數位人文研究的關鍵。進而創造「七星級」的鏈結資料服務(7-star linked data service),促使學者能進一步驗證資料並獲知資料創建的來龍去脈,以提升對所發布資料品質的信任度。

 

從數位化、數據化到數智化 

12月1日上午舉辦的第二場講座,曾蕾教授以「深化提升數位人文研究的方法及研究成果分享—由研究個案觀察發展趨勢」為題,舉出數個近年國際間的實作發展範例,展示AI人工智慧導入數位人文研究的做法、優勢與挑戰,及將資料提升為「智慧數據」(Smart Data)的標準規範與趨勢。

 

「深化提升數位人文研究的方法及研究成果分享—由研究個案觀察發展趨勢」講座盛況 

 

「智慧數據」是經由資料清理、轉換與分析以釋放其最大價值的數據類型,而數位人文研究領域中,資料多源自典藏、檔案、口述歷史資料、報告,無法直接以網路爬蟲獲取數據,因此如何找出暗藏歷史性價值的資料成為人工智慧運用的首要課題。曾蕾教授指出,目前除了大家耳熟能詳的ChatGPT生成式人工智慧(Generative AI)、大型語言模型(Large Language Model, LLM)外,還有許多可利用的人工智慧與機器學習(Machine Learning)工具,她分享了十來個可機器讀取的文字資源、半結構化數據、影像、音頻檔案、氣味、實體物件等資料生成可信「智慧數據」的國際實作案例,並說明其本質是由資料「數位化」(Digitization)、「數據化」(Datafication)進而轉變為「數智化」(Intellectualization)的過程。

 

 

「羅馬帝國在線硬幣」(Online Coins of the Roman Empire, OCRE)可查詢分析錢幣圖像,採用本體論建模形成知識庫,範圍擴展到世界各地古幣收藏單位的資料(圖片提供/曾蕾)

運用人工智慧工具輔助典藏照片簡介的文本挖掘、分類和語義標記(圖片提供/曾蕾)

 

然而人工智慧在數位人文研究的運用上,仍有諸多挑戰,尤其在無文字民族或大量群眾募知(Crowdsourcing)獲得的影像材料上,因缺乏「語境」(Context)條件,使這些體驗文化或無形文化資產無法以機器讀取,因此整合歷史、考古、人類學門人員參與並提供「語境」數據資料,成為提升AI識別及關連整合的重要關鍵。針對未來數位人文發展,曾蕾教授認為,我們確實需要擁抱AI技術以保護、重建人類文化遺產,只要遵循AI賦能的合理使用,與可信度、準確度、道德觀衡量並有效管理,將能對未來的學術研究發揮無窮的潛力。

曾蕾教授也呼籲利用國際既有、通用的知識本體模型設計建構數據資料,依循鏈結開放資料FAIR原則規範(FAIR Principles)發布,以提升資料的可蒐性(Findability)、可近用性(Accessibility)、互通性(Interoperability)及再利用性(Reusability)。而在提升資料公共參與度上,她提出公眾參與的三種模式,建議將資料發布於「維基數據」(Wikidata)等國際資料開放共作彙集平台,主動「走出去」藉以強化資料能見度、再利用性。同時期許透過異見融合,聚焦議題本質「是什麼」而非「為什麼」,從而揭示「未知的未知」(the Unknow-Unknow)。


德國國家經濟資訊中心ZBW將「20世紀新聞檔案」(PM20)資料發布於「維基數據」(Wikidata)後,平台提供眾多查詢問題以利使用者即時獲取答案,如「20世紀新聞檔案」中的經濟學家出生地分布圖與視覺化資料(圖片提供/曾蕾)

 

向深度推進、向廣度拓展 

除了兩場對外講座分享,為了能更進一步探討圖像分析的技術發展與運用模式,數位文化中心也邀請曾蕾教授透過內部交流的形式,辦理「國際圖像互操作架構(IIIF)應用專題講座-數位文化中心工作坊」。


內部交流會上,數位文化中心陳弘音專案經理簡介目前圖像分析平台的規劃

 

在數位圖像分析和數據標準化的領域中,核心焦點是如何透過標準化的方法有效整合研究資料,從而創建出既能展示,又便於研究的靈活圖像資源。這不僅涉及技術層面的創新,也包括對數據共享和互操作性原則的深入理解,以確保圖像資源能夠在不同研究背景下被廣泛而有效地複用。

本中心近年來開始著手開發圖像分析平台,發展相關圖像分析技術,藉由這次難得的機會,除了展示目前正在建置的圖像平臺初步研發成果,更與曾蕾教授進行深入交流,探討國際圖像互操作架構(IIIF)在數位文化資產保存與學術研究中的創新應用與挑戰,從而為圖像分析平臺的未來發展方向提供寶貴的見解。

 

在本次工作坊中,曾蕾教授不僅提供了對IIIF技術的深入解析,也展示其在文化遺產數位化與學術研究中的廣泛應用。她闡述了IIIF在數位化手抄本修復、重組,以及分析大尺寸古代地圖等方面的能力;並延續性地介紹IIIF結合機器學習技術在識別古文書文字方面的應用,展示如何實現圖像與文本的深度融合。

 

這些創新應用的進展不僅提升了對歷史文獻的存取和理解,也為其數位保存和學術研究提供了新的方向。通過與曾蕾博士的交流及分享,專案團隊得以對國際趨勢有更深刻的理解,並藉以在平臺發展的階段進行相應的評估與調整,以期更加符合未來圖像研究的期待與需求。

 

善用智慧數據,邁向知識發現 

當數位科技不斷顛覆認知,一路從搜尋,進展到智慧問答與互動,人工智慧正在滲入人文研究領域,讓傳統的人文研究產生實質的改變。這些發展同時也促進了跨學科合作,將人文學科與科技領域進行有機結合。例如,在語言學、社會學、心理學等領域,相關學者可以透過智慧數據的分析,發現言論模式、社會行為規律等,讓研究更為全面、深入。


講座中,數位文化中心陳淑君執行秘書與曾蕾教授合影 


透過曾蕾教授的分享,我們見識到智慧數據的魅力與潛力,為學者提供更廣泛的資源,運用機器學習、自然語言處理等技術,讓學者迅速有效地分析大量資料,發現隱藏在檔案背後的脈絡,提出更具洞見的觀點。

 

在這個充滿機會的時代,本中心將致力推動智慧數據在人文領域的創建與應用,為人文研究注入更多活力,讓我們對歷史、社會、文化的認識與理解能更寬廣、更深刻。

 

 

 

回近期消息

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed