中文版 | English
http://ipicbox.tw/picfiles/image/00/0f/3f/d2_7PE5NGXHNMM1_source.jpg

【國際合作報導】「簡牘字典開發計畫」與日本奈文研等五大機構 共建文字資訊聯合檢索系統

發佈日期:2019/09/28
發佈者: 中央研究院數位文化中心

 

 

報導/林玉雯、房翠瑩  

攝影/林郁靜、林慧菁 

照片提供/日本奈良文化財研究所 

影片製作/林玉雯、房翠瑩 

 

臺日攜手,以雙邊簡牘文字圖像互通為核心目標,開發文字資訊聯合檢索系統!未來更期望研擬出適用於所有古文書、手稿,乃至全部文字史料的國際標準規範。

 

由中央研究院歷史語言研究所助研究員劉欣寧與本中心共同執行的「『簡牘字典』開發計畫」,已與日本木簡發掘與典藏的代表性機構——奈良文化財研究所,以及東京大學史料編纂所、國立國語研究所、國文學研究資料館、京都大學人文科學研究所達致合作共識,採取「國際圖像互通架構」(International Image Interoperability Framework, IIIF)標準,共同建置跨機構的文字資訊聯合檢索系統。

 

自20世紀初至今,中國各地出土簡牘已達20萬餘件,進行先秦秦漢史研究,已無法忽視簡牘材料。日本也出土34萬件木簡,韓國亦有數百件之發現。儘管中、日、韓簡牘(木簡)的時代存在落差,書寫在竹木之上、以漢字書寫的特色一致,無疑是研究漢字及漢字書寫文化在東亞世界如何傳播、發展的極佳素材。然而,目前簡牘文字釋讀仍存在諸多問題,如文字比對工序耗時且易有遺漏等,加上國際間尚無簡牘資料互通的標準,跨地域(跨國)的簡牘研究仍窒礙難行。因此,結合各國相關領域的智慧,建立簡牘資料的互通標準,可謂勢在必行。

 

「『簡牘字典』開發計畫」與日本奈文研等共同開發的文字資訊聯合檢索系統,預計於明年正式上線。該系統將使用IIIF,進行後設資料(Metadata)與圖像(Image)的資料交換。惟基於當前IIIF尚無文字圖像的後設資料標準,雙邊合作機構將共同制定相關規格。

 

內容方面,將以奈文研與東京大學史料編纂所合作營運的「木簡圖象資料庫・木簡字典」與「電子草書體字典資料庫」聯合檢索系統為基礎,並導入「『簡牘字典』開發計畫」所提供的漢代簡牘資料等。未來可供檢索的文字圖像數量,可望達至150萬件。

 

該系統預計以單個文字為檢索的基本單位。由於雙方皆希望能朝開放資源發展,檢索結果不僅提供文字資訊,亦將提供圖像瀏覽、比對功能。

 

本院史語所收藏漢代簡牘數量為國內之最,其中以瑞典考古學家貝格曼(Folke Bergman)等人於1930年代在內蒙古與甘肅境內之額濟納河流域發掘的「居延漢簡」為主,約11,000枚。該所於1990年代即以紅外線攝影儀等,重新釋讀所藏簡牘,進行影像、釋文資料數位化,並於2002年建置「漢代簡牘資料庫」,將簡牘的後設資料,經系統分析予以結構化方式呈現。

 

植基於「居延漢簡」數位化內容及「漢代簡牘資料庫」的既有基礎上,劉欣寧擬將傳統的數位典藏系統,轉型為數位人文系統開放性平台─—「簡牘字典」,為研究者提供更清晰、更完整、更多視角的影像資料,以及更便利的研究工具。因此,該計畫將發展以簡牘為主體的影像文字辨識(Optical Character Recognition,簡稱OCR)模型,建置自動字元定位與標註、自動釋讀及以圖搜圖的功能,並將資料庫導入IIIF規範、鏈結開放資料(Linked Open Data,簡稱LOD)技術,建構跨機構間數位資源得以互通共享的開放性平台。

 

「『簡牘字典』開發計畫—開放性資料庫的結構及技術探索」,為本院「數位典藏與數位人文學研究計畫」之一。本中心負責開發核心技術,包括IIIF功能需求研究發展、後設資料LOD處理,以及OCR技術研發等。

 

本中心現階段已提供IIIF技術,作為「簡牘字典」的圖像使用與交換標準,並進行圖像標記、釋文記錄等。另亦研發「筆跡比對功能」,協助IIIF功能進行圖片放大與多圖同時比對。此外,本中心所開發的中文古籍OCR技術,對印刷書籍的中文字實作辨識正確率目前已達九成以上,為簡牘的相似字影像搜尋奠定了良好基礎。未來「簡牘字典」預計提供「字」、「詞」、「後設資料」、「補充注釋」等檢索方式。

 

奈文研是日本蒐藏木簡最大宗的機構,自1999年起即積極投入「木簡庫」(Wooden Tablet Database)之經營。「木簡庫」整合了「木簡資料庫」與2005年推出的「木簡圖象資料庫・木簡字典」此二系統,收錄日本全國各地木簡近54,000枚,單字圖像約100,000件。2009年其與東大史料編纂所推出「木簡字典」與「電子草書體字典資料庫」共同檢索系統,2016年更共同開發「木簡・草體字解讀系統MOJIZO」(Image Matching Search for Mokkan or Cursive Characters),提供「以圖像進行檢索」的創新服務。2017年奈文研提出「藉由木簡等研究資源的公開資料化確立參加誘發型研究計畫以達成知識的開展」(木簡等の研究資源オーペンデータ化を通じた参加誘発型研究スキーム確立による知の展開)5年計畫,進一步與國內外機構展開合作。前述文字資訊聯合檢索系統的合作開發,即在此計畫下進行。

 

透過導入IIIF規範而達成開放資料,是文字資訊聯合檢索系統的發展重點方向。在達致合作共識前,臺日雙方於今年二度進行國際交流會議,即1月15日至16日於史語所舉辦「IIIF與LOD在簡牘資料數位人文研究的運用」會議、3月19日至20日於奈文研舉辦「2018年度第三回國際檢討會」,以探討使用者對簡牘數位資料的研究需求及使用目的,並了解各機構數位典藏現況與未來對數位資源共享的規劃。

 

會議主要參與者為奈文研史料研究室長馬場基(Baba Hajime)、企劃調整部研究員高田祐一(Takata Yuichi),以及櫻美林大學准教授耒代誠仁(Kitadai Akihito)、國立國語研究所准教授高田智和(Takada Tomokazu)、國文學研究資料館教授山本和明(Yamamoto Kazuaki)、東京大學史料編纂所准教授井上聰(Inoue Satoshi)及助教山田太造(Yamada Taizo)、京都大學人文科學研究所助教守岡知彥(Morioka Tomohiko)等,我方代表為劉欣寧、本中心執行秘書陳淑君及資訊總監王祥安等。

 

近年來投入IIIF相關研究的陳淑君,在會上以「國際圖像互通架構(IIIF)在簡牘資料庫之設計」為題,分享如何運用IIIF標準,解決以一枚簡牘為知識單元的資訊分類呈現粒度(granularity)問題,並初步提出以單字為單元的解構方式。此外,她亦評估、擴展現有IIIF Presentation API中的註記延伸功能,讓使用者進行文字釋讀時,能以更細緻化的屬性類型進行註記區分,例如文字釋讀、部首/部件、書寫特徵、書體等。此二功能極具應用價值,皆被納入雙方共同開發的文字資訊聯合檢索系統。

 

對於此次的國際合作,她認為深具意義,並期望以自身研究所長與本中心的技術研發專長,做出最大貢獻。「標準的建立是資料得以互通的基礎,為簡牘建立資料互通的標準,無疑是個突破性發展,讓研究者得以對簡牘形態獲得跨時代、跨地域的認識。」

 

促成此次合作的靈魂人物劉欣寧則表示,經由跨庫整合資料共享的機制,不僅深化國際交流,亦能提升史語所藏品的國際能見度。她期許以「簡牘字典」及此次合作為開端,未來能研擬出可應用於所有古文書、手稿,乃至所有文字史料的國際標準規範,從而強化人文領域數位資源的互通性。

 

臺日攜手打造的文字資訊聯合檢索系統建構完成後,將開放社會近用。屆時將如奈文研史料研究室長馬場基所強調,「我們可以更廣泛、更深入地了解貴重文化遺產的文字內容,這對研究者乃至於市民,都有很大的好處。」 

 

 

延伸閱讀:

「簡牘字典」開發計畫—開放性資料庫的結構及技術探索

 

回近期消息

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed