為建置「中醫藥典籍全文影像典藏檢索暨地理資訊系統」,衛生福利部國家中醫藥研究所於2023年10月起將介接本中心之中文文字自動辨識技術(OCR)技術,雙方於今(23)日簽署合作協議書,未來本中心將提供技術服務,供中醫藥研究所使用,相信這項合作將可有效降低人工著錄文字的成本,加速中醫典籍精準檢索與應用文本之進程。

衛生福利部國家中醫藥研究所研究員兼中醫藥典籍組組長袁國華(照片左)、中研院數位文化中心技術長王祥安(照片中)與中研院數位文化中心召集人陳熙遠(照片右)共同簽署合作協議
此合作將結合雙方在典籍數位化與文字辨識技術之專長與資源,共同推動中醫藥知識服務,並有效保存、傳承與應用中醫藥文化資產。
雙方期待透過這項合作,能有效地提高中醫藥典籍數位內容之辨識品質與應用層面,進一步促進中醫藥文獻檔案與數位人文研究工具之整合運用,豐富各自的數位研究材料及中文文字自動辨識技術。開創中醫藥數位人文研究應用的新局。
關於 中研院數位文化中心影像文字自動辨識技術
■ 中文古籍影像文字辨識率逾九成,可手動修正辨識結果!
利用機器學習技術,結合大量古籍影像與文本內容,發展中文古籍影像的文字辨識工具,以加速古籍數位化。實驗結果顯示,本技術在多本中文古籍的辨識正確率達九成以上,優於現有商業軟體與開放源碼軟體。此技術能降低以人工方式建立文字資料的成本,並讓文本影像的內容得以被檢索、應用。
另亦發展線上校對工具,使用者可於此工具上傳影像,自動進行文字辨識,也可手動修正辨識的結果。除提供圖文對照功能,使用者校對的結果也可作為訓練自動辨識技術之依據。
應用連結:中央研究院文字辨識與校對平台
相關新聞:
1.【會後公告】「2022中國古籍文字自動識別挑戰」國際競賽圓滿落幕 本中心將推影像文字自動辨識雲端服務