中文版 | English
https://ipicbox.tw/picfiles/image/00/0f/42/aa_7PIBYUE9WN14_source.png

【會後公告】「2022中國古籍文字自動識別挑戰」國際競賽圓滿落幕 本中心將推影像文字自動辨識雲端服務

發佈日期:2022/06/23
發佈者: 中央研究院數位文化中心

 

 

「2022中國古籍文字自動識別挑戰」國際競賽主辦單位於線上頒獎禮與獲獎隊伍合影。右七起為香港中文大學副校長陳金樑、圖書館署理館長巴勵志(John Bahrij),螢幕右三為本中心召集人陳熙遠、技術長王祥安。本中心召集人陳熙遠(右)於線上頒獎禮上致詞。香港中文大學副校長陳金樑致詞。香港中文大學圖書館署理館長巴勵志致詞。陳金樑頒獎予公開組冠軍——「USTC_算法研究組」。陳熙遠頒獎予學生組季軍——國立臺灣大學「咕唧咕唧孤寂孤寂碩一群」團隊。

 

本中心與香港中文大學圖書館攜手舉辦的「2022中國古籍文字自動識別挑戰」國際競賽,業已圓滿完賽,並於6月6日舉行線上頒獎禮。多支獲獎隊伍的文字自動識別準確率皆高達九成以上,顯見在各界積極投入研發下,文字自動識別(Optical Character Recognition, OCR)技術近年已獲巨大進展。

 

「2022中國古籍文字自動識別挑戰」競賽除了公開組,亦增設學生組。今年共吸引25支各國隊伍參賽,包括中國18組、臺灣3組,以及香港、美國、法國及日本各1組,反響熱烈。

 

獲獎隊伍水準高 文字自動識別準確率逾九成 

經過10日馬拉松式競逐,由中國科學技術大學畢業學生組成的「USTC_算法研究組」以96.07%文字自動識別準確率,榮獲公開組冠軍;深延科技(北京)有限公司DeepBLueAI團隊以96.05%準確率緊隨其後,位居亞軍;季軍則為河南文數保智能科技研究院有限公司古籍數字化實驗室,準確率為94.63%。學生組方面,北京大學Deep Valley團隊以94.62%準確率掄元;山城小面隊、國立臺灣大學「咕唧咕唧孤寂孤寂碩一群」團隊則分別位居亞軍、季軍,準確率皆逾七成。

 

延續去年賽事模式,「2022中國古籍文字自動識別挑戰」賽程長達10日。參賽隊伍每日需於50分鐘內,自動辨識50頁中國古籍圖像,並回傳文字識別結果。今年賽事共計辨識超過500頁古籍圖像,字數高達8.3萬字。古籍圖像不僅來源多元,包括《日湖漁唱》、《南海百咏》、《侶樊草堂詩鈔》、《章實齋信摭》等,內容辨識難度亦深具挑戰性,其中不乏手寫字頁面,或夾雜異體字、罕用字之版本。

 

今年賽事100個最難正確識別之文字。中國科學技術大學(USTC)算法研究組經迭代優化的算法,可辨識刻本、稿鈔本、石印本等古籍圖像。北京大學Deep Valley團隊先將文本行切分成單字,對每個單字進行單字識別(中),最終將單字組合成文本行(右)。

 

提供技術支援及文本素材 本中心受邀合辦賽事 

「中國古籍文字自動識別挑戰」競賽今年已邁入第二屆,作為2021年賽事的冠軍隊伍,本中心受邀與香港中文大學圖書館共同主辦此國際性賽事。本中心主要提供文字識別準確率之計分程式,本院史語所亦提供內閣大庫檔案中的《明清檔案》、《明清史料》,作為競賽之文本素材。

 

除了舉辦「中國古籍文字自動識別挑戰」競賽,本中心與香港中文大學圖書館自2021年起,逐步開展不同面向的合作,當中包括了協助其進行中國古籍的圖像文字自動辨識。香港中文大學副校長陳金樑在線上頒獎禮致詞時指出,在本中心的支持下,該校已能線上提供1.1萬頁文本,使更多使用者得以近用,並藉此激發新的研究見解。

 

未來擬推線上平台 協助各界自行辨識中文文本圖像 

本中心召集人陳熙遠致詞時透露,有感於國內外學術機構合作單位日益增多,圖像文字自動辨識的需求量也持續增加,本中心遂建置「影像文字辨識線上辨識與校對系統」,預計今年底對外提供服務。「屆時,各界可透過此線上平台,自行進行中文文本圖像的文字轉製。」

 

他表示,中文文字自動識別是數位人文領域的重要一環,可有效降低人工著錄文字的成本,加速精準檢索與應用古籍文本之進程,從而促進人文學者進行文本解讀、版本比較與脈絡分析等種種研究取徑。本中心樂於與各界並肩,共同推動、精進中文古籍文字自動識別技術的研發,期許有一天終能為文本圖像數位人文研究取得突破性進展。

 

 

 

回近期消息

 

Facebook Newsletter RSS
加入粉絲團





 

訂閱電子報 訂閱電子報

 

訂閱RSS 訂閱RSS

RSS Feed