【會後公告】「2022中國古籍文字自動識別挑戰」國際競賽圓滿落幕本中心將推影像文字自動辨識雲端服務

發佈日期：2022/06/23
發佈者：admin

「2022中國古籍文字自動識別挑戰」國際競賽主辦單位於線上頒獎禮與獲獎隊伍合影。右七起為香港中文大學副校長陳金樑、圖書館署理館長巴勵志（John Bahrij），螢幕右三為本中心召集人陳熙遠、技術長王祥安。

「2022中國古籍文字自動識別挑戰」國際競賽主辦單位於線上頒獎禮與獲獎隊伍合影。右七起為香港中文大學副校長陳金樑、圖書館署理館長巴勵志（John Bahrij），螢幕右三為本中心召集人陳熙遠、技術長王祥安。本中心召集人陳熙遠（右）於線上頒獎禮上致詞。香港中文大學副校長陳金樑致詞。香港中文大學圖書館署理館長巴勵志致詞。陳金樑頒獎予公開組冠軍——「USTC_算法研究組」。陳熙遠頒獎予學生組季軍——國立臺灣大學「咕唧咕唧孤寂孤寂碩一群」團隊。

本中心與香港中文大學圖書館攜手舉辦的「2022中國古籍文字自動識別挑戰」國際競賽，業已圓滿完賽，並於6月6日舉行線上頒獎禮。多支獲獎隊伍的文字自動識別準確率皆高達九成以上，顯見在各界積極投入研發下，文字自動識別（Optical Character Recognition, OCR）技術近年已獲巨大進展。

「2022中國古籍文字自動識別挑戰」競賽除了公開組，亦增設學生組。今年共吸引25支各國隊伍參賽，包括中國18組、臺灣3組，以及香港、美國、法國及日本各1組，反響熱烈。

獲獎隊伍水準高文字自動識別準確率逾九成

經過10日馬拉松式競逐，由中國科學技術大學畢業學生組成的「USTC_算法研究組」以96.07%文字自動識別準確率，榮獲公開組冠軍；深延科技（北京）有限公司DeepBLueAI團隊以96.05%準確率緊隨其後，位居亞軍；季軍則為河南文數保智能科技研究院有限公司古籍數字化實驗室，準確率為94.63%。學生組方面，北京大學Deep Valley團隊以94.62%準確率掄元；山城小面隊、國立臺灣大學「咕唧咕唧孤寂孤寂碩一群」團隊則分別位居亞軍、季軍，準確率皆逾七成。

延續去年賽事模式，「2022中國古籍文字自動識別挑戰」賽程長達10日。參賽隊伍每日需於50分鐘內，自動辨識50頁中國古籍圖像，並回傳文字識別結果。今年賽事共計辨識超過500頁古籍圖像，字數高達8.3萬字。古籍圖像不僅來源多元，包括《日湖漁唱》、《南海百咏》、《侶樊草堂詩鈔》、《章實齋信摭》等，內容辨識難度亦深具挑戰性，其中不乏手寫字頁面，或夾雜異體字、罕用字之版本。

今年賽事100個最難正確識別之文字。中國科學技術大學（USTC）算法研究組經迭代優化的算法，可辨識刻本、稿鈔本、石印本等古籍圖像。北京大學Deep Valley團隊先將文本行切分成單字，對每個單字進行單字識別（中），最終將單字組合成文本行（右）。

提供技術支援及文本素材本中心受邀合辦賽事

「中國古籍文字自動識別挑戰」競賽今年已邁入第二屆，作為2021年賽事的冠軍隊伍，本中心受邀與香港中文大學圖書館共同主辦此國際性賽事。本中心主要提供文字識別準確率之計分程式，本院史語所亦提供內閣大庫檔案中的《明清檔案》、《明清史料》，作為競賽之文本素材。

除了舉辦「中國古籍文字自動識別挑戰」競賽，本中心與香港中文大學圖書館自2021年起，逐步開展不同面向的合作，當中包括了協助其進行中國古籍的圖像文字自動辨識。香港中文大學副校長陳金樑在線上頒獎禮致詞時指出，在本中心的支持下，該校已能線上提供1.1萬頁文本，使更多使用者得以近用，並藉此激發新的研究見解。

未來擬推線上平台協助各界自行辨識中文文本圖像

本中心召集人陳熙遠致詞時透露，有感於國內外學術機構合作單位日益增多，圖像文字自動辨識的需求量也持續增加，本中心遂建置「影像文字辨識線上辨識與校對系統」，預計今年底對外提供服務。「屆時，各界可透過此線上平台，自行進行中文文本圖像的文字轉製。」

他表示，中文文字自動識別是數位人文領域的重要一環，可有效降低人工著錄文字的成本，加速精準檢索與應用古籍文本之進程，從而促進人文學者進行文本解讀、版本比較與脈絡分析等種種研究取徑。本中心樂於與各界並肩，共同推動、精進中文古籍文字自動識別技術的研發，期許有一天終能為文本圖像數位人文研究取得突破性進展。

回近期消息