「中國古籍文字自動識別挑戰2021」主辦單位香港中文大學圖書館於4月21日,線上頒獎予本中心。本中心研究助技師王祥安於線上頒獎典禮進行技術簡報。香港中文大學常務副校長陳金樑致詞。(圖片來源/香港中文大學圖書館)香港中文大學圖書館館長李露絲(Louise Jones)致詞。(圖片來源/香港中文大學圖書館)
經10日賽程拼搏,本中心以近91%之高準確率,從23組來自中國、香港、美國與臺灣的參賽隊伍中脫穎而出,榮獲「中國古籍文字自動識別挑戰2021」冠軍!
中文文字自動識別是數位人文領域的重要一環,無需藉由費時耗力的人工打字工程,即可將中文古籍文本數位圖像自動轉為文字,使文本內容檢索得以開展,故可謂是中文古籍文本分析研究的第一步。此網上競賽由香港中文大學圖書館主辦,希望藉由比較各家對古籍中文字自動識別方案之優異,提升中文古籍文字自動識別技術,並推動學界對中文資料的發掘,為相關學科研究開創新里程。
「中國古籍文字自動識別挑戰2021」吸引中國13組、香港5組、臺灣4組、美國1組參賽隊伍共同角逐,其中可分為學界13組、商界6組、其他領域4組。中文文字自動辨識界可謂精銳盡出,紛紛參與其盛。
本中心由研究助技師王祥安領軍,協同丁盛、劉品廷等組員,以近91%的文字自動識別準確率,於此競賽中掄元,為競賽唯一達到90%以上辨識率的團隊。中國華南理工大學電子與信息學院則以86.1%準確率,位居亞軍;季軍為中國科技(北京)有限公司(DeepBlueAI),準確率為84.6%。線上頒獎典禮已於4月21日圓滿舉行。
自1929年德國科學家Gustav Tausheck(1899-1945)提出字元辨識技術,光學字元識別(Optical Character Recognition, OCR)技術發展至今,已能結合人工智慧進行自動辨識。過往文字自動辨識競賽多聚焦於英文文本,且以歐美等西方國家為主;少數的中文文字自動辨識競賽,亦以商業應用或近現代文本領域為主流。針對中文古籍領域之競賽,則為文字自動辨識界之罕舉。
「中國古籍文字自動識別挑戰2021」賽程長達10日,主辦單位每日上傳50張中國古籍圖像至各參賽隊伍所建置的網上平台,限定一小時內完成並回傳文字識別結果。評分標準包含正確識別的字數(錯誤識別字則扣分)、正確識別文字的行列順序與位置。意即除了文字的正確率,排版的正確率亦納入評比範圍。
此競賽不僅評分嚴格,內容辨識難度亦深具挑戰性,所提供之古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合,或夾雜異體字、罕用字與肉眼無法辨識之文字等各式問題的高難度版本。王祥安於線上頒獎典禮進行技術簡報時表示,為準確辨識相關古籍文字內容與格式,本中心在參賽過程中引入逾10項圖像處理、文字處理與機器學習技術,包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等,進行多重處理,終獲佳績。
本中心將含文字透底問題、大小字並列與混合等高挑戰性的中國古籍文本圖像(左;圖片來源/呂祖全書:三十二卷,附禪宗正指三卷v.3 / 劉體恕彙輯;劉蔭誠,劉允誠仝校;黃誠恕叅訂.清道光庚戌 30年),經字元偵測技術(中),自動辨識為文字檔(右)。
本中心自2017年開始研發OCR技術,陸續引入各式機器學習技術,以改進文字自動辨識率。值得一提的是,過程中本院歷史語言研究所漢籍資料庫工作室提供了大量高品質的漢籍文本影像與文字內容,讓本中心技術團隊得以訓練出高水準的古籍文字自動辨識準確率。而為「『簡牘字典』開發計畫—開放性資料庫的結構及技術探索」所研發的字元偵測技術,後來亦被應用於OCR技術中。
經過數年不斷創新與學習的努力,本中心所研發中文古籍OCR的辨識技術,無疑已取得國際的領先優勢。本中心將持續精進相關技術,致力提升數位典藏在文字辨識上的良率,此一研發技術將不僅有助於數位資料庫的內容建置,降低人工著錄文字的成本,更能加速精準檢索與應用古籍文本之進程,從而促進人文學者進行文本解讀、版本比較與脈絡分析等種種研究取徑。
媒體報導:
《自由時報》:技術超強!中國古籍文字自動識別賽 中研院團隊準確率逾9成奪冠