中文版 | English
http://ipicbox.tw/picfiles/image/00/0f/08/63_7PZUE5OHSLKE_source.jpg

【獲獎公告】CNN-OCR能辨識漢籍九成文字 本中心榮獲TANET 2017大會佳作論文獎

發佈日期:2017/11/02
發佈者: 中央研究院數位文化中心

 

 

「第23屆臺灣網際網路研討會暨資訊學門成果發表會」(TANET 2017)已於10月25至27日在東海大學舉辦,本中心所發表的〈影響CNN中文古籍OCR辨識率的因素探討〉,獲選為大會佳作論文。

 

臺灣網際網路研討會創辦於1995年,是臺灣規模最大、最具影響力的資訊暨網路學術盛會之一。今年以「人工智慧、巨量資料在新世紀網路的協同應用」為主題,探討人工智慧到機器學習如何把龐大數據資料應用至教育、網路、金融、醫療等領域,創造巨大價值。此外,並關注雲端技術、TANet 100G光網路應用與服務、資訊安全、數位落差、物聯網等議題,會中論文發表量達350篇。

 

〈影響CNN中文古籍OCR辨識率的因素探討〉從中脫穎而出,榮獲大會佳作論文獎。本論文由本中心技術長王祥安帶領元智大學資訊工程學系實習生蘇冠宇、吳昱賢共撰,旨在利用CNN(Convolutional Neural Network)技術,訓練出針對古籍文字辨識的神經網路模型,以開發一套中文古籍OCR(Optical Character Recognition)軟體,協助典藏單位自動辨識影像中的文字,加速古籍數位化工作。 

 

CNN是近年來興起的一種深度學習技術,被運用於圖像識別、視頻分析、自然語言處理、藥物發現,甚至人工智能圍棋程式「AlphaGo」等。本中心首度以此技術訓練古籍影像文字辨識系統,發現所研發的CNN-OCR對中文古籍影像的文字辨識率可達九成以上,高於其他商用文字辨識軟體。

 

本中心此次主要以中央研究院歷史語言研究所「電子文獻資料庫」的《本草述鉤元》、《景岳全書》進行實驗。大會評審對CNN-OCR的發展潛力深表肯定,希望未來能投入更多古籍進行系統訓練,以降低典藏單位建立後設資料的成本,促進數位人文領域發展。

 

本研討會設有54個論文場次,前行政院院長張善政、國立自然科學博物館館長孫維新等人共發表5場專題演講、7場科技新知演講,吸引逾700位專家學者及產業界人士共襄盛舉。 

 

〈影響CNN中文古籍OCR辨識率的因素探討〉,歡迎下載閱覽!

 

本中心技術長王祥安於「第23屆臺灣網際網路研討會」發表論文〈影響CNN中文古籍OCR辨識率的因素探討〉。

 

 

回近期消息

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed