中文版 | English

核心技術

各項技術簡介

1. 鏈結資料技術

■ 轉置後設資料,讓數位文化資產跨越語言、文化疆界,鏈結世界!
鏈結開放資料(Linked Open Data, LOD)是近年來實踐語意網(Semantic Web)的重要方法之一。LOD是將原始資料解構為更小並具語意連結的資料單元,以機器可讀取與處理的標準,發布於全球的開放資料平台。這些資料亦將整合成為各領域的資料,提供更大格局的研究基礎,產生有影響力的創新研究。
本中心積極將「典藏臺灣聯合目錄」、徵集自研究機構與民間單位的內容,轉置為LOD,使其能串接國際,在不同主體文化與語言下進行交流彙整,提高資訊散佈及再利用性。

本中心應用平台:鏈結開放資料實驗室鏈結開放資料平台Linked Taiwan Artist
合作單位:美國蓋提研究中心(「藝術與建築索引典」中文版)、中研院歷史語言研究所(簡牘字典—史語所藏居延漢簡資料庫)、國立傳統藝術中心-臺灣音樂館
應用單位:國立傳統藝術中心-臺灣音樂館、科技部「亞洲佛教藝術圖典與知識系統之建構」計畫(佛教藝術圖典與知識系統)等

 

2. 數位博物館技術

■ 提供個人與機構典藏、展示與應用藏品資料,亦可轉譯研究成果!
讓典藏機構與個人上傳及管理藏品,並可結合平台內的國內外開放資源與各單位藏家之珍貴典藏,進行數位策展,建立串接國際的專屬數典平台,展現更多樣的藏品故事脈絡。平台提供時間軸、故事地圖、資料視覺化工具等展示模組,策展人可適應多元資料屬性與敘事情境,呈現藏品間的精彩故事。

本中心應用平台:開放博物館
合作單位:屏東縣政府(屏東縣數位典藏)、國家電影及視聽文化中心(臺灣電影數位博物館)、中研院生物多樣性研究中心(生物多樣性數位博物館)、中研院歷史語言研究所(中央研究院歷史文物陳列館開放博物館)、鄧雨賢之孫鄧泰超(鄧雨賢數位典藏館)、中華民國筆會(中華民國筆會開放博物館)、國立傳統藝術中心臺灣音樂館(臺灣音樂館開放博物館)、行政院農業委員會林務局林業試驗所(林業試驗所昆蟲標本館)等

 

3. 數位人文研究技術

■ 可打造兼具開放存取與多人協同研究機制的雲端平台!
發展提升人文研究質量的數位化工具與平台,協助人文學者進行巨量資料分析。提供研究者上傳文本與權威詞,可結合平台所匯集國內外機構開放的數十億字數位文本,進行文本自動標記、詞頻統計、詞頻差異分析、共現詞分析、相似內容比對、關聯分析、詞性查詢與統計、兩文本詞性差異分析、社會網絡分析與時空整合呈現等資料視覺化呈現。

本中心應用平台:數位人文研究平台
合作單位:中研院歷史語言研究所漢籍資料庫工作室、臺灣史研究所、近代史研究所、中國文哲研究所、資訊科學研究所
應用單位:「魏晉南北朝周邊意象之數位人文研究」計畫、「數位人文學與台灣地方菁英研究:以中研院台灣史研究所數位文本為例」計畫、「傳統中國的魅病論述與醫療策略」計畫、「數位人文學與簡牘研究:文字釋讀與簡冊復原」計畫等

 

4. 影像文字自動辨識技術

■ 中文古籍影像文字辨識率逾九成,可手動修正辨識結果!
利用機器學習技術,結合大量古籍影像與文本內容,發展中文古籍影像的文字辨識工具,以加速古籍數位化。實驗結果顯示,本技術在多本中文古籍的辨識正確率達九成以上,優於現有商業軟體與開放源碼軟體。此技術能降低以人工方式建立文字資料的成本,並讓文本影像的內容得以被檢索、應用。
另亦發展線上校對工具,使用者可於此工具上傳影像,自動進行文字辨識,也可手動修正辨識的結果。除提供圖文對照功能,使用者校對的結果也可作為訓練自動辨識技術之依據。

合作單位:中研院歷史語言研究所漢籍資料庫工作室
本中心應用平台:文字辨識與校對平台

 

5. 網頁文字與圖像標記技術

■ 採用國際圖像互通架構(IIIF)標準,開發影像標記工具!
讓使用者對網站中的文字與圖像進行協作,以補充或校正網站內容。操作上提供直覺化的標記功能,使用者可任意選擇整篇文章或整張影像中的部份內容進行標記。其中,影像標記採用了國際圖像互通架構(International Image Interoperability Framework, IIIF)標準,可與其他採用相同標準的系統進行資料交換與互通。

本中心應用平台:開放博物館
合作單位:中研院歷史語言研究所(簡牘字典—史語所藏居延漢簡資料庫);日本奈良文化財研究所、東京大學史料編纂所、國立國語研究所、國文學研究資料館、京都大學人文科學研究所(歷史文字資料庫統合檢索系統
應用單位:科技部「亞洲佛教藝術圖典與知識系統之建構」計畫(佛教藝術圖典與知識系統

 

6. 影像物件偵測與搜尋技術

■ 抽取影像內物件資訊,便於定位與檢索!
結合影像處理與機器學習技術進行研發,能抽取影像中特定物件的資訊,使之可被定位與檢索。使用者亦可透過上傳或選擇影像,來搜尋相似影像。

應用平台:簡牘字典—史語所藏居延漢簡資料庫
應用單位:「簡牘字典」開發計畫—開放性資料庫的結構及技術探索

 

7. 地理資訊系統技術

■ 提供適合手機操作的田野調查工具,使用者可依據地點,標示並上傳多媒體資料!
本中心發展此技術,結合歷史文獻、田野調查、專家及群眾協作,打造「臺灣宗教地景地理資訊系統」,標示臺灣各宗教地景、展示空間聚落,探索臺灣各宗教的傳佈範圍及時代變遷。此技術並可應用於數位人文研究,以時空整合呈現方式,協助研究者探索資料中的脈絡關係。

本中心應用平台:臺灣宗教地景地理資訊系統、「歷史地圖散步」系列(臺中臺南臺北)APP
合作單位:輔仁大學宗教學系、高雄一貫道天皇學院

 

8. 文本之詞彙實體識別與事件分類技術

■ 運用文本分析方法,進行人名識別、事件分類!
「史語所學術創新數位深耕計畫」所研發,使用CRF(Conditional Random Field)、BERT(Bidirectional Encoder Representations from Transformers)裡的詞嵌入(Word Embedding)等方法,擷取文本之事件相關重要詞彙,再以K-means等演算法,進行事件分群。結合「人名權威-人物傳記資料庫」的人物相關屬性資料,建立無需人工標註之自動化人名實體識別與鏈結模型,可快速擷取人名並鏈結外部資料庫。

合作單位:中研院歷史語言研究所漢籍資料庫工作室、明清檔案工作室、中研院人社中心地理資訊科學研究專題中心、國立中央大學資訊工程學系智慧型資訊服務研發實驗室
應用平台:《明實錄》衛所檢索系統、中國歷史氣候時空地圖

 

9. 三元組語意關係自動建立技術

■ 利用語言理解技術,自動抽取、分析人物的事件!
人工標記過程費時費力,「漢籍自動化資訊擷取研究與系統開發計畫」研發此技術,重點為自動辨識及擷取文本中的人名、職官名、事件等,建立三元關係(以<subject, verb, object>的形式)為基礎的知識圖譜。利用「剖析」與「指代消解」等語言理解技術分析《清實錄》文本,除自動抽取分析人物的事件(人物與事件間的關聯,即某人曾做過哪些事),甚至能顯示文章或句子的情感分布。

合作單位:中研院歷史語言研究所
應用單位:中研院歷史語言研究所

 

10. 上古、中古、近代、現代漢語斷詞技術

■ 具有零樣本(zero-shot)與跨時代文本的遷移學習能力,斷詞平均正確率逾九成!
使用上古漢語(先秦到西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)和現代漢語語料,針對語言模型、分詞和詞類標記,進行遷移學習實驗與模型建立。目前已成功實驗出現代漢語(白話文)的語義分析模型,確可遷移到漢籍(文言文)模型。斷詞標記實驗發現,對於分詞任務,不同時代語料的確能互相增進學習,證明模型的遷移能力。

合作單位:中研院歷史語言研究所
應用單位:中研院歷史語言研究所

 

11. 後設資料分析與設計技術

■ 符合國際標準的後設資料規劃與應用!
後設資料(Metadata)是一組結構化與標準化的背景資料,用以描述每個數位藏品的內涵與特徵,以讓其在數位化環境或系統中,達到最佳化資源探索的效能,能有效且精準地被檢索、呈現、管理、控制與執行相關功能,從而達致資源互通、共享與長期保存之目的。

詳見:http://metadata.teldap.tw/standard/standard-frame.html
應用單位:「數位典藏國家型科技計畫」、「數位典藏與數位學習國家型科技計畫」、教育部(教育部教學資源網)、中研院歷史語言研究所、民族學研究所等

 

12. 聯合目錄系統建置技術

■ 整合580萬筆數位藏品、逾770個成果網站,打造單一窗口的檢索與搜尋引擎!
提供使用者檢索「數位典藏與數位學習國家型科技計畫」之典藏成果。查詢系統主要功能為分類目錄瀏覽服務,(以內容主題、時間、地理典藏機構等整合瀏覽各單位數位化資料),並可進行資料簡單檢索及精確查詢。

本中心應用平台:典藏臺灣

 

13. 數位典藏管理系統建構技術

■ 元件化各數位典藏管理系統的共用模組,快速「客製化」建立數位典藏系統!
將各數位典藏管理系統中共用的、重要的模組予以元件化,以於後續開發類似系統時再利用,可降低系統重複開發工作,並提高系統的可維護性。目前已開發的元件包括字串處理、XML文件處理、日期時間處理、中文缺字處理、HTML動態網頁處理、權限控制處理、多媒體影像處理、資料庫存取、檔案傳輸處理、系統日誌、權威詞與代碼管理等。可依據典藏單位的需求,將上述核心元件整合於相關服務平台與資源。

應用單位:中研院歷史語言研究所(傅斯年圖書館藏善本古籍數位典藏系統傅斯年圖書館藏印記資料庫系統人名權威資料檢索系統考古資料數位典藏系統拓片與古文書數位典藏計畫漢代簡牘資料庫殷周金文暨青銅器資料庫)、民族學研究所(臺灣民族誌數位影音典藏

 

14. 系統保存與維運技術

■ 快速重建平台,提供系統備份服務!
本技術可應用於網站、資料庫與作業環境系統保存。以虛擬化(Virtualization)技術為基礎,整合網站與資料庫維運技術,能快速重建相同的平台,為典藏單位提供系統的備份與備援、網站託管等服務。

本中心應用平台:典藏臺灣

 

15. 中文缺字網路應用技術

■ 提供中文缺字的查詢與網頁呈現!
以「漢字構形資料庫」為核心,採用字形的結構來表達缺字,發展出適合數位典藏系統的缺字解決方案及相關工具。遵循漢字構形原理,直接將構字式著錄於資料庫,在網頁呈現時,則利用轉換程式將構字式還原成圖形方式顯示,使缺字能符合網路上的各種應用。

詳見:缺字系統漢字構形資料庫
應用單位:中研院歷史語言研究所(傅斯年圖書館藏善本古籍數位典藏系統傅斯年圖書館藏印記資料庫系統考古資料數位典藏系統拓片與古文書數位典藏計畫漢代簡牘資料庫

 

16. 圖像數位典藏與呈現技術

■ 可滿足多媒體檔案管理需求!
可進行多媒體檔案管理,並具有轉換高解析度數位化圖檔為適合網路瀏覽圖像的大圖呈現功能、動態浮水印加入功能,以滿足多媒體管理、呈現與保護的需求。

詳見:多媒體中心
應用單位:中研院歷史語言研究所(傅斯年圖書館藏善本古籍數位典藏系統傅斯年圖書館藏印記資料庫系統考古資料數位典藏系統拓片與古文書數位典藏計畫漢代簡牘資料庫

 

17. 影音數位典藏與發佈技術

■ 提供典藏機構與大眾發佈影音內容!
可提供影片內容上傳、格式轉換、串流播放、線上編輯等功能,並可將影音內容整合至數位典藏系統或網站。我們亦應用此技術,發展了影音發佈網站Vcenter。Vcenter的設計概念以使用者為核心,並融入Web 2.0精神,增添影音內容與使用者之間的互動,其中的嵌入播放器功能即便利典藏機構和一般大眾瀏覽影音內容。使用者能在影音內容上添加浮水印、編輯字幕和設定影音書籤。此外,亦整合地理資訊系統,提供整合影音地圖服務,讓使用者更容易地記錄影音內容的拍攝地點,瀏覽者也可透過地圖檢索影音內容。

詳見:Vcenter

 

18. 網路相簿與社群技術

■ 提供大眾上傳照片,並分享於社群網站!
我們以此技術發展了iPicbox網站,提供一般大眾上傳照片,並可透過分享機制,將所上傳的照片發佈於Facebook、Plurk等社群網站。它也提供相簿共享功能,讓使用者與好友共享相簿。此外,亦提供多項新穎服務,如多樣式的相簿瀏覽形式、全景瀏覽等。

詳見:iPicbox

 

Facebook RSS
加入粉絲團



 

訂閱RSS 訂閱RSS

RSS Feed