基本資料
計畫類別 數位文化中心計畫
計畫編號 ASDC-102-05
通過年度 102
執行單位 語言所(102)
主持人
簡介

中央研究院語言學研究所(以下簡稱本所)自民國90年參與國科會的數位典藏國家型計畫(民國97年更名數位典藏與數位學習國家型科技計畫,以下簡稱國家型科技計畫),執行「語言典藏」計畫,至今已建立20多種的資料庫網站。

國家型科技計畫將於民國101年結束,本所仍將以院內自有預算永續這十幾年來所累積的數位典藏成果,典藏項目分成兩大類:『歷時性』和『共時性』,繼續數位化典藏及保存語言的多樣性。

過去幾年「語言典藏」計畫在經驗事實上、理論上和科技技術上已達到下列幾項重要的貢獻:1. 數化不同時代、不同語言類型的資料提供具有學術價值的數位應用環境、2. 經過已標記和分析的語料以符合需求可建立各種語言狀態之資料庫,加上查詢功能提供多種方便瀏覽的網站系統。

未來兩年(102-103年),「語言典藏永續經營」計畫之目的主要維護與加強已建立過的典藏,提升語料的品質、資料庫完整性及加強技術基礎。

子計畫(1):先秦甲骨金文簡牘詞彙庫(Lexicon of Pre-Qin Bronze Inscriptions and Bamboo Scripts);主持人:陳昭容 研究員

「先秦甲骨金文簡牘詞彙庫」計畫的目標由建立先秦詞彙資料庫為核心,進而擴展連結各類相關網站,使觸及面向更深更廣,提供研究者及一般大眾一個便捷、學術性的數位應用環境。

先秦詞彙資料庫分為詞彙檢索與全文檢索,收錄先秦甲骨文、金文、簡牘三種書寫材質,依詞類、來源做為搜尋條件,展示詞彙的詞類、時代、材質、書目來源,以及包含該詞彙的前後完整段落釋文。特色在於打破材質作為前提的預設,以詞彙本身為焦點,跨度不同時代觀察詞彙流變的意義。甲骨收錄了《甲骨文合集》、《花園莊東地甲骨》;金文以《殷周金文集成》為主;簡牘則收錄《楚帛書》、《包山楚簡》、《望山楚簡》等七種戰國到秦代的出土文書。估計合甲骨、金文、簡牘將超過300,000個詞彙條目,每個詞彙可以連結該篇釋文全文,利於查詢者檢閱,正確理解詞彙意義。

數位典藏這些年的目標主要在於詞彙標記及釋文的輸入、核校,資料庫的規劃與建置,下階段將擴展不同網站之間的繫連與互動。本計畫以「甲骨金文簡牘詞彙資料庫」為核心,預計連結「殷周金文暨青銅器資料庫」、「期刊論文關鍵字查詢」、「青銅器數位資訊網」、「殷周青銅器地理資訊系統」,希望能夠建立一個涵蓋不同面向,更便於多重與互動查詢,一般大眾、學生及研究人員均能共享的先秦文字研究數位平台。

子計畫(2):漢語歷史文獻標記語料庫(Tagged Corpus of Ancient Chinese);主持人:魏培泉 研究員

為了能提升漢語歷史語言學界的研究能量,我們在數位典藏計畫第一期以及第二期分別建構了「近代漢語文獻標記語料庫」和「上古漢語文獻標記語料庫」,工作重點是對近代漢語時期(自唐至清)和上古漢語時期(先秦至西漢)的語料進行斷詞和詞類標記,並提供介面供人上網查詢。這兩個語料庫都早已上線提供國內外研究者無償使用。由於兩個語料庫都已累積了相當豐富的標記語料,加上有以語言學為本的介面設計,對於歷史語言的研究者實有莫大的助益,使用者莫不稱便。為了研究者能繼續得到這種工具的支援,確實需要有個永續經營計畫來維繫它的運作以及持續的修訂與增補。我們的語料庫的標記語料如果能含蓋漢語歷史的每個主要階段,那麼學者無論是研究哪個時期,我們都可以提供一樣便利的語料庫來協助他們的研究。因此在往後的永續經營計畫中,我們將開始構建「中古漢語文獻標記語料庫」,並逐步擴充中古漢語時期(東漢魏晉南北朝)的語料。這三個語料庫可以構成一個「漢語歷史文獻標記語料庫」,無論是共時的研究還是歷時的研究,它都可以成為歷史語言學者最佳的研究工具。

子計畫(3):台灣社會語音資料庫(Construction of a sociophonetic database of Taiwan Mandarin) ;主持人:曾淑娟 副研究員

社會語音學以聲學語音方法研究社會因素對語言語音變異造成的影響。本計畫將語料庫觀念帶入社會語音研究,建立社會語音資料庫。語言變體語料庫為數不少,但多半缺乏訪談或問卷內容與語音之間直接的連結。本計畫以台灣共20個區域為抽樣對象,控制訪談內容收集社經資料與數位錄音。二期數位典藏計畫預計將完成12個縣市資料收集與處理,處理技術包含訪談內容轉寫與訊號對齊,社經資料庫量化與特定詞語的聲學語音指標相互連結,確實整合聲學語音與社會語言學的研究。本永續計畫規劃完成台灣8個縣市的資料收集與處理,計畫結束時,可以產出一個完整呈現台灣官方語言的社會語音資料庫,兼具語音資料與受訪者社經資料。語言政策與語言使用的變遷息息相關。社會實際的語言使用與人口變遷及社會地位與經濟能力的交叉分析,可以有助於瞭解官方語言的使用情形。對學術研究而言,本計畫銜接二期計畫成果,資料形式與內容都將透過查詢系統加值,建立一個可以開放給一般民眾與學界使用的網路檢索系統,以永續經營台灣國語變遷資料庫,也能將技術與經驗推廣到其他在台灣使用的語言。

子計畫(4):台灣南島語數位典藏(Formosan Language Archive);主持人:齊莉莎 研究員

臺灣由於歷經日本「獨尊日語」政策及國民政府「獨尊國語」政策,島上諸多語言已面臨流失之厄運,其中尤以原住民語言情形最為嚴重。故擬透過本計畫,希冀繼續能夠全面且有系統蒐集尚有語料的語言(如:邵語)並且進行深入語言分析,進而協助保存及推展台灣南島語言並且加強及推廣已有的台灣南島語數位典藏。

本計畫同時進行研究工作及技術整合,擬分兩年(102-103年)進行,研究重點分述如下:1. 繼續擴大原有的數位典藏,並且開始邵語田野調查研究。2. 整合及加強原有的資料庫。(資料來源:計畫摘要)

相關連結

回計畫列表