中央研究院現代漢語標記語料庫4.0版簡介

中央研究院現代漢語語料庫」 (簡稱「研究院語料庫」(Sinica Corpus))是專門針對語言分析而設計的,每個文句都依詞斷開,並標示 詞類。語料的蒐集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表 性的樣本。

這個語料庫是由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持,自一九九0年前後便開始致力於漢語語料的蒐集。於一九九一年得蔣經 國基金會補助,開始構建語料庫; 並於一九九四年分別得到中央研究院「中文資訊」跨所研究群專案計畫 及 國科會計畫補助, 正式開始進行語料標誌。一九九五年七月完成第一版(兩百萬詞), 一九九六年十一 月經計算中心設計規劃完成 WWW版,開放供各界使用(On www since November 1996) 。並於一九九七 年完成3.0版,約五百萬詞。

語料庫依照各主題其詞類、字數和篇數如下:

主題 加總的詞數 加總的字數 篇數
文學 777050 1169801 1385
生活 858750 1398791 2301
社會 1610997 2711720 3246
科學 629838 1054738 994
哲學 439955 673080 695
藝術 474340 781415 518
空白 101394 160306 89
加總結果 4892324 7949851 9228

如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。

中央研究院資訊科學研究所、語言學研究所與計算中心. All Rights Reserved.

若有錯誤指正或改良建議等歡迎寄電子郵件至林素朱 小姐林素朱 小姐

語言所 資訊所 計算中心 版權聲明
中央研究院語言所版權聲明