|
、書籍及網頁為主,這些文章的用語較固定、具修辭效果,所收錄的大都是固定語,但語言是活的,會隨著時代環境而改變,透過「約定俗成」的力量,淘汰某些式微不常用的語詞,補入新生語詞,進而固定下來 。若單從書面語去觀察語言使用情形,可能就會流失一部分日常用語口語語料,因此,用心的蒐集口語語料以補書面語料之不足,使調查報告書更加完整。 純口語語料的收集並不容易,樣本來源包含四方面: 1.書面資料:包含演講稿、新聞稿、劇本、廣告詞等。 2.錄音資料:從各電視、電臺節目對話直接錄音下來的資料。 3.口語問卷:透過問卷設計,廣收全國各級學校學生口頭用語資料。 4.BBS討論站文章。 口語文具有時效性,必須及時採集。既然是口語,就是要取它的自然流露,而樣本 (一)的語料是經過修飾過的文章,雖藉「口」傳播,仍與自然口語存有差異性,以此作為口語樣本,有失真實性。 (三)教育部,1998,〈八十七年口語問卷調查報告書〉 本計劃口語語料的調查與蒐集,進行方式主要分為兩個方向: 1.利用網際網路上電視臺綜藝節目的對白資料,以及抽樣網站上BBS的資料,直接口語資料的存錄。 2.進行各級學校學生對日常生活使用語的調查,設計問卷。 「今日日常生活語言中夾雜外語或利用數字詞來表達的方式已是流行趨勢,某些語詞所表現的強勢功能,連對應的純中文詞都無法抗衡。這種現象普遍存留於口語、網路環境之中」 本次問卷為顧及樣本區域性之不同,廣泛收集各地語詞,因此將問卷調查學校分為北、中、南、東及離島等五區,抽樣的對象是全國小學、國中、高中、大學的學生進行分類的問卷調查。總計發出全省三十七所學校,共一千九百份,回收三十四所學校,共一千四百五十九所有效問卷,總計回收59091個有效詞,方言詞不列入統計。這份報告書不但列出了原有問卷設計觀念與內容,整理後的詞頻表及統計圖,經過交叉比對,可看出四級學校學生使用語詞的參差情形,特別的是,在報告書末所列的「語詞資料彙編」中有中英略語、英文及數字詞,都是忠實反映了目前口語中的一般現象。 整體而言,教育部這些調查報告書語詞來源多元化,經過四個年度的調查,透過語言來記錄社會演變的狀況,可以說是詞彙研究非常珍貴的資料,所建立的資料庫對語文教育的推展有很大的幫助,也提供想從事其他語言研究者一個參考方向。 七、中央研究院資訊科學研究所中文詞知識庫小組出版相關調查文獻 中央研究院資訊科學研究所中文詞知識庫小組在詞頻語料庫的研究,執行至今,成果豐碩,在研究領域享有盛名。民國七十五年中研院資訊所與語言所跨所合作的中文計算語言研究小組共同合作建構中文自然語言處理的資源與研究環境,為國內外中文自然語言處理及其相關研究提供完整研究資料,這是一件耗時費事的大工程,先後完成中文新聞語料庫、漢語平衡語料庫、平衡語料庫詞及詞頻統計、中文詞之詞庫及中文語法、中文分詞語料庫、中文分詞詞庫、中文句結構樹資料庫。這些語料庫。提供研究者極具參考價值的資訊。語料庫代表性研究成果分述如下: (一)中文新聞語料庫—《新聞語料字頻統計表》、《新聞語料詞頻統計表》、《新聞常用動詞詞頻語分類》、《新聞常用名詞詞頻語分類》等技術報告書。 本技術報告書,為一包含約一千四百萬字的語料庫,可說是截至目前為止最大型的詞頻研究。本語料庫取材來源為中國時報、聯合報、自由時報及天下雜誌,依據詞庫小組所設計的斷詞程式斷詞。統計表中每一筆詞有四欄資料,第一欄是詞項,第二欄是詞類,第三欄是這個詞出現的次數,第四欄是從第一的詞開始截至這個詞為止所出現的頻率累計總合(100為總頻和),為方便查閱,每20個詞下面加註數字標示排序。 (二)中央研究院漢語平衡語料庫 代標記語料庫的建立,是中文語料庫的一個新里程,是世界上第一個有完整詞類標記的漢語平衡語料庫,它讓學者在彈指之間尋遍所有資料,研究方法基本上是利用收集到的資料歸納出分析與理論。而分析的過程則利用電腦來處理大量而複雜的資料,資料取得可分為書面及口語資料兩類;書面語料之選取對象,一是自中央研究院現有之四千萬字 (約兩千萬詞)語料庫中依既定原則選取適當者,其二是以無償取得現有電子出版品文獻為原則。口語資料因限於經費,無法直接蒐集口語語料,基本上由相關學者提供已轉寫標記好的語料。語料主題內容比例為:哲學百分之十、科學百分之十、社會百分之三十五、藝術百分之五、生活百分之二十、文學百分之二十。本語料庫每個句子依電腦自動分詞,並標示詞類,共包含五百萬詞的帶標記平衡語,但目前語料來源偏重在書面語,佔了百分之七十,而口語資料仍嫌比例太低,這是本計劃中需要加強之處。 (三)平衡語料庫詞及詞頻統計 是根據平衡語料庫(五百萬詞)所計算出的詞及詞頻統計資料,每一筆詞包含詞類、詞頻、還有照詞頻排序至此詞的累積頻率。 (四)中文詞之詞庫及中文語法 為一包含八萬餘目常用中文詞的電子辭典。本詞知識庫收的詞包含一般用語、常用專有名詞、成語、慣用語、常用派生詞、異體詞、合併詞、以及少數特殊領域用詞和古漢語詞語。每個詞項包含的訊息有:注音、頻率、詞類及相關語法訊息、名詞詞意分類等,是中文語言處理的基本詞彙及語法知識庫。 (五)中文分詞語料庫 中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句根據中華民國計算語言學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所定的分詞原則來分詞。本語料庫來源包括書面語和口語兩部份,其中資訊類佔百分之二十一。 (六)中文分詞詞庫 根據中文分詞語料庫(乃依分詞原則、不帶詞類標記的語料庫),共抽出42,138目詞,除了詞項外,還包括每個詞項在語料庫出現的次數。 (七)中文句結構樹資料庫 包含23個檔案,54,902棵中文結構圖,290,144個詞,在結構中標示了中文句語意和語法的訊息,提供學者專家在中文句法、語意關係研究參考之用。
第二節 有關詞彙分級相關研究
一、葉明德,1997,〈華語文常用詞彙頻率等級統整研究〉 該篇研究藉重統計學的方式,電腦程式的功能,將華語的「字詞」加以統整與分類,歸納出最適合外籍人士所使用的「字」與「詞」,做為外籍人士華語文能力程度之測驗。詞彙之範圍包括:(1)國立台灣師範大學國語教學中心教材十八冊課文中,共計36萬字(2)口語資料之獲得:錄下一般大學生日常生活言談的實況,分析言談中所使用的辭彙(3)專業詞彙之搜集兼具口說語與書面語:口說語資料如中國文化十二講、中國的思想與社會、中國哲學思想史、新聞等之專題討論,及針對一般大學生常看常聽的節目,而後錄音,再分析其中所使用的詞彙(4)書面語資料:一般外籍生最常閱讀的報紙、書刊與雜誌,分析其使用的詞彙。 詞彙分析,是根據中央研究院斷詞程式中所訂的選詞基準來執行斷詞的工作,並計算其頻率,共得一萬五千二百五十二個詞。該研究將前8,088個詞,按照其難易程度分出五個等級,即1.易2.較易3.中等4.較難5.難,其他超過累計詞數8,088至15,252更難者,在文獻上頻率皆僅出現一次,均列在頻率表上作為備用資料。 其成果使得今後編寫華語教材者,有較客觀並實用的中文詞彙庫可參考,並對華語文能力測驗方面提供具體施測方向,因為教材的特殊性,而使罕用字的頻率偏高 ,使的常用詞或簡單詞彙因在教材中只出現一、二次,頻率低,而在等級上被歸入難詞或備用詞,似乎不太合理。所以,只由華語教材去分析詞彙、統計詞頻,會產生許多不足的地方。 二、張莉萍,2002,《華語文能力測驗理論與實務》 張莉萍的詞彙分級研究目的在提供外籍人士華語文能力檢定,詞彙來源以華語教材中的詞彙為依據,再參酌中央研究院五百萬平衡語料庫中的高頻詞補充,沒有完全採用葉明德教授1995年國科會的計畫報告書,原因在於葉教授的詞彙等級分為五級,與張莉萍所規範的三級不同,而之後新編或改編的教材內容,也列入參考的資料。所得的三級詞彙數量分別為初級詞彙1,507個詞、中級詞彙3,684個詞、高級詞彙4,964個詞,共計10,155個詞彙。詞彙表中的頻率皆是採自中央研究院五百萬平衡語料庫而來,因為斷詞法不同 ,二者語料庫樣本來源不盡相同 ,造成有的詞頻為零。然而詞頻為零的詞彙並不代表不重要 、不常使用,這一點使本篇研究報告欲達到的用途受到限制。對於專有名詞或專門術語,儘管詞頻為零,還是盡量保留在詞頻彙中,讓參考者知道學生應該至少認得這些字的發音。 「詞彙分級研究主要以詞彙出現的頻率做為客觀的指標,參照語文教學的需要與經驗進行分級 。」上述的詞彙分級研究回顧可以發現,葉明徳教授與張莉萍的研究較偏重華語教材的語料,優點是這個測驗結果,可以作為外籍人士在台灣學習華語的成效,找出學習的困難點,進一歩實施補救教學;明確的目標,可以精確掌握學生的語言能力,把學生安置到適當的教材起點。但較令人困惑之處在詞彙分級時,究竟要依對象而調整分級,還是應該建立核心詞彙的基本標準?使參考者無法了解該研究中詞彙分級的準則依據。
第三節 其他相關研究 表2-3-1其他詞彙分級相關研究 研究者年份分析項目研究對象/資料類型抽樣數資料性質所得數量對象性質 楊國樞楊有維蕭育汾1973字彙詞數句數句長相異字數三歲六個月到九歲五個月共270名口語1,346字 一般兒童 張春興邱維城1973字彙常用度國小三~六年級兒童各五十 名,計 1,000篇作文2,209字 一般兒童 劉英茂莊仲仁王守珍1973詞彙常用度報章、雜誌、小說、非小說、教科書、兒童讀物印刷品4,833字 一般成人 國立政治大學1982字彙常用度報紙、國小課本、課外讀物、民眾讀物印刷品2,501字4,864詞 一般兒童 柯華葳吳敏而等人1987常用度生字難度會錯義字國小一、二年級兒童各6200名聯想詞3950字 一般兒童 柯華葳吳敏而等人1990常用度生字難度國小六年級兒童各6200名聯想詞3950字 一般兒童 柯華葳吳敏而等人1993常用度生字難度國小三年級兒童各6200名聯想詞3950字 一般兒童
上述研究對象大都偏重在國小一~六年級的兒童身上,上表中可看出有關兒童字詞使用有三個類型,包括經由現場錄音轉寫成文字(口語部分),由兒童書寫的作文中搜集方式,及給予刺激字,讓兒童用聯想方式造詞。可說是大規模而有系列針對學前與國小兒童所用的字詞研究。 第三章 研究設計
|