您現(xiàn)在的位置:普通話學習網(wǎng) > 信息資訊欄目 > 普通話測試研究 > 正文

關于“HSK動態(tài)作文語料庫”的建設構想

來源:普通話學習網(wǎng)    時間:2007-01-23

一、建設本語料庫的意義和用途

1、HSK高等漢語水平考試自1993年開始正式實施,作文考試作為其中的主觀性考試之一,經(jīng)過11年的積累,已有2萬多篇考生作文,字數(shù)將近1000萬,并且還在逐年增加。這些考生作文對對外漢語教學與研究來說是用途非常廣泛的寶貴財富,如果加以充分利用,可以發(fā)揮十分重要的作用。然而,長期以來這些財富并沒有得到及時的整理和充分的開發(fā),甚至可以說完全沒有得到利用,而是常年閑置在倉庫中,這是非常可惜的。

“HSK動態(tài)作文語料庫”正是針對上述情況,由國家漢辦立項、由北京語言大學崔希亮教授主持的一個科研項目。

2、“HSK動態(tài)作文語料庫”將收集自1992年以來(1992年的作文答卷為試測答卷)歷年漢語水平考試高等考試中的全部作文答卷,全面而完備;而且,作為動態(tài)的語料庫,隨著漢語水平考試的不斷進行,語料的不斷增加,語料庫將不斷得到充實。

本課題擬建語料庫的建設規(guī)模為:收集1萬篇左右考生作文、約400萬字的語料。其余部分隨后逐步建設。

3、“HSK動態(tài)作文語料庫”的研制,首先將為漢語水平考試研究提供一個基礎平臺。例如主觀性考試的客觀化評分問題,特別是利用計算機進行閱卷評分的問題,是一個亟待解決的問題,又是一個很難解決的問題,其主要原因之一是無法對考生的主觀性試題答卷進行規(guī)模分析。作文考試是主觀性考試,目前采用的評分方法是總體等級評分,評分標準共分5級,又細分為12個小級;由2名閱卷員交叉閱卷,分別打分,最后取平均分作為考生的作文成績。這樣的方法,不僅費時費力,而且往往受到閱卷員的興趣愛好、欣賞習慣、心態(tài)情緒和疲勞程度等多種主觀因素的干擾,從而造成評分時的誤差,這對考生顯然是缺乏應有的公正的。因此,最大限度地降低乃至排除主觀性試題評分的主觀性,實現(xiàn)客觀有效而又快捷迅速的作文評分計算機化,是研制本語料庫的首要目的。

要實現(xiàn)這一目標,必須解決兩大難題。其一是確立能夠全面、客觀地反映考生寫作水平的作文分項評分標準及各項標準所占的比重,即根據(jù)作文評分標準的主要特征,把作文評分標準分解為若干不同的標準項,并按照一定的模式合成分數(shù);其二是計算機能否根據(jù)已經(jīng)確立的作文分項評分標準自動而準確地從考生作文中提取出相關信息,這不僅依賴于漢語本體研究的相關成果,如句法、語段、篇章方面的研究成果,同時也取決于中文信息處理技術的發(fā)展水平。

美國ETS(Educational?Testing?Service)?的作文自動評分系統(tǒng)“電子評分者(Electronic?Essay?Rater,即E-rater)已經(jīng)研制成功,其與人工評分的相關在0.87到0.94之間。我們可以借鑒E-rater的理論基礎和成功經(jīng)驗,來研究把漢語作為第二語言學習者的作文自動評分系統(tǒng)。

4、“HSK動態(tài)作文語料庫”是母語非漢語的外國人(另有部分國內少數(shù)民族考生)學習漢語的中介語語料庫。據(jù)我們所知,目前國內外漢語中介語語料庫只有一個,即北京語言學院于上世紀90年代中期研制成功的“漢語中介語語料庫”。漢語水平考試方面的語料庫尚付闕如,中介語的動態(tài)語料庫即可以隨時或定期更新的語料庫也屬未見。因此,“HSK動態(tài)作文語料庫”可以填補國內外漢語中介語語料庫研制的一項空白。

運用本語料庫,研究者可以進行多方面的研究。例如漢語中介語研究、第二語言習得研究、對外漢語教學理論研究、對外漢語教材研究、漢語水平考試研究、漢外語言對比研究、漢語本體研究,等等。這些研究對提高漢語教學、漢語測試、漢語本體研究的水平,都具有重要意義。而語料庫方法的運用,也將使這些研究建立在更扎實的基礎上,使研究結論具有更廣泛的普遍性和更充分的科學性。因為“語料庫方法在語言研究中的一個重要作用就是可以為研究者提供更一般的、經(jīng)驗的語言數(shù)據(jù),這些經(jīng)驗數(shù)據(jù)可以使語言學家做出的結論更客觀。”由于對“語言事實的觀察是可以定量統(tǒng)計的”,研究中可以避免對某種語言現(xiàn)象使用“頻度和罕見度的主觀臆測”。(參見黃昌寧、李涓子2002/153-156)通過字、詞、句、篇各種層次上的統(tǒng)計分析,可以充分了解考生使用字、詞、句、篇的基本情況,哪些字詞句使用頻度高、哪些使用頻度低、哪些容易出錯、哪些錯誤最為典型,等等,從而為漢語教學與測試提供重要的參考與依據(jù)。所謂“例不十,法不立;例外不十,法不破”的做法,以語料庫的方法來看,未免顯得太不足道了。

考生作文中包括考生在使用漢語進行書面表達時出現(xiàn)的種類繁多的語病,包括字、詞、句、篇等多方面的使用錯誤,我們可以把它看作外國人學習漢語的一個“語病診所”(此名稱引自于根元1999/69)。從這個診所中,我們可以觀察到外國人在學習漢語過程中會在哪些方面出現(xiàn)錯誤,會出現(xiàn)什么樣的錯誤,并對這些錯誤進行類型分析,對各種類型的錯誤進行統(tǒng)計分析,從而得出考生在漢語使用方面的錯誤序列,以及錯誤程度、頻率方面的序列。這對漢語中介語研究具有重要意義,對漢語教學同樣具有重要意義,對漢語測試的積極作用也是顯而易見的。

作文語料庫不僅是一個包羅萬象的“語病診所”,也是考生學習漢語的一個成果展示場所,作為參加高等考試的考生,除存在的錯誤之外,更多的是對漢語的正確使用。而中介語研究既要對中介語進行描寫,又要對中介語的形成過程進行分析;它既重視錯,也重視對,從而發(fā)現(xiàn)第二語言學習規(guī)律(魯健驥語,轉引自于根元1999/72)。

雖然由于缺乏足夠的語境,迄今為止,在語用學和話語分析中基于語料庫方法的研究還很少(參見黃昌寧、李涓子2002/158),但在書面語語料庫中,特別是作文語料庫中,已為篇章研究提供了充足的上下文語境,可以進行深入的語段篇章分析。

語料庫對教材的編寫具有重要意義。它不僅提供了大量的真實例句,而且提供了語句的具體使用環(huán)境及用法的多樣性,能為語言教學提供更普通的實例,從而有效地避免教材對教學的某些誤導(參見黃昌寧、李涓子2002/159)。

5、本語料庫是中國漢語水平考試作文考試考生答卷的第一個語料庫,將對以往歷年考試的作文答卷進行全面整理,將每一張答卷通過電子掃描的方法錄入計算機,從而徹底改變以往作文答卷管理中的落后局面。因此,本語料庫的建立標志著對考生作文答卷的管理,開始向著規(guī)范化、科學化和現(xiàn)代化的方向邁進。

二、本語料庫的主要內

1、原始語料,即歷年漢語水平考試高等考試考生作文答卷。有手工錄入與電子掃描兩種版本。

2、考生相關信息,包括:考生姓名(以代碼形式出現(xiàn))、國別、性別、年齡、母語、漢語學習時間、作文長度、作文分數(shù)、口試分數(shù)、客觀試卷中聽力、閱讀、綜合各部分分數(shù)和客觀卷總分分數(shù)、漢語水平等級、考試時間、考試地點等。

3、字信息,包括:字量及字頻統(tǒng)計、錯字數(shù)量統(tǒng)計、錯字類型分析、別字數(shù)量統(tǒng)計、別字類型分析、繁體字數(shù)量統(tǒng)計。

4、詞信息,包括:分詞、詞量及詞頻統(tǒng)計、詞性標注、詞類統(tǒng)計、詞類偏誤類型分析、詞類偏誤統(tǒng)計分析、詞語使用錯誤類型分析。

5、句信息,包括:考生使用的漢語基本句型統(tǒng)計、考生使用的漢語特殊句式統(tǒng)計、基本句型使用錯誤類型統(tǒng)計與分析、特殊句式使用錯誤類型統(tǒng)計與分析。

基本句型包括:主謂句、非主謂句、動詞謂語句、形容詞謂語句、名詞謂語句、無主句、獨詞句。

特殊句式包括:把字句、被字句、比字句、連字句、是字句、“是……的”句、有字句、連動句、兼語句、存現(xiàn)句。

6、篇章信息,包括:句間連接手段的統(tǒng)計與分析、句間關聯(lián)詞語使用情況的統(tǒng)計與分析、省略的統(tǒng)計與分析、語義表達手段的統(tǒng)計與分析。

7、編制各種輔助軟件、語料庫的管理軟件和檢索軟件,解決各個子庫及其內容之間的鏈接問題、各種相關信息的調入與切換問題。

8、探索動態(tài)語料庫隨著語料的不斷增加而帶來的語料庫動態(tài)加工管理辦法,解決新增語料的加工處理與分類入庫問題。

三、本語料庫的基本結構
第一級:界面,HSK動態(tài)作文語料庫;
第二級:粗語料庫、精語料庫(均以考試時間、地點、考生國籍、考號為序);
第三級:考生信息庫、字信息庫、詞信息庫、句信息庫、篇章信息庫(粗語料庫只有原始語料和考生信息庫);

四、本語料庫的建庫原則

1、真實性原則

由于我們把考生作文原件掃描進電腦,作為電子版本存于語料庫中,因此本語料庫完全保持了考生作文的原貌。考生作文中的全部信息——從漢字的一筆一畫到詞語的搭配組合,從句子的結構到篇章的安排,不論是正確的表述還是錯誤的用法,全部得到了保留,從而最大限度地滿足了真實性的要求。而在手工錄入版本中,我們雖然錄入的是正確的漢字,但給每個實際上是錯別字的字都做了標記,看到相應的標記,讀者即可以到電子掃描版本中去查找對應的文字,以考察考生使用漢字的錯誤情況。?

作為一種參照的對比,我們也對一部分(108萬余字,約占全部語料的四分之一)手工錄入的考生作文采取了完全“忠實于原作”的錄入方法,即對考生作文不做任何修改訂正,病句、錯字、別字、繁體字、生造字、格式、標點等均原樣錄入,保持原文原貌。
我們之所以把真實性作為本語料庫的首要原則,目的是要為研究者提供最原始、最準確的研究資料。

2、全面性原則

語料是描寫和研究中介語的基礎,如果語料不完整、不系統(tǒng),那么在此基礎上描寫的中介語就不準確(參見于根元1999/88)。本語料庫將大大超越“漢語中介語語料庫”100萬字的規(guī)模,達到400萬字,以后還將逐步達到1000萬字左右。而且,作為動態(tài)語料庫,隨著考試的不斷進行,語料還會不斷增加,從而為各方面的研究提供廣泛而堅實的基礎。

我們的最終目標是:將歷年HSK高等考試中的作文答卷、包括1992年的試測作文答卷,全部收入語料庫,研究者可以查到自1992年以來的任何一次考試的任何一篇考生作文。

3、平衡性原則

按照全面性原則收入的作文語料,首先將建成一個粗語料庫,存有歷年HSK高等考試中的全部作文的原始語料;在此基礎上,再按照考試時間、考試地點、考生國別、考生序號等幾個角度,隨機抽取相等字數(shù)的語料進行精加工,建成精語料庫。

所謂平衡性原則也就是語料的等量原則,主要指不同國別、不同母語背景的考生的作文數(shù)量及字數(shù)相等。遵循這一原則的好處是,可以為研究者在不同母語背景的漢語學習者之間進行比較分析時提供極大的方便。

4、簡潔性原則

對語料的各種統(tǒng)計分析結果的說明描述,在保證清楚明確的前提下,盡可能簡練。

5、方便性原則

本語料庫界面友好,使用方便。按照語料庫中的使用說明,可以進行各種相關信息的查詢、檢索、統(tǒng)計等。除便于讀者使用外,對后續(xù)語料進行動態(tài)加工處理也是非常方便的。

6、開放性原則

建設本語料庫的根本目的是促進國內乃至全球漢語教學事業(yè)的發(fā)展,為此,我們愿意為廣大漢語教師和研究者提供一個基礎平臺,為對外漢語教學和研究服務。本語料庫建成后將交由國家漢辦提供給對外漢語教學的同行們使用,并在國家漢辦允許的前提下,把它放在北京語言大學科研互動網(wǎng)的網(wǎng)頁上公開展示,供對外漢語教學領域的教師和研究者免費瀏覽、使用(僅限于非商業(yè)目的),也向對漢語教學和對漢語研究感興趣的其他各界人士免費開放(同樣限于非商業(yè)目的)。我們認為,使用本語料庫的人越多,才越能體現(xiàn)我們工作的價值,也才能真正發(fā)揮本語料庫的作用。

五、一些可預見問題的處理方法

1、錯別字的處理

在作為參照的對比的那部分語料中,為了保持語料的真實性,在進行語料錄入時必須“忠實”于原作,保持語料文本的本來面目,所有句子(包括病句)都必須按照原樣錄入,錯別字也必須“將錯就錯”,而不許“改邪歸正”。

別字好辦,錯字則需要利用造字程序進行造字。

如實錄入錯別字可能造成的問題是,在利用計算機軟件對語料進行分詞處理和詞性標注時,遇到錯別字會無法處理或做出錯誤的處理。

我們準備采取的解決方法是,在遇到錯別字時,先錄入正確的字,然后再錄入錯別字并以括號標出:錯字用中括號標示,別字用大括號標示。
例1、罰[]款,表示把“罰款”的“罰”寫成了“”。
例2、追[]求[],表示把“追求”寫成了“”。
例3、個[亻+個]人,表示寫“個人”的“個”時多加了一個“單人旁”。
例4、衛(wèi)[衛(wèi)-一]生,表示寫“衛(wèi)生”的“衛(wèi)”時丟掉了一“橫”。
例5、提{題}高,表示把“提高”的“提”寫成了“題”。
例6、導致{至},表示把“導致”的“致”寫成了“至”。

錄入正確的字是為了保證程序能夠正確地自動分詞和標注詞性;錄入考生的錯別字是為了保持作文原貌。

需要說明的是,括號連同其中的錯別字,都可以通過計算機程序自動刪除,也可以自動恢復。這樣,我們既保留了考生作文的原始面貌,可以對學生的錯別字進行檢索統(tǒng)計,又可以在分詞、標注詞性、以及詞句篇章處理等無需顯示學生的錯別字時,將這些錯誤信息刪除,以便于迅速而順利地進行相關處理。

2、標記符號
[?]:錯字標記,用于標示不成字的字,筆畫部件不完整或多余的字。如:[]款(罰款)、[亻+個]人(個人)。
{?}:別字標記,用于標示把甲字寫成乙字的情況。如:{題}高(提高)、導{至}(導致)、磁器(瓷器)。
{FT}:繁體字標記,用于標示繁體字。如:記憶{FT憶}、營養(yǎng)(FT養(yǎng))。
{PY}:拼音字標記,用于標示以拼音代替漢字的情況。?如:緣{PYyúan}分。
{KQ}:空缺字標記,用于標示空著某字不寫的情況。
{V}:錯誤標點標記,用于標示錯誤的標點符號。如:我家周邊的美麗風景,{?V、}。
{W}:空缺標點標記,用于標示應用標點符號而未用的情況。如:周圍的環(huán)境很安靜{?W,}生活也非常平凡。
{S}:多余標點標記,用于標示不應用標點符號而用了的情況。
{CJ}:病句標記,用于標示錯誤的句子。
{CP}:篇章錯誤標記,用于標示篇章錯誤。

3、分詞與詞性標注

中文信息處理涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務。當前漢語信息處理的主戰(zhàn)場已從“字處理”轉移到“詞處理”。由于中文文本是按句連寫的,詞間無間隙,因而在中文文本處理中,首先遇到的問題是詞的切分問題。按句連寫轉換為按詞連寫,詞的正確切分是進行中文文本處理的必要條件(參見劉開瑛2000/2)。

詞是語言中最小的能獨立運用的單位,利用計算機把漢語的一個句子、一篇文章、一部著作中的單詞,逐一地切分出來,才有可能對漢語進行進一步的分析。……詞是漢語語法和語義研究的中心問題,也是漢語自然語言處理的關鍵問題(參見馮志偉2001/109)。對本語料庫來說,除字處理之外,對詞、句、篇章的處理都要在詞的基礎上進行,因此,分詞在本語料庫的建設中具有十分重大的意義。

理想的分詞系統(tǒng)應該具有廣泛的開放性、較高的通用性和實用性。鑒于漢語的詞與語素及短語的界限不甚分明,以及歧義字段、未登錄詞(包括中外人名、中國地名、機構組織名、事件名、貨幣名、縮略語、派生詞、各種專業(yè)術語以及在不斷發(fā)展和約定俗成的一些新詞語)識別上的困難,以及語綴、動詞重疊形式切分后語義解釋上的困難(參見劉開瑛2000/2,宋柔1997),我們主要采用詞典匹配的方法進行自動分詞,自動標注詞性,然后人工校對;并根據(jù)最終分詞結果補充分詞底庫。根據(jù)初步的試驗性研究,利用我中心現(xiàn)有的8000詞詞庫進行分詞處理,效果還是比較理想的。

存在的問題之一是:學生的詞語錯誤可能會造成分詞及詞性標注的錯誤。例如考生把“世界”寫成了“界世”,“范圍”寫成了“圍范”,“解決”寫成了“決解”,“時間”寫成了“間時”,“惡劣”寫成了“劣惡”,等等。遇到這種情況,分詞程序大概會把它分成兩個詞。一個平行的例子是,清華大學孫茂松在對新華社新聞語料庫XH-CORPUS中的漢語搭配進行計量分析時,由于詞典中沒有“調控”一詞,自動分詞系統(tǒng)因而把“調控能力”切分為“調/控/能力”?(參見黃昌寧、李涓子2002/195)。為了避免此類問題出現(xiàn),借鑒有些校對系統(tǒng)將含有易錯字的詞和詞組作為分詞單位的做法(參見宋柔1997),我們在校對語料時遇到這樣的詞就把它記下來,分詞前輸入詞表,從而保持分詞的正確。這個方法雖然笨一點,但預期可以保證分詞的正確。

4、句法分析
1)斷句
計算機依據(jù)六種標點符號,即:逗號、分號、句號、問號、感嘆號和冒號,自動斷句;并進行人工干預。
2)句法分析
計算機根據(jù)詞性標注,進行動詞謂語句、形容詞謂語句、名詞謂語句、主謂謂語句等基本句型的分析;
根據(jù)關鍵詞進行特殊句式的分析。例如:把字句、被字句、連字句、比字句、有字句、是字句、是……的句,等等。

5、篇章處理
計算機根據(jù)詞性標注及若干定義,進行關聯(lián)詞語的統(tǒng)計分析。
省略分析。

6、軟件編制與調試
語料檢索軟件。符合特定條件的檢索與模糊檢索,主題檢索和全文檢索;各種檢索情況的相關統(tǒng)計。
具有自學習功能的動態(tài)語料庫管理軟件。

六、本語料庫的局限性

1、使不同類型的語料數(shù)量均衡是本語料庫的一個基本原則,是我們努力追求的一個目標,但有些國家的考生很多,有些國家的考生則較少,有些國家的考生甚至很少;因為考生少,所能收入的作文數(shù)量自然有限,因此,所謂“平衡性原則”只能是相對而言的。

2、由于本語料庫主要是利用計算機進行自動分析,因此在句法和篇章方面所能進行的分析以及分析的深度,也是有限的。

*本文得到國家漢辦科研資助,項目批準號:HBK01-05/023。本文曾在北京語言大學漢語水平考試中心的學術活動中交流討論,郭樹軍、張凱、謝小慶等先生的一些意見對筆者頗有啟發(fā),謹此致謝。

參考文獻
儲誠志、陳小荷1993,《建立“漢語中介語語料庫系統(tǒng)”的基本設想》,《世界漢語教學》,第三期
馮志偉2001,《計算語言學基礎》,商務印書館
黃昌寧、李涓子2002,《語料庫語言學》,商務印書館
劉開瑛2000,《中文文本自動分詞和標注》,商務印書館
宋柔1997,《關于分詞規(guī)范的探討》,《語言文字應用》,第三期
于根元(主編)1999,《應用語言學理論綱要》,華語教學出版社

主站蜘蛛池模板: 色多多视频官网| 制服丝袜一区二区三区| 国产白袜脚足j棉袜在线观看| 在线播放真实国产乱子伦| 岛国免费v片在线播放| 性色av无码不卡中文字幕| 把极品白丝班长啪到腿软| 日本卡一卡二新区| 日本人与动zozo| 日本不卡一区二区三区最新| 日本道色综合久久影院| 日韩男人的天堂| 日本不卡高字幕在线2019| 日本三级s电影| 无码综合天天久久综合网| 无码人妻久久一区二区三区免费| 日本高清乱理论片| 无遮挡很污很爽很黄的网站| 无码成人AAAAA毛片| 性xxxxfreexxxxx喷水欧美| 嫩小xxxxx性bbbbb孕妇| 天天碰免费视频| 国产韩国精品一区二区三区| 国产精品青青青高清在线| 国产精品999| 国产午夜福利久久精品| 国产aⅴ激情无码久久| 午夜不卡av免费| 亚洲精品无码mv在线观看网站| 亚洲欧美日韩网站| 亚洲AV无码AV吞精久久| 久久五月天婷婷| 一本大道道无香蕉综合在线| dy8888影院午夜看片| 六月婷婷中文字幕| 蜜臀精品国产高清在线观看| 精品国产免费一区二区三区| 污片在线观看网站| 日韩欧美亚洲一区二区综合| 性色av一区二区三区| 国产精品视频铁牛tv|