淺談中文信息處理與現(xiàn)代漢語(yǔ)語(yǔ)法
時(shí)間:
若木1由 分享
論文關(guān)鍵詞:中文信息處理 現(xiàn)代漢語(yǔ)語(yǔ)法 句處理
論文摘要:用計(jì)算機(jī)來(lái)處理漢語(yǔ)信息包括“字處理”、“詞處理”和“句處理”三個(gè)階段。“句處理”是實(shí)現(xiàn)自然語(yǔ)言的處理與理解這一關(guān)鍵性的技術(shù)難關(guān)。其中遇到的問(wèn)題比較多:詞性的判斷;短語(yǔ)、句子的結(jié)構(gòu)分析;歧義現(xiàn)象分析等等,最根本的方法是語(yǔ)言學(xué)家盡可能地把語(yǔ)言中的這些現(xiàn)象通過(guò)歸納、分析、總結(jié)出規(guī)律,再用形式化的方式描述出來(lái),以便利于計(jì)算機(jī)處理。
用計(jì)算機(jī)來(lái)處理漢語(yǔ)信息,就是漢語(yǔ)信息處理,又稱中文信息處理。中文信息處理包括“字處理”、“詞處理”和“句處理”。“字處理”、“詞處理”分別與漢字和詞匯有關(guān),在此主要談?wù)?ldquo;句處理”。
句處理的主要內(nèi)容是,怎樣使計(jì)算機(jī)理解自然語(yǔ)言(如現(xiàn)代漢語(yǔ))的句子的意思,又怎樣使計(jì)算機(jī)生成符合自然語(yǔ)言規(guī)則的句子。“句處理”所需要的語(yǔ)言知識(shí),將是一種涉及到語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用等諸方面的綜合性知識(shí)。目前。大家都深感現(xiàn)有的關(guān)于漢語(yǔ)的知識(shí)遠(yuǎn)遠(yuǎn)不能滿足中文句處理的需要。單就句法方面的情況說(shuō)。在中文信息處理過(guò)程中將會(huì)不斷遇到我們想象不到的問(wèn)題,許多問(wèn)題在人看來(lái)還是比較容易解決的,但計(jì)算機(jī)就解決不了。也有一些問(wèn)題,本身在學(xué)術(shù)界就有不同的觀點(diǎn),那么,就給中文信息處理增加了更大的困難。
用計(jì)算機(jī)來(lái)處理中文信息,遇到了很多困難,從現(xiàn)代漢語(yǔ)語(yǔ)法的角度來(lái)看,主要有以下一些問(wèn)題:
一、詞性的判斷
由于漢語(yǔ)缺乏形態(tài)。漢語(yǔ)的詞性判斷主要是根據(jù)詞的語(yǔ)法功能,不同的詞,詞性意義可能不同,同一個(gè)詞出現(xiàn)在不同的地方,詞性意義也可能不同,漢語(yǔ)中,大多數(shù)詞有固定的詞性,但有些詞的用法比較特殊。例如:
1.他花了十塊錢(qián)買(mǎi)了一盆花。
2.你用那個(gè)鎖把門(mén)鎖上。
3.他比雷鋒還雷鋒。
這三個(gè)句子中分別有兩個(gè)“花”、“鎖”、“雷鋒”。但它們只是音同、形同,詞性和意義都不同。句子1中的第一個(gè)“花”是動(dòng)詞,“花費(fèi)”的意思,第二個(gè)“花”是名詞,“植物”的意思。句子2中的第一個(gè)“鎖”是名詞,即“鎖子”的意思,第二個(gè)“鎖”是動(dòng)詞,是“鎖住”的意思。句子3中第一個(gè)“雷鋒”是名詞,表示人名,第二個(gè)“雷鋒”是形容詞,表示“雷鋒的精神、品質(zhì)等”。具有一定語(yǔ)言知識(shí)的人大體上都能分清它們的區(qū)別。從傳統(tǒng)語(yǔ)言教學(xué)的角度來(lái)講,句子1中的兩個(gè)“花”是詞形、讀音相同,但詞性和意思都不一樣,且兩個(gè)“花”的意思之間沒(méi)有聯(lián)系,所以屬于同音詞。句子2中的兩個(gè)“鎖”,也是詞形、讀音相同,詞性和意思都不一樣,但兩個(gè)“鎖”意思間有聯(lián)系,所以屬于兼類詞。句子3中的兩個(gè)“雷鋒”詞形、讀音相同,詞性和意思都不一樣,意思也有聯(lián)系,但第二個(gè)“雷鋒”屬于詞類活用。Ⅲ從教學(xué)的角度看,這種分類比較細(xì)致,便于人們的理解和掌握,但是,從中文信息處理的角度來(lái)看,這種分法太細(xì),不便于計(jì)算機(jī)掌握。
目前,在中文信息處理中,是這樣來(lái)定義兼類詞的:亢世勇認(rèn)為“兼類詞有廣義兼類詞和狹義兼類詞。廣義兼類詞就是中文信息處理中所說(shuō)的現(xiàn)代漢語(yǔ)的同形詞,對(duì)于計(jì)算機(jī)而言,只要詞形相同,不管讀音是否相同、意義是否相通,是同形異音詞、同形同音詞,還是一詞多義、一詞多種用法,都是相同的,都要從多個(gè)當(dāng)中選一個(gè)。狹義的兼類詞就是指一般的現(xiàn)代漢語(yǔ)著作定義的,‘同形同音、意義上有一定的聯(lián)系,且具有兩類或兩類以上詞的語(yǔ)法功能的詞”’。陸儉明認(rèn)為,兼類詞是“指同字形、同音而意義不同或詞性不同的詞”。如果按這種定義理解,以上三個(gè)句子中的兩個(gè)“花”、“鎖”、“雷鋒”都可以稱之為兼類詞。因?yàn)?,中文信息處理的目的是讓?jì)算機(jī)能根據(jù)具體環(huán)境判斷出詞的詞性,從而準(zhǔn)確理解其中的含義就可以了。盡管如此,但是,漢語(yǔ)詞類是多功能的,一類詞不需要發(fā)生詞形變化就可以充當(dāng)不同的句子成分,不同類的詞可以充當(dāng)相同的句子成分,這樣就給兼類詞區(qū)分帶來(lái)了更多的麻煩。因而,兼類詞的選擇是計(jì)算機(jī)詞性自動(dòng)標(biāo)注的一個(gè)“瓶頸”。盡管信息處理專家運(yùn)用了規(guī)則排歧、統(tǒng)計(jì)概率排歧或者兩者結(jié)合起來(lái)等多種方法進(jìn)行排歧,但到目前為止,還沒(méi)有一種方法、一種系統(tǒng)能夠徹底解決這個(gè)問(wèn)題。
二、短語(yǔ)、句子的結(jié)構(gòu)分析
由于漢語(yǔ)缺乏形態(tài)。所以。語(yǔ)序和虛詞成了漢語(yǔ)中表示語(yǔ)法的主要手段。有些短語(yǔ)、句子的結(jié)構(gòu)不好理解,需要形式和意義結(jié)合起來(lái)分析。例如:
A組:a。陜西+甘肅+寧夏 (“陜西+甘肅+寧夏”三者為聯(lián)合關(guān)系)
b.中國(guó)+(北京+陜西)(“中國(guó)”與“北京陜西”是偏正關(guān)系.“北京”與“陜西”是聯(lián)合關(guān)系)
C.中國(guó)(陜西(西安))(“中國(guó)”與“陜西西安”是偏正關(guān)系,“陜西”與“西安”也是偏正關(guān)系)這一組中的abe三個(gè)短語(yǔ)對(duì)人來(lái)說(shuō),都很容易分清楚,但計(jì)算機(jī)目前還很難區(qū)分,要讓計(jì)算機(jī)分辨清楚,就得把三個(gè)處所名詞組合在一起構(gòu)成a類、b類、e類不同關(guān)系的條件與規(guī)則研究清楚,并將這些條件與規(guī)則加以形式化輸入到計(jì)算機(jī)內(nèi)。
B組:開(kāi)始討論(述賓關(guān)系)分析研究(聯(lián)合關(guān)系)研究結(jié)束(主謂關(guān)系)
取下來(lái)(述補(bǔ)關(guān)系) 看完再說(shuō)(連謂關(guān)系) 叫他回來(lái)(兼語(yǔ)關(guān)系)
生產(chǎn)管理(定中關(guān)系) 諷刺說(shuō)(狀中關(guān)系) 介紹寫(xiě)(不構(gòu)成合法的句法關(guān)系)
這組是現(xiàn)代漢語(yǔ)里“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構(gòu)成的種種不同的結(jié)構(gòu)關(guān)系,對(duì)人來(lái)說(shuō),通過(guò)講解大致可以分辨,可是讓計(jì)算機(jī)要分清楚,就非常難,因?yàn)槲覀冎两襁€沒(méi)有總結(jié)出“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構(gòu)成各種不同句法關(guān)系的具體規(guī)則。換句話說(shuō),“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”在什么條件下一定構(gòu)成合法的什么句法關(guān)系,能構(gòu)成什么樣不同的句法關(guān)系,我們至今還說(shuō)不清楚。
C組:天氣好——好天氣(主謂——偏正)很好——好得很(偏正——述補(bǔ))
來(lái)人了。——人來(lái)了。(述賓——主謂)
一張票三元錢(qián)。——三元錢(qián)一張票。(主謂——主謂)這一組都是由于語(yǔ)序的不同而形成的結(jié)構(gòu)和意義都不同的短語(yǔ)和句子。這些結(jié)構(gòu)對(duì)人而言,稍加學(xué)習(xí)就可以理解,但這些給計(jì)算機(jī)理解意思增加了難度。需要人們把這些語(yǔ)序的變化形成的不同的結(jié)構(gòu)概括出規(guī)律來(lái),再用形式化的方式描述出來(lái)。輸入到計(jì)算機(jī)里。
論文摘要:用計(jì)算機(jī)來(lái)處理漢語(yǔ)信息包括“字處理”、“詞處理”和“句處理”三個(gè)階段。“句處理”是實(shí)現(xiàn)自然語(yǔ)言的處理與理解這一關(guān)鍵性的技術(shù)難關(guān)。其中遇到的問(wèn)題比較多:詞性的判斷;短語(yǔ)、句子的結(jié)構(gòu)分析;歧義現(xiàn)象分析等等,最根本的方法是語(yǔ)言學(xué)家盡可能地把語(yǔ)言中的這些現(xiàn)象通過(guò)歸納、分析、總結(jié)出規(guī)律,再用形式化的方式描述出來(lái),以便利于計(jì)算機(jī)處理。
用計(jì)算機(jī)來(lái)處理漢語(yǔ)信息,就是漢語(yǔ)信息處理,又稱中文信息處理。中文信息處理包括“字處理”、“詞處理”和“句處理”。“字處理”、“詞處理”分別與漢字和詞匯有關(guān),在此主要談?wù)?ldquo;句處理”。
句處理的主要內(nèi)容是,怎樣使計(jì)算機(jī)理解自然語(yǔ)言(如現(xiàn)代漢語(yǔ))的句子的意思,又怎樣使計(jì)算機(jī)生成符合自然語(yǔ)言規(guī)則的句子。“句處理”所需要的語(yǔ)言知識(shí),將是一種涉及到語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用等諸方面的綜合性知識(shí)。目前。大家都深感現(xiàn)有的關(guān)于漢語(yǔ)的知識(shí)遠(yuǎn)遠(yuǎn)不能滿足中文句處理的需要。單就句法方面的情況說(shuō)。在中文信息處理過(guò)程中將會(huì)不斷遇到我們想象不到的問(wèn)題,許多問(wèn)題在人看來(lái)還是比較容易解決的,但計(jì)算機(jī)就解決不了。也有一些問(wèn)題,本身在學(xué)術(shù)界就有不同的觀點(diǎn),那么,就給中文信息處理增加了更大的困難。
用計(jì)算機(jī)來(lái)處理中文信息,遇到了很多困難,從現(xiàn)代漢語(yǔ)語(yǔ)法的角度來(lái)看,主要有以下一些問(wèn)題:
一、詞性的判斷
由于漢語(yǔ)缺乏形態(tài)。漢語(yǔ)的詞性判斷主要是根據(jù)詞的語(yǔ)法功能,不同的詞,詞性意義可能不同,同一個(gè)詞出現(xiàn)在不同的地方,詞性意義也可能不同,漢語(yǔ)中,大多數(shù)詞有固定的詞性,但有些詞的用法比較特殊。例如:
1.他花了十塊錢(qián)買(mǎi)了一盆花。
2.你用那個(gè)鎖把門(mén)鎖上。
3.他比雷鋒還雷鋒。
這三個(gè)句子中分別有兩個(gè)“花”、“鎖”、“雷鋒”。但它們只是音同、形同,詞性和意義都不同。句子1中的第一個(gè)“花”是動(dòng)詞,“花費(fèi)”的意思,第二個(gè)“花”是名詞,“植物”的意思。句子2中的第一個(gè)“鎖”是名詞,即“鎖子”的意思,第二個(gè)“鎖”是動(dòng)詞,是“鎖住”的意思。句子3中第一個(gè)“雷鋒”是名詞,表示人名,第二個(gè)“雷鋒”是形容詞,表示“雷鋒的精神、品質(zhì)等”。具有一定語(yǔ)言知識(shí)的人大體上都能分清它們的區(qū)別。從傳統(tǒng)語(yǔ)言教學(xué)的角度來(lái)講,句子1中的兩個(gè)“花”是詞形、讀音相同,但詞性和意思都不一樣,且兩個(gè)“花”的意思之間沒(méi)有聯(lián)系,所以屬于同音詞。句子2中的兩個(gè)“鎖”,也是詞形、讀音相同,詞性和意思都不一樣,但兩個(gè)“鎖”意思間有聯(lián)系,所以屬于兼類詞。句子3中的兩個(gè)“雷鋒”詞形、讀音相同,詞性和意思都不一樣,意思也有聯(lián)系,但第二個(gè)“雷鋒”屬于詞類活用。Ⅲ從教學(xué)的角度看,這種分類比較細(xì)致,便于人們的理解和掌握,但是,從中文信息處理的角度來(lái)看,這種分法太細(xì),不便于計(jì)算機(jī)掌握。
目前,在中文信息處理中,是這樣來(lái)定義兼類詞的:亢世勇認(rèn)為“兼類詞有廣義兼類詞和狹義兼類詞。廣義兼類詞就是中文信息處理中所說(shuō)的現(xiàn)代漢語(yǔ)的同形詞,對(duì)于計(jì)算機(jī)而言,只要詞形相同,不管讀音是否相同、意義是否相通,是同形異音詞、同形同音詞,還是一詞多義、一詞多種用法,都是相同的,都要從多個(gè)當(dāng)中選一個(gè)。狹義的兼類詞就是指一般的現(xiàn)代漢語(yǔ)著作定義的,‘同形同音、意義上有一定的聯(lián)系,且具有兩類或兩類以上詞的語(yǔ)法功能的詞”’。陸儉明認(rèn)為,兼類詞是“指同字形、同音而意義不同或詞性不同的詞”。如果按這種定義理解,以上三個(gè)句子中的兩個(gè)“花”、“鎖”、“雷鋒”都可以稱之為兼類詞。因?yàn)?,中文信息處理的目的是讓?jì)算機(jī)能根據(jù)具體環(huán)境判斷出詞的詞性,從而準(zhǔn)確理解其中的含義就可以了。盡管如此,但是,漢語(yǔ)詞類是多功能的,一類詞不需要發(fā)生詞形變化就可以充當(dāng)不同的句子成分,不同類的詞可以充當(dāng)相同的句子成分,這樣就給兼類詞區(qū)分帶來(lái)了更多的麻煩。因而,兼類詞的選擇是計(jì)算機(jī)詞性自動(dòng)標(biāo)注的一個(gè)“瓶頸”。盡管信息處理專家運(yùn)用了規(guī)則排歧、統(tǒng)計(jì)概率排歧或者兩者結(jié)合起來(lái)等多種方法進(jìn)行排歧,但到目前為止,還沒(méi)有一種方法、一種系統(tǒng)能夠徹底解決這個(gè)問(wèn)題。
二、短語(yǔ)、句子的結(jié)構(gòu)分析
由于漢語(yǔ)缺乏形態(tài)。所以。語(yǔ)序和虛詞成了漢語(yǔ)中表示語(yǔ)法的主要手段。有些短語(yǔ)、句子的結(jié)構(gòu)不好理解,需要形式和意義結(jié)合起來(lái)分析。例如:
A組:a。陜西+甘肅+寧夏 (“陜西+甘肅+寧夏”三者為聯(lián)合關(guān)系)
b.中國(guó)+(北京+陜西)(“中國(guó)”與“北京陜西”是偏正關(guān)系.“北京”與“陜西”是聯(lián)合關(guān)系)
C.中國(guó)(陜西(西安))(“中國(guó)”與“陜西西安”是偏正關(guān)系,“陜西”與“西安”也是偏正關(guān)系)這一組中的abe三個(gè)短語(yǔ)對(duì)人來(lái)說(shuō),都很容易分清楚,但計(jì)算機(jī)目前還很難區(qū)分,要讓計(jì)算機(jī)分辨清楚,就得把三個(gè)處所名詞組合在一起構(gòu)成a類、b類、e類不同關(guān)系的條件與規(guī)則研究清楚,并將這些條件與規(guī)則加以形式化輸入到計(jì)算機(jī)內(nèi)。
B組:開(kāi)始討論(述賓關(guān)系)分析研究(聯(lián)合關(guān)系)研究結(jié)束(主謂關(guān)系)
取下來(lái)(述補(bǔ)關(guān)系) 看完再說(shuō)(連謂關(guān)系) 叫他回來(lái)(兼語(yǔ)關(guān)系)
生產(chǎn)管理(定中關(guān)系) 諷刺說(shuō)(狀中關(guān)系) 介紹寫(xiě)(不構(gòu)成合法的句法關(guān)系)
這組是現(xiàn)代漢語(yǔ)里“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構(gòu)成的種種不同的結(jié)構(gòu)關(guān)系,對(duì)人來(lái)說(shuō),通過(guò)講解大致可以分辨,可是讓計(jì)算機(jī)要分清楚,就非常難,因?yàn)槲覀冎两襁€沒(méi)有總結(jié)出“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構(gòu)成各種不同句法關(guān)系的具體規(guī)則。換句話說(shuō),“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”在什么條件下一定構(gòu)成合法的什么句法關(guān)系,能構(gòu)成什么樣不同的句法關(guān)系,我們至今還說(shuō)不清楚。
C組:天氣好——好天氣(主謂——偏正)很好——好得很(偏正——述補(bǔ))
來(lái)人了。——人來(lái)了。(述賓——主謂)
一張票三元錢(qián)。——三元錢(qián)一張票。(主謂——主謂)這一組都是由于語(yǔ)序的不同而形成的結(jié)構(gòu)和意義都不同的短語(yǔ)和句子。這些結(jié)構(gòu)對(duì)人而言,稍加學(xué)習(xí)就可以理解,但這些給計(jì)算機(jī)理解意思增加了難度。需要人們把這些語(yǔ)序的變化形成的不同的結(jié)構(gòu)概括出規(guī)律來(lái),再用形式化的方式描述出來(lái)。輸入到計(jì)算機(jī)里。