亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

論文范文

論述規(guī)則和統(tǒng)計(jì)相結(jié)合的句法分析一致性檢驗(yàn)論文

時(shí)間:2022-10-09 09:43:23 論文范文 我要投稿
  • 相關(guān)推薦

論述規(guī)則和統(tǒng)計(jì)相結(jié)合的句法分析一致性檢驗(yàn)論文

  句法分析就是對(duì)詞語(yǔ)的語(yǔ)法功能和句子的結(jié)構(gòu)進(jìn)行分析。句法分析的研究方向通常是依據(jù)一個(gè)大規(guī)模的句法分析樹(shù)庫(kù),通過(guò)分析研究,建立統(tǒng)計(jì)模型。如果句法樹(shù)庫(kù)的準(zhǔn)確率不高,將會(huì)降低句法樹(shù)庫(kù)模型的學(xué)習(xí)效果,進(jìn)而影響自動(dòng)標(biāo)注句法分析結(jié)果的質(zhì)量。目前出現(xiàn)的漢語(yǔ)句法分析自動(dòng)標(biāo)注的模型較多,但是完全句法分析自動(dòng)標(biāo)注的準(zhǔn)確率不是太理想,為了構(gòu)建高質(zhì)量的大規(guī)模樹(shù)庫(kù),需要投入大量的人工和時(shí)間。通過(guò)遍歷完全句法分析樹(shù)庫(kù)發(fā)現(xiàn),人工標(biāo)注結(jié)果存在的不一致現(xiàn)象非常普遍。為了提高句法樹(shù)庫(kù)質(zhì)量,本文采用的方法是通過(guò)分析標(biāo)注錯(cuò)誤的現(xiàn)象,編寫(xiě)規(guī)則和建立統(tǒng)計(jì)模型,自動(dòng)查找標(biāo)注錯(cuò)誤的地方,對(duì)于單個(gè)標(biāo)注錯(cuò)誤的地方自動(dòng)修正。

論述規(guī)則和統(tǒng)計(jì)相結(jié)合的句法分析一致性檢驗(yàn)論文

  國(guó)外許多研究者在建立句法分析模型方面做出了很多探索。斯坦福大學(xué)的Roger Levy等人提出了分析漢語(yǔ)語(yǔ)料的困難,他們通過(guò)分析漢語(yǔ)語(yǔ)料庫(kù)發(fā)現(xiàn),一些類(lèi)型的標(biāo)注錯(cuò)誤是由于漢語(yǔ)語(yǔ)法內(nèi)在的歧義引起的。有些錯(cuò)誤是標(biāo)注經(jīng)驗(yàn)導(dǎo)致的。通過(guò)最大似然估計(jì)PCFG特征模型,能夠提高句法分析的準(zhǔn)確率。針對(duì)漢語(yǔ)樹(shù)庫(kù)完全句法分析一致性檢驗(yàn)的研究,目前國(guó)內(nèi)不是太多,較多的是關(guān)于句法分析自動(dòng)標(biāo)注的解決方法。詹衛(wèi)東等人分析句法格式,總結(jié)了很多句法結(jié)構(gòu)歧義類(lèi)型,分析特征,并通過(guò)檢查樹(shù)庫(kù)統(tǒng)計(jì)了典型類(lèi)型的數(shù)量。魏莉等人分析完全句法分析語(yǔ)料庫(kù),探索分詞標(biāo)注、詞性標(biāo)注和句法結(jié)構(gòu)標(biāo)注三個(gè)方面的錯(cuò)誤現(xiàn)象,發(fā)現(xiàn)并修正。這些研究方法對(duì)于句法分析一致性檢驗(yàn)有很好的借鑒作用。

  本文采用的方法是選擇完全句法分析樹(shù)庫(kù)的部分語(yǔ)料進(jìn)行研究,分析標(biāo)注錯(cuò)誤的現(xiàn)象,從單個(gè)句法分析標(biāo)記不一致和句法分析層次結(jié)構(gòu)標(biāo)注不一致的現(xiàn)象中學(xué)習(xí),使用基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法檢查發(fā)現(xiàn)不一致問(wèn)題,并通過(guò)人工或機(jī)器自動(dòng)修正。

  一、完全句法分析不一致現(xiàn)象

  遍歷完全句法樹(shù)庫(kù),通過(guò)分析發(fā)現(xiàn),可以總結(jié)為兩種類(lèi)型的不一致現(xiàn)象,一種是單個(gè)的句法標(biāo)記,另一種是句法結(jié)構(gòu)標(biāo)注。完全句法分析樹(shù)庫(kù)中的標(biāo)注一般有兩類(lèi),功能標(biāo)記和結(jié)構(gòu)標(biāo)記。功能標(biāo)注主要是分析句法成分的組合關(guān)系。結(jié)構(gòu)標(biāo)記主要是體現(xiàn)句子的語(yǔ)義關(guān)系。

  引起人工標(biāo)注的完全句法分析語(yǔ)料庫(kù)不一致現(xiàn)象的原因有很多,包括標(biāo)注者對(duì)標(biāo)記的理解程度,標(biāo)注經(jīng)驗(yàn),以及標(biāo)注的專(zhuān)注程度。由于參與構(gòu)建大規(guī)模句法樹(shù)庫(kù)的人員眾多,理解方式的不一致很容易引起標(biāo)注不一致。不同標(biāo)注者可能發(fā)生標(biāo)注不一致,同一標(biāo)注者可能標(biāo)注前后不一致。因此很有必要通過(guò)機(jī)器進(jìn)行檢查,修正這些現(xiàn)象,提高完全句法樹(shù)庫(kù)的準(zhǔn)確率。

  (一)單個(gè)句法分析標(biāo)記標(biāo)注不一致

  對(duì)于人工標(biāo)注的標(biāo)記符號(hào)錯(cuò)誤的地方,可以直接設(shè)計(jì)算法,抽取所有標(biāo)記一一和標(biāo)記庫(kù)進(jìn)行對(duì)比。完全句法分析樹(shù)庫(kù)的兩種標(biāo)記功能標(biāo)記和結(jié)構(gòu)標(biāo)記都有可能出現(xiàn)標(biāo)注不一致現(xiàn)象。通過(guò)遍歷樹(shù)庫(kù)發(fā)現(xiàn)不一致,并進(jìn)行分析。

  由于漢語(yǔ)中有很多兼類(lèi)詞,因此會(huì)出現(xiàn)同一詞匯標(biāo)注的詞性不一樣,進(jìn)而功能標(biāo)記和結(jié)構(gòu)標(biāo)記都會(huì)發(fā)生變化。例如短語(yǔ)“臨出發(fā)”“陸”是一個(gè)兼類(lèi)詞。臨這個(gè)字在語(yǔ)料中出現(xiàn)了標(biāo)注不一致現(xiàn)象,一種標(biāo)注為動(dòng)詞,相應(yīng)為述賓結(jié)構(gòu),動(dòng)詞性短語(yǔ);另一種標(biāo)注為介詞,相應(yīng)為介賓結(jié)構(gòu),介詞短語(yǔ)。按照漢語(yǔ)語(yǔ)法“陸”放置在動(dòng)詞“出發(fā)”前,應(yīng)該理解為做介詞用。因此正確的標(biāo)注應(yīng)該是介詞,介賓結(jié)構(gòu),介詞短語(yǔ)?梢(jiàn),兼類(lèi)詞是檢查的重點(diǎn),詞性標(biāo)注錯(cuò)誤可能會(huì)導(dǎo)致功能標(biāo)記和結(jié)構(gòu)標(biāo)記標(biāo)注錯(cuò)誤。

  (二)句法分析結(jié)構(gòu)標(biāo)注不一致

  完全句法分析與淺層句法分析不同,分析標(biāo)注的是整個(gè)句子的結(jié)構(gòu)關(guān)系。各個(gè)詞語(yǔ)之間的層次關(guān)系可能會(huì)出現(xiàn)組合順序的不一致。特別是嵌套的句法結(jié)構(gòu),很容易有歧義。

  例如短語(yǔ)“喜歡說(shuō)話(huà)的女孩”?梢杂袃煞N理解。一種是描述一個(gè)女孩她喜歡說(shuō)話(huà),理解為“喜歡說(shuō)話(huà)”是用來(lái)修飾“女孩”的,此短語(yǔ)整體看是定中結(jié)構(gòu)。另一種可能是某人喜歡的是說(shuō)話(huà)的女孩,而不是沒(méi)說(shuō)話(huà)的女孩,僅“說(shuō)話(huà)”這個(gè)詞修飾“女孩”,此短語(yǔ)整體看述賓結(jié)構(gòu)。

  可見(jiàn),不同的理解句法分析標(biāo)注的結(jié)構(gòu)會(huì)出現(xiàn)不一致的現(xiàn)象。這就需要根據(jù)上下文語(yǔ)境,判斷應(yīng)該是哪種標(biāo)注結(jié)果。

  二、完全句法分析一致性檢驗(yàn)策略

  完全句法分析一致性檢驗(yàn)的目的是發(fā)現(xiàn)不一致現(xiàn)象,并修正錯(cuò)誤的句法分析標(biāo)注。引起不一致的原因是多元的,但是可以歸結(jié)為以上兩種,通過(guò)分析這些錯(cuò)誤標(biāo)注的不一致現(xiàn)象,我們發(fā)現(xiàn)需要選用不同的檢查方式來(lái)處理。

  (一)基于錯(cuò)誤驅(qū)動(dòng)的單個(gè)標(biāo)記不一致校驗(yàn)

  針對(duì)單個(gè)句法分析標(biāo)注不一致的問(wèn)題,可以使用基于錯(cuò)誤驅(qū)動(dòng)的方法來(lái)發(fā)現(xiàn)不一致現(xiàn)象并修正。錯(cuò)誤驅(qū)動(dòng)的方法是指分析提取錯(cuò)誤標(biāo)注的特征,編寫(xiě)相應(yīng)的轉(zhuǎn)換規(guī)則,使用規(guī)則去檢查整個(gè)語(yǔ)料,自動(dòng)發(fā)現(xiàn)錯(cuò)誤標(biāo)注現(xiàn)象,并進(jìn)行修正。單個(gè)句法分析標(biāo)注的問(wèn)題是結(jié)構(gòu)標(biāo)記和功能標(biāo)記標(biāo)注不同引起的。修改單個(gè)句法分析標(biāo)注并不影響句法結(jié)構(gòu)層次的變化,可以使用句法標(biāo)記規(guī)則統(tǒng)一修改。

  具體的操作步驟可以通過(guò)一個(gè)例子進(jìn)行觀察。例如“陸出發(fā)”這個(gè)短語(yǔ),他是介詞加動(dòng)詞的結(jié)構(gòu),檢查上述結(jié)構(gòu)類(lèi)型的句法和功能標(biāo)記的標(biāo)注問(wèn)題。當(dāng)遍歷句法分析樹(shù)庫(kù)時(shí),如果發(fā)現(xiàn)有標(biāo)錯(cuò)的現(xiàn)象,即介詞加動(dòng)詞的結(jié)構(gòu),但沒(méi)有被標(biāo)注成介詞短語(yǔ),介賓結(jié)構(gòu),就可以針對(duì)錯(cuò)誤的標(biāo)記,通過(guò)錯(cuò)誤轉(zhuǎn)化方法,使用規(guī)則檢查并修改成正確的標(biāo)記。用這個(gè)規(guī)則去檢查其他的標(biāo)注錯(cuò)誤現(xiàn)象并自動(dòng)修正。此方法可以歸納為三個(gè)步驟:找到錯(cuò)誤,編寫(xiě)規(guī)則和修正錯(cuò)誤。

  (二)句法分析結(jié)構(gòu)標(biāo)注不一致校驗(yàn)策略

  完全句法分析剖析的是整個(gè)句子的結(jié)構(gòu)。僅僅基于規(guī)則的句法標(biāo)注檢查是不可靠的,基于大規(guī)模語(yǔ)料的統(tǒng)計(jì)的方法更為有效。張浩等人也是通過(guò)分析語(yǔ)境,選用中心詞作為切入點(diǎn),建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周強(qiáng)等人也提出通過(guò)分析句法結(jié)構(gòu)中組合的先后次序,使用概論統(tǒng)計(jì)模型來(lái)判斷句法分析標(biāo)注結(jié)果,使得句法分析的準(zhǔn)確率得到提高。針對(duì)本文探索的問(wèn)題,如何判斷句法分析標(biāo)注的層次標(biāo)注問(wèn)題也是需要分析語(yǔ)境,根據(jù)句子的語(yǔ)義,詞語(yǔ)之間的關(guān)系,分析詞語(yǔ)是如何組成短語(yǔ),短語(yǔ)是如何組成句子的。針對(duì)句子層次結(jié)構(gòu)組合的不一致不可能通過(guò)規(guī)則的方法修正,但是可以通過(guò)建立統(tǒng)計(jì)概率模型,發(fā)現(xiàn)可能出現(xiàn)句法層次結(jié)構(gòu)標(biāo)注錯(cuò)誤的地方,然后進(jìn)行人工修正,這樣節(jié)省了時(shí)間和人力。

  句法層次結(jié)構(gòu)和句中詞語(yǔ)之間的緊密程度有關(guān)。句中的某一個(gè)詞語(yǔ)是先和左邊的詞語(yǔ)結(jié)合,還是先和右邊的詞語(yǔ)結(jié)合,這是一個(gè)二選其一的問(wèn)題,除了句子的首個(gè)詞語(yǔ)和末尾詞語(yǔ)。我們通常認(rèn)為,在語(yǔ)境相同的情況下應(yīng)該有相同的結(jié)合順序。對(duì)于大規(guī)模完全句法樹(shù)庫(kù),我們可以利用分類(lèi)的方法,支持向量機(jī)(SVM)來(lái)解決。核函數(shù)可以選擇高斯核函數(shù)。

  建立概率統(tǒng)計(jì)模型,需要選擇特征作為判斷的依據(jù)。完全句法分析樹(shù)庫(kù)的基層標(biāo)注信息是分詞和詞性。Dan Klein等人提出了非詞匯的PCFG模型,取得的句法分析效果也較詞匯化模型更簡(jiǎn)單?梢(jiàn),詞語(yǔ)即詞的外部形態(tài)千變?nèi)f化,不容易把握規(guī)律。但是詞性的標(biāo)記卻能反映詞語(yǔ)內(nèi)在的功能,影響功能標(biāo)注和語(yǔ)法標(biāo)注的結(jié)果。針對(duì)句法分析中左右組合的問(wèn)題,可以通過(guò)核心詞語(yǔ)及待判斷詞語(yǔ)它的詞性及其上下文詞性環(huán)境來(lái)做出統(tǒng)計(jì),建立特征模型。

  首先要界定語(yǔ)境的范圍,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)選用前后四個(gè)詞語(yǔ)進(jìn)行統(tǒng)計(jì)時(shí),計(jì)算的空間和時(shí)間代價(jià)比較合適。然后遍歷完全句法分析樹(shù)庫(kù),通過(guò)概論統(tǒng)計(jì)的方法,計(jì)算這些詞語(yǔ)的詞性和詞語(yǔ)轉(zhuǎn)移概率,這樣可以看出詞語(yǔ)間優(yōu)先組合的頻率。訓(xùn)練數(shù)據(jù)得到后,將核函數(shù)引入,通過(guò)參數(shù)的調(diào)節(jié),尋找一個(gè)超平面將高維空間分割成兩半。用這個(gè)訓(xùn)練得到的結(jié)果再去分析測(cè)試語(yǔ)料,就可以給出左右結(jié)合的判斷結(jié)果。如果樹(shù)庫(kù)語(yǔ)料的組合結(jié)果與概率模型的統(tǒng)計(jì)結(jié)果不一致,就需要人工進(jìn)行判斷,進(jìn)而修正標(biāo)注。

  三、結(jié)論

  我們對(duì)10000句完全句法分析樹(shù)庫(kù)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果顯示,單個(gè)句法分析標(biāo)注不一致的現(xiàn)象占到整個(gè)檢測(cè)結(jié)果的31%,句法分析結(jié)構(gòu)標(biāo)注不一致的現(xiàn)象占到69%。句法分析不一致檢查的準(zhǔn)確率為87.6%,召回率為94.8%。

  關(guān)于準(zhǔn)確率的問(wèn)題,通過(guò)分析發(fā)現(xiàn)主要是有兩方面原因。針對(duì)單個(gè)句法分析標(biāo)注不一致的問(wèn)題,使用的修正規(guī)則中有些是不適用的,有些問(wèn)題不能一刀切。針對(duì)句法分析結(jié)構(gòu)標(biāo)注不一致的檢查,我建立的統(tǒng)計(jì)概率模型考慮的特征還不夠多,沒(méi)能真正反映左右組合的規(guī)律。需要進(jìn)行深入反復(fù)的研究實(shí)驗(yàn)。

  召回率的結(jié)果反映出,單個(gè)句法分析標(biāo)注和句法分析結(jié)構(gòu)標(biāo)注的問(wèn)題確實(shí)是不一致現(xiàn)象的根源,通過(guò)錯(cuò)誤驅(qū)動(dòng)的方法和概率統(tǒng)計(jì)模型的方法能較好地完成檢查不一致的任務(wù),對(duì)于單個(gè)句法標(biāo)記的問(wèn)題可以查找并自動(dòng)修正,但是對(duì)于句法分析結(jié)構(gòu)問(wèn)題仍需要人工修正。

  為了構(gòu)建高質(zhì)量的完全句法分析樹(shù)庫(kù),進(jìn)行句法分析的一致性檢查是一項(xiàng)必要的工作。如果樹(shù)庫(kù)存在大量的不一致現(xiàn)象,必然影響完全句法自動(dòng)分析器的訓(xùn)練效果。針對(duì)漢語(yǔ)的語(yǔ)言現(xiàn)象進(jìn)行句法分析是一項(xiàng)較難的課題,由于漢語(yǔ)的語(yǔ)法形式豐富,語(yǔ)義多樣。如何提高句法分析的準(zhǔn)確率,還需要進(jìn)一步研究。

【論述規(guī)則和統(tǒng)計(jì)相結(jié)合的句法分析一致性檢驗(yàn)論文】相關(guān)文章:

論述中國(guó)電子商務(wù)發(fā)展的環(huán)境和前景論文10-10

體育教學(xué)與藝術(shù)相結(jié)合思路論文10-10

市場(chǎng)營(yíng)銷(xiāo)案例和嘗試教學(xué)相結(jié)合管理論文10-13

對(duì)建筑機(jī)械節(jié)能技術(shù)論述論文10-12

論述德育教育與小學(xué)體育教學(xué)的關(guān)系的論文10-11

檢驗(yàn)畢業(yè)論文致謝10-26

醫(yī)學(xué)檢驗(yàn)論文致謝內(nèi)容10-26

古代文學(xué)視域下體育教育的論述論文10-13

建筑混凝土空心砌塊的施工工藝的論述論文10-10

對(duì)審計(jì)項(xiàng)目質(zhì)量管理論述經(jīng)濟(jì)論文10-12