亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

漢語言文學(xué)畢業(yè)論文

新的句法標(biāo)注模型探索

  • 相關(guān)推薦

關(guān)于新的句法標(biāo)注模型探索

  臨近畢業(yè),很多大學(xué)生最憂愁的就是畢業(yè)設(shè)計和畢業(yè)論文了,畢業(yè)論文應(yīng)該怎么寫呢?好了,小編送福利的時間到了,下面是給大家?guī)淼臐h語言文學(xué)畢業(yè)論文,歡迎廣大畢業(yè)生們閱讀參考!

  論文關(guān)鍵詞:語料庫語言學(xué) 語義處理 句法標(biāo)注模型

  論文摘要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在;诖笠(guī)模標(biāo)注語料庫的語義處理已經(jīng)成為發(fā)展趨勢,語料標(biāo)注本質(zhì)上就是語言知識(包括語義)形式化,F(xiàn)有句法標(biāo)注模型主要包括基于短語結(jié)構(gòu)語法(PSG)和基于依存語法(DG)的句法標(biāo)注模型,還存在一些局限性。文章在現(xiàn)有句法標(biāo)注模型的基礎(chǔ)上結(jié)合認(rèn)知語法(CG)的有關(guān)理論提出改進(jìn)思路,以探索新的句法標(biāo)注模型。

  人類社會發(fā)展的基本軌跡是:原始社會—農(nóng)業(yè)社會—工業(yè)社會—信息社會。人工智能的目標(biāo)是用計算機(jī)模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息社會的制高點(diǎn)。語言是人思維的物質(zhì)外殼,人不可能離開語言而具備真正屬于人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預(yù)見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義十分復(fù)雜,而基于現(xiàn)有計算機(jī)軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探索新的句法標(biāo)注模型,進(jìn)行大規(guī)模的語義標(biāo)注,基于語料庫進(jìn)行語義知識獲取和自然語言處理。

  一、句法標(biāo)注模型

  語言的復(fù)雜性在于語言與認(rèn)識的關(guān)系。語言具有意義,而意義是入對主客觀世界的認(rèn)識結(jié)果。主客觀世界的復(fù)雜性決定了意義的復(fù)雜性,進(jìn)一步?jīng)Q定了語言的復(fù)雜性。語言本身又可以視為人的主客觀世界中的一部分,因此語言研究是一種特殊的認(rèn)識活動,是人對語言的認(rèn)識。由此可見,語言離不開認(rèn)識。人對主客觀世界的認(rèn)識可以如此描述:認(rèn)識主體借助認(rèn)識工具按照認(rèn)識方法處理認(rèn)識對象獲得認(rèn)識結(jié)果。認(rèn)識是由多種認(rèn)識因素(主體、工具、方法、對象)共同作用的活動,認(rèn)識結(jié)果是這一活動的產(chǎn)物,被多種認(rèn)識因素共同決定,任何一種認(rèn)識因素的改變必然導(dǎo)致認(rèn)識結(jié)果出現(xiàn)或大或小的差異。顯然,認(rèn)識結(jié)果與認(rèn)識對象不能等同,是認(rèn)識主體對認(rèn)識對象的選擇性反映,認(rèn)識具有主觀能動性。從這個意義上講。認(rèn)識不可能也不應(yīng)該去被動地還原認(rèn)識對象,而是從符合主體目的性出發(fā),力求簡單有效地描述和預(yù)測認(rèn)識對象。借用模型的概念,認(rèn)識結(jié)果就是認(rèn)識對象的模型(model),認(rèn)識就是建立認(rèn)識對象的模型,簡稱建模(modeling)。這是一種實(shí)用主義認(rèn)識觀。

  模型一般分為心理模型(psychological model)、數(shù)學(xué)模型(mathematical model)和物理模型(physical model)。心理模型是認(rèn)識對象在人認(rèn)識中的定性關(guān)系,是數(shù)學(xué)模型的基礎(chǔ);數(shù)學(xué)模型是認(rèn)識對象在人認(rèn)識中的定量關(guān)系,是物理模型的基礎(chǔ);物理模型是人借助特定材料和工具按照認(rèn)識對象的數(shù)學(xué)模型實(shí)現(xiàn)的物質(zhì)結(jié)構(gòu)。傳統(tǒng)意義上的建模主要指建立數(shù)學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認(rèn)識能力是有限的,表現(xiàn)在:人不能建立任意認(rèn)識對象的心理模型,也不能建立任意心理模型的數(shù)學(xué)模型,也不能建立任意數(shù)學(xué)模型的物理模型。由于具有明確的實(shí)用主義特點(diǎn),建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類將二進(jìn)制數(shù)學(xué)模型成功實(shí)現(xiàn)為晶體管物理模型,并開發(fā)出越來越復(fù)雜和先進(jìn)的計算機(jī)軟件和硬件,從而進(jìn)入信息時代。20世紀(jì)以來一些主要或次要的語言理論都或多或少應(yīng)用了數(shù)學(xué)模型,特別是一些面向語言計算的語言理論。隨著計算機(jī)技術(shù)的飛速發(fā)展,人們對計算機(jī)自動或輔助處理語言信息的需求越來越大。但計算機(jī)的根本缺陷在于,凡是不能建立數(shù)學(xué)模型的信息都無法處理。傳統(tǒng)語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學(xué)模型研究語言,稱為語言數(shù)學(xué)模型,簡稱語言模型(1anguage model)。統(tǒng)計語言模型(sta-tistical language model)就是一個成功的例子。但統(tǒng)計語言模型的性能取決于訓(xùn)練語料的規(guī)模和質(zhì)量。目前,由于語料的不斷積累和計算機(jī)技術(shù)的不斷進(jìn)步,語料規(guī)模已不成問題,語料中包含語言知識的數(shù)量和質(zhì)量才是關(guān)鍵。

  計算機(jī)的語言知識主要來源于人。將語料中包含的語言知識標(biāo)注出來,有助于計算機(jī)獲得更豐富、更有價值的語言知識,從而提高語言處理水平,這就是語料標(biāo)注(corpus tagging)。一般認(rèn)為主要包括詞匯標(biāo)注(1exical tagging,分詞、詞結(jié)構(gòu)標(biāo)注、詞性標(biāo)注、詞義標(biāo)注等)、句法標(biāo)注(syntax tagging,語法樹標(biāo)注、語義樹標(biāo)注等)、語篇標(biāo)注(discourse tagging,語體標(biāo)注、領(lǐng)域標(biāo)注等)等內(nèi)容。經(jīng)過標(biāo)注的語料還可以用于語言學(xué)研究、語言教學(xué)、語言測試、詞典編撰等諸多理論研究和實(shí)踐應(yīng)用領(lǐng)域,越來越受到人們重視,并形成一門新興學(xué)科——語料庫語言學(xué)(corpus linguistics)。目前,相對句法標(biāo)注,詞匯標(biāo)注有更成熟的規(guī)范、準(zhǔn)確率更高的技術(shù)和更大的標(biāo)注規(guī)模。句法標(biāo)注的主要困難在于,沒有一個真正成熟的語法或語義標(biāo)注模型。句法結(jié)構(gòu)尤其是語義結(jié)構(gòu)很難統(tǒng)一描述,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一規(guī)范,標(biāo)注主觀性很大,自動標(biāo)注準(zhǔn)確率比較低。因此,句法標(biāo)注成了語料標(biāo)注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:如果有了大規(guī)模、高質(zhì)量的句法標(biāo)注語料庫,圍繞語料庫的各種研究和應(yīng)用有可能在現(xiàn)有基礎(chǔ)上產(chǎn)生質(zhì)的飛躍。因此,研究句法標(biāo)注模型應(yīng)是當(dāng)務(wù)之急。語料庫語言學(xué)屬于交叉學(xué)科,句法標(biāo)注模型是語料庫語言學(xué)的基礎(chǔ)理論,又與語言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語料庫語言學(xué)的角度研究句法,提出新的句法標(biāo)注模型。

  二、現(xiàn)有句法標(biāo)注模型

  句法標(biāo)注(Syntax Tagging,ST)以句子的語法知識和語義知識為標(biāo)注對象,是語料標(biāo)注的重點(diǎn)、難點(diǎn)所在,要以一定的語法理論為基礎(chǔ)。根據(jù)語法理論制定的句法標(biāo)注規(guī)則、過程和結(jié)果,稱為句法標(biāo)注模型(Syntax Tagging Model,STM)。短語結(jié)構(gòu)語法(PhraseStructure Grammar,PSG)和依存語法(DependencyGrammar,DG)是現(xiàn)有句法標(biāo)注的兩種基礎(chǔ)語法理論,彼此卻有很大的不同;赑SG的句法標(biāo)注模型稱為短語結(jié)構(gòu)句法標(biāo)注模型(PSG—based Tagging Mod—el,PSGTM),基于DG的句法標(biāo)注模型稱為依存句法標(biāo)注模型(DG—based Tagging Model,DGTM)。根據(jù)現(xiàn)有語料標(biāo)注的實(shí)踐結(jié)果來看,PSGTM與DGTM都存在一定缺陷。

  美國語言學(xué)家喬姆斯基(Noam Chomsky)于1957年出版專著《句法結(jié)構(gòu)》,從而奠定了短語結(jié)構(gòu)語法(PSG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG)、廣義短語結(jié)構(gòu)語法(GPSG)等。到目前為止,PSG仍然是最重要的句法標(biāo)注基礎(chǔ)理論,為世界上眾多語料庫項(xiàng)目所采用和發(fā)展。法國語言學(xué)家特思尼耶爾(Lucien Tesnire)于1959年出版專著《結(jié)構(gòu)句法基礎(chǔ)》,從而奠定了依存語法(DG)的理論基礎(chǔ)。其后發(fā)展起來的許多語法理論可以直接或間接歸到這一流派,如詞匯依存語法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重于語義,在CD、KD上表現(xiàn)得十分明顯。另外,DG更簡潔、直觀、經(jīng)濟(jì),適應(yīng)性更強(qiáng),因此反而有后來居上之勢,目前已經(jīng)成為世界上較為通用的句法標(biāo)注基礎(chǔ)理論。不過,在具體的句法標(biāo)注實(shí)踐中DGTM還是暴露出一些問題,“對一些沒有明確依存關(guān)系的成分,標(biāo)注起來則有些力不從心”,存在“依存失敗”現(xiàn)象,最突出的是難以標(biāo)注缺省結(jié)構(gòu)。缺省結(jié)構(gòu)一直是句法標(biāo)注中經(jīng)常出現(xiàn)而且很難解決的問題。

【新的句法標(biāo)注模型探索】相關(guān)文章:

拼裝模型作文05-31

恐龍模型作文04-02

做模型作文05-15

產(chǎn)品標(biāo)識標(biāo)注規(guī)定05-17

論文引用文獻(xiàn)如何標(biāo)注08-29

最新的醫(yī)生工作檢討模型05-29

做模型作文15篇06-08

模型制作作文三篇05-03

租賃合同模型03-22

汽車銷售實(shí)習(xí)報告模型12-27