- 相關(guān)推薦
數(shù)字環(huán)境下通用概念獲取方法
數(shù)字環(huán)境下通用概念獲取方法
摘要:在敘詞表、本體等知識組織體系構(gòu)建過程中,需要獲取通用概念。
筆者試驗(yàn)了三種獲取通用概念的方法,一是繼承傳統(tǒng)知識組織體系通用概念,二是通過關(guān)鍵詞在文獻(xiàn)中詞頻分布情況確定通用概念,三是基于關(guān)鍵詞總詞頻與標(biāo)準(zhǔn)差二維信息獲得通用概念。
研究結(jié)果表明:以上三種方法各有特點(diǎn)及使用范圍,在概念獲取時(shí)可以根據(jù)課題具備條件單獨(dú)使用或組合使用。
關(guān)鍵詞:敘詞表 本體 通用概念 標(biāo)準(zhǔn)差 詞頻
概念的獲取與分類是知識組織體系構(gòu)建的重要工作。
例如,敘詞表的選詞主要由普通名詞與專有名詞構(gòu)成,普通名詞主要包括具體事物名稱和抽象事物名稱,具體事物名稱例如“海洋”,抽象事物名稱例如“鑄造”;專有名詞通常為人名、地名、產(chǎn)品名等,例如“孫中山”。
在本體構(gòu)建中,概念詞匯與實(shí)例詞匯也是本體構(gòu)建的主要成分,例如,可以用“城市”代表一個(gè)概念,而“北京市”則是一個(gè)實(shí)例。
在所有這些概念詞匯的研究中,通用概念具有一定的特征和應(yīng)用價(jià)值,數(shù)量上也占有一定的份額。
無論是綜合敘詞表,還是專業(yè)敘詞表,通常都有一個(gè)單獨(dú)的通用概念范疇,有的敘詞表命名為一般概念,有的敘詞表命名為通用詞,這些詞例如“研究”、“設(shè)計(jì)”、“應(yīng)用”等,是在不同專業(yè)都有應(yīng)用的泛指詞,在概念組配方面有重要價(jià)值。
在國內(nèi)圖書館學(xué)、情報(bào)學(xué)領(lǐng)域相關(guān)機(jī)構(gòu)及領(lǐng)域?qū)<业膮⑴c下,中國科學(xué)技術(shù)信息研究所2009年啟動了《漢語主題詞表》(工程技術(shù)版)的編制與修訂工作,通用概念的選詞與詞間關(guān)系的建立,是該項(xiàng)目的重要工作之一。
1、從傳統(tǒng)知識組織體系中繼承獲取
1980年,《漢語主題詞表》(以下簡稱《漢表》)編制完成并出版,上世紀(jì)80至90年代,我國敘詞表的編制與應(yīng)用達(dá)到了巔峰時(shí)期,編制了上百部的綜合及專業(yè)性敘詞表。
人類知識總是在繼承中不斷發(fā)展的,這些敘詞表概念可以作為重要的原始語料或參考詞匯,經(jīng)過遴選直接納入候選詞庫,根據(jù)修訂和重新編制的原則,進(jìn)行選詞、分類、建立詞間關(guān)系等敘詞表編制工作。
原《漢表》通用概念分自然科學(xué)一般概念與社會科學(xué)一般概念。
自然科學(xué)一般概念的一級范疇號為92,下分為9個(gè)二級類目,其中92A是一般概念,例如機(jī)理、計(jì)算、結(jié)論、現(xiàn)狀等概念。
其他二級類目包括92B形狀、尺寸,92C時(shí)間、方位等,共收集了475個(gè)通用概念。
作為《漢表》修訂項(xiàng)目,這些詞在入選方面應(yīng)該占有較大的權(quán)重,甚至根據(jù)這些詞匯的統(tǒng)計(jì)數(shù)據(jù)屬性重新進(jìn)行分類。
例如,“計(jì)算”一詞,需要統(tǒng)計(jì)在各級大類中的詞頻情況,根據(jù)詞頻大小,確定是繼續(xù)放到通用概念下,還是放到0類(數(shù)理科學(xué)與化學(xué))或TP類(自動化技術(shù)、計(jì)算機(jī)技術(shù))。
另外,還有大量的專業(yè)敘詞表,例如《農(nóng)業(yè)科學(xué)敘詞表》、《水利水電科技主題詞表》(以下簡稱《水表》)等,同樣有通用概念。
《水表》一級范疇號20“通用詞”下設(shè)2個(gè)二級類目,20A為“復(fù)合通用詞”,例如“安全管理”、“分布規(guī)律”等;20B為“一般通用詞”,例如成分、利用、應(yīng)用等。
2、基于詞頻分布人工獲取通用概念
首先觀察一個(gè)具體的例子,“設(shè)計(jì)”是一個(gè)公認(rèn)的通用概念,以“設(shè)計(jì)”作為關(guān)鍵詞檢索萬方數(shù)據(jù),在“工業(yè)技術(shù)”類文獻(xiàn)下,檢索結(jié)果如截圖1所示:
從圖1可以看出,“設(shè)計(jì)”一詞作為關(guān)鍵詞,出現(xiàn)在所有工業(yè)技術(shù)下的二級類目中,而且詞頻數(shù)量巨大,對應(yīng)的文獻(xiàn)量巨大,有典型的通用概念特征。
使用“水庫”一詞進(jìn)行檢索,在“工業(yè)技術(shù)”類下檢索結(jié)果如截圖2所示:
從圖2可以看出,“水庫”一詞的詞頻特征也非常明顯,在“水利工程”類目中詞頻上萬次,而其他類目中詞頻都非常低,直觀感覺有顯著的差異。
通過這樣的例子可以看出,“設(shè)計(jì)”是一個(gè)通用概念,“水庫”是一個(gè)屬于TV(水利工程)類的專業(yè)概念。
雖然以上兩個(gè)例子簡單明了,但存在具體操作問題。
在傳統(tǒng)的敘詞表編制中,概念的獲取主要通過領(lǐng)域?qū)<胰斯ぬ峁,耗時(shí)長,過度依賴領(lǐng)域?qū)<覀(gè)人隱性知識。
雖然提供的概念本身是符合編制規(guī)范的,但不同人員可能會提供不同數(shù)量的概念,存在概念覆蓋面是否全面的問題。
通過統(tǒng)計(jì)關(guān)鍵詞詞頻分布獲取通用概念,不僅工作量大,而且同樣存在閾值把握問題。
例如,如果詞頻為漸變或等差數(shù)列式遞減,沒有顯著差異,則如何判斷?另外,關(guān)鍵詞詞頻與不同類目下文獻(xiàn)數(shù)量也有一定關(guān)系,假設(shè)萬方數(shù)據(jù)中“水利工程”類文獻(xiàn)收集的比較少,可以推斷“水庫”關(guān)鍵詞的詞頻也不會如此高,而萬方數(shù)據(jù)各類目下的文獻(xiàn)數(shù)肯定是不一樣的,所以基于詞頻會存在誤差。
3、基于類目間關(guān)鍵詞詞頻標(biāo)準(zhǔn)差大小機(jī)器輔助獲取
針對以上問題,本文試驗(yàn)了機(jī)器輔助獲取、消除詞頻誤差的相對詞頻與標(biāo)準(zhǔn)差方法,獲取通用概念,統(tǒng)計(jì)方法與試驗(yàn)結(jié)果如下。
3.1 材料與方法
試驗(yàn)材料使用萬方數(shù)據(jù)學(xué)術(shù)論文庫,該庫基本采用《中國圖書館分類法》的分類體系,文獻(xiàn)共分22個(gè)一級大類。
一級大類“工業(yè)技術(shù)”下分16個(gè)二級大類。
抽取1987-2009年所有學(xué)術(shù)論文文獻(xiàn)數(shù)據(jù),提取論文的關(guān)鍵詞,經(jīng)過去重、去掉詞頻為1的關(guān)鍵詞等數(shù)據(jù)清洗,得到總量約300多萬個(gè)關(guān)鍵詞,從這些詞中隨機(jī)抽取1萬個(gè)關(guān)鍵詞,用于完成本試驗(yàn)。
由于課題是《漢語主題詞表》(工程技術(shù)版)的編制,所以抽取的關(guān)鍵詞必須是在一級大類“工業(yè)技術(shù)”下的文獻(xiàn)中出現(xiàn)過的關(guān)鍵詞。
為了探索一個(gè)概念通常情況下出現(xiàn)在幾個(gè)類目中,統(tǒng)計(jì)了這1萬個(gè)關(guān)鍵詞在16個(gè)二級類目文獻(xiàn)數(shù)據(jù)庫中的詞頻分布情況。
包括:關(guān)鍵詞在各二級類目文獻(xiàn)中的詞頻;在工業(yè)技術(shù)一級類目下的總詞頻;計(jì)算了每個(gè)關(guān)鍵詞以上兩項(xiàng)統(tǒng)計(jì)值相除后的相對詞頻值;使用相對詞頻值,計(jì)算了每個(gè)關(guān)鍵詞相對詞頻值在16個(gè)二級類目間的標(biāo)準(zhǔn)差。
3.2 基于標(biāo)準(zhǔn)差排序獲取通用概念
理論上講,關(guān)鍵詞首先應(yīng)該在16個(gè)二級類目文獻(xiàn)中都有詞頻,這樣的關(guān)鍵詞通常是通用概念,從試驗(yàn)數(shù)據(jù)中提取的在所有類目文獻(xiàn)中都有關(guān)鍵詞分布的詞匯見表1。
從表1數(shù)據(jù)可以看出,19個(gè)關(guān)鍵詞基本上都屬于通用概念或是工業(yè)技術(shù)中的專業(yè)通用概念,標(biāo)準(zhǔn)差比較小的“設(shè)計(jì)”(0.0697)、“優(yōu)化”(0.0566)、“調(diào)節(jié)”(0.0509)等,都是典型的通用概念。
隨著標(biāo)準(zhǔn)差的增大,單個(gè)關(guān)鍵詞雖然可以應(yīng)用到所有文獻(xiàn)中,但還是相對集中地出現(xiàn)在某一類文獻(xiàn)中,例如,標(biāo)準(zhǔn)差為0.2121的“變壓器”,應(yīng)該屬于TM類(電工技術(shù)),標(biāo)準(zhǔn)差為0.1487的“可視化”應(yīng)該屬于TP類(自動化技術(shù)、計(jì)算機(jī)技術(shù))。
對于在15個(gè)類目中都有分布的關(guān)鍵詞,同樣可以使用標(biāo)準(zhǔn)差分布表,從小到大排序,截取標(biāo)準(zhǔn)差比較小的關(guān)鍵詞,進(jìn)行人工判斷,選擇常見的通用概念。
使用試驗(yàn)數(shù)據(jù),選出“解決辦法”(0.05)、“尺寸”(0.07)、“降溫”(0.07)等關(guān)鍵詞,也是非常典型的通用概念。
同樣方法還可以考慮在14個(gè)類目、13個(gè)類目等文獻(xiàn)中分布的關(guān)鍵詞,具體考慮到多少個(gè)類目為止,需要根據(jù)具體
數(shù)據(jù)獲取經(jīng)驗(yàn)值,并在大規(guī)模數(shù)據(jù)中進(jìn)行驗(yàn)證與評價(jià)。
3.3基于標(biāo)準(zhǔn)差與總詞頻二維信息獲取通用概念
依據(jù)標(biāo)準(zhǔn)差判定通用概念時(shí),重點(diǎn)考察了關(guān)鍵詞的均勻分布問題,總詞頻的特征沒有很好地體現(xiàn),以表1中數(shù)據(jù)為例,關(guān)鍵詞“熱傳導(dǎo)”(0.0438)、“沖擊力”(0.0529)的標(biāo)準(zhǔn)差非常小,但對應(yīng)的總詞頻分別為253、68,遠(yuǎn)遠(yuǎn)小于“設(shè)計(jì)”的總詞頻21252。
從數(shù)據(jù)特征上看,在判斷優(yōu)質(zhì)通用概念時(shí),應(yīng)該同時(shí)考慮標(biāo)準(zhǔn)差與總詞頻兩方面的信息,才能將在多數(shù)類目中具有關(guān)鍵詞分布的通用概念細(xì)分和分塊考慮。
本文借鑒管理學(xué)SW0T分析方法解決這個(gè)問題,方法是制作關(guān)鍵詞二維分布圖,橫坐標(biāo)為總詞頻,縱坐標(biāo)為標(biāo)準(zhǔn)差,依據(jù)關(guān)鍵詞總體數(shù)據(jù)分布相對集中的區(qū)域,給定分區(qū)模型,如圖3所示:
根據(jù)經(jīng)驗(yàn)判斷,圖3基本假設(shè)為Ⅰ區(qū),Ⅱ區(qū)偏向?qū)I(yè)分類,Ⅲ區(qū)、Ⅳ區(qū)偏向通用類。
具體細(xì)分為:處于Ⅰ區(qū)的關(guān)鍵詞總詞頻低,標(biāo)準(zhǔn)差高,屬于概念專指度相對高的專業(yè)低頻概念,例如關(guān)鍵詞“分散”(628,0.1233);處于Ⅱ區(qū)的關(guān)鍵詞總詞頻高,標(biāo)準(zhǔn)差高,屬于使用范圍廣但更集中、可以歸入一個(gè)專業(yè)類的專業(yè)概念,例如關(guān)鍵詞“變壓器”(4114,0.2121);處于Ⅲ區(qū)的關(guān)鍵詞總詞頻低,標(biāo)準(zhǔn)差低,屬于概念專指度相對低、無法具體歸類的低頻通用概念,例如關(guān)鍵詞“熱傳導(dǎo)”(253,0.0438);處于Ⅳ區(qū)的關(guān)鍵詞總詞頻高,標(biāo)準(zhǔn)差低,屬于典型的通用概念,例如關(guān)鍵詞“設(shè)計(jì)”(2l252,0.0697)等。
對15個(gè)類目、14個(gè)類目等關(guān)鍵詞統(tǒng)計(jì)的具體數(shù)據(jù)進(jìn)行觀察,發(fā)現(xiàn)總體特征符合以上規(guī)律。
如果作為工程項(xiàng)目,在大規(guī)模數(shù)據(jù)計(jì)算實(shí)踐中,還需要進(jìn)一步確定兩個(gè)方面的指導(dǎo)值或經(jīng)驗(yàn)值:①區(qū)分4個(gè)區(qū)交點(diǎn)的坐標(biāo)點(diǎn)位置,而且不同的類目數(shù),交點(diǎn)位置也是變動的;②關(guān)鍵詞類目的適合數(shù),例如關(guān)鍵詞在5―8個(gè)類目中分布時(shí)是否還可以使用這樣的方法進(jìn)行判斷。
4、討論
4.1 通用概念與概念應(yīng)用廣泛的區(qū)別
在知識組織體系的概念分類中,通常會涉及到學(xué)科和主題問題,也涉及學(xué)科與應(yīng)用問題,例如本文統(tǒng)計(jì)的關(guān)鍵詞“變壓器”,普遍應(yīng)用于所有工業(yè)技術(shù)中,但從分類角度看,放到TM類(電工技術(shù))更合理。
也就是說,如果從應(yīng)用角度分,可以是通用概念,但從學(xué)科角度分應(yīng)該屬于專業(yè)概念。
最典型的例子是“計(jì)算機(jī)”。
當(dāng)今信息時(shí)代,計(jì)算機(jī)已經(jīng)成為各行業(yè)普遍使用的工具,統(tǒng)計(jì)文獻(xiàn)的關(guān)鍵詞詞頻,也會出現(xiàn)在所有分類文獻(xiàn)中,但按學(xué)科分類,“計(jì)算機(jī)”這一概念還是應(yīng)該放到TP(自動化技術(shù)、計(jì)算技術(shù))類更合適。
這樣一些概念,例如“設(shè)計(jì)”,各學(xué)科都通用,無法具體歸到某一個(gè)專業(yè)學(xué)科分類中,是典型的通用概念;而類似“計(jì)算機(jī)”這樣的概念,只能說應(yīng)用廣泛,而不是通用概念,所以通用概念與概念應(yīng)用廣泛有著不同的含義。
4.2 通用概念、專業(yè)通用概念、專業(yè)概念之間的關(guān)系
在數(shù)據(jù)處理中,通用概念與專業(yè)概念有時(shí)也不是涇渭分明的,在通用概念與專業(yè)概念間應(yīng)該有一類詞是專業(yè)通用概念,對應(yīng)交點(diǎn)附近的那些語詞。
在傳統(tǒng)的知識組織體系中,這種現(xiàn)象也是普遍存在的。
原《漢表》的范疇類目,除了一級大類“自然科學(xué)一般概念”、“社會科學(xué)一般概念”外,43個(gè)一級大類下,也同時(shí)設(shè)置了大類下的一般概念,例如一級大類“67機(jī)械工程”下設(shè)“67AA機(jī)械工程一般概念”,“69水利工程”下設(shè)“69A水利工程一般概念”。
二級范疇"69B水文學(xué)”下有三級范疇“69BA水文學(xué)一般概念”,“地表水”是其一般概念。
所以,在專業(yè)內(nèi)為通用概念,在專業(yè)間又趨向于專業(yè)概念,這類專業(yè)通用概念還是普遍存在的。
知識組織體系應(yīng)該將這些概念進(jìn)行明確區(qū)分,以有利于其分類與應(yīng)用。
4.3 通用概念選詞范圍由知識組織系統(tǒng)的應(yīng)用目的決定
通常情況下,類似“研究”、“應(yīng)用”、“實(shí)踐”、“理論”等詞匯屬于典型的通用概念,這些詞的特征為專指度低、檢索意義不大,用戶檢索文獻(xiàn)時(shí)不會使用“研究”去檢索。
但通用概念在概念組配方而具有重要意義,例如組成“問題研究”、“對策研究”、“經(jīng)濟(jì)研究”、“科學(xué)研究”、“理論研究”等先組概念,這些詞多數(shù)也是通用概念。
由于知識組織體系的應(yīng)用不同,一些詞匯也可以放到專業(yè)范疇內(nèi),例如“經(jīng)濟(jì)問題”,可以放到經(jīng)濟(jì)類下作其專業(yè)通用概念,而不是與“研究”、“應(yīng)用”等典型通用概念聚到一起。
為了加強(qiáng)分類導(dǎo)航功能,新版《漢表》范疇表主要參考了《中國圖書資料分類法》的分類體系,通用概念將時(shí)間、地區(qū)、民族、科學(xué)機(jī)構(gòu)、科學(xué)理論等相關(guān)術(shù)語都認(rèn)定為通用概念。
所以除了典型的通用概念外,還需要考慮獲取那些偏向于某一專業(yè)的通用概念。
5、結(jié)論
在敘詞表、本體等知識組織體系構(gòu)建中,需要獲取并區(qū)分出通用概念。
本文研究了三種方法:第一種是知識繼承的方法,即繼承與參考已有知識組織體系的通用概念,這是知識積累方法,過度依賴傳統(tǒng)數(shù)據(jù);第二種是依據(jù)關(guān)鍵詞在分類文獻(xiàn)中的詞頻統(tǒng)計(jì)人工判定,凡是詞頻分布比較均勻、總詞頻比較大的基本上是通用概念,這種方法需要對數(shù)據(jù)分布均勻性進(jìn)行量化;第三種方法是同時(shí)考慮詞頻與標(biāo)準(zhǔn)差的方法,總詞頻高、標(biāo)準(zhǔn)差低是比較規(guī)范的通用概念。
在具體的知識組織體系構(gòu)建中,根據(jù)課題組的人力、時(shí)間、數(shù)據(jù)資源和詞表規(guī)模等情況,可以考慮分別使用這三種方法或組合發(fā)揮作用。
【數(shù)字環(huán)境下通用概念獲取方法】相關(guān)文章:
成功獲取留學(xué)推薦信的方法10-07
新環(huán)境下數(shù)字媒體藝術(shù)的教學(xué)模式探究論文10-08
方法重載和方法重寫的概念和區(qū)別09-06
新概念學(xué)習(xí)方法大全10-08
淺談數(shù)字化校園網(wǎng)新技術(shù)下創(chuàng)新環(huán)境建設(shè)研究10-05
新概念學(xué)習(xí)方法匯總參考10-10
新概念第二冊學(xué)習(xí)方法與指導(dǎo)10-06