亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

檔案管理畢業(yè)論文

檔案文獻(xiàn)主題探測(cè)方法

時(shí)間:2022-10-07 20:26:21 檔案管理畢業(yè)論文 我要投稿
  • 相關(guān)推薦

檔案文獻(xiàn)主題探測(cè)方法

  檔案文獻(xiàn)主題探測(cè)方法

  [摘 要]本文主題探測(cè)是以檔案類文獻(xiàn)作為文本集,以文本數(shù)據(jù)挖掘(Text Mining)的方式來(lái)對(duì)文本集進(jìn)行處理。文章主要對(duì)文本分類和文本聚類的常用方法做了簡(jiǎn)單的概括,并提出了基于主題模型的檔案文獻(xiàn)主題探測(cè)方法。

  [關(guān)鍵詞]檔案文獻(xiàn);主題探測(cè);主題模型

  引言

  隨著目前科技文獻(xiàn)資源的大量增長(zhǎng),檔案類文獻(xiàn)的資源也在突飛猛進(jìn)的增長(zhǎng),但對(duì)于大量的文獻(xiàn)資源,要能更精確的找到我們所需要的信息卻變得難上加難。主題探測(cè)(Topic Detection,作為一項(xiàng)旨在幫助人們應(yīng)對(duì)信息過(guò)載問(wèn)題的研究,其研究目標(biāo)是要實(shí)現(xiàn)按主題查找、組織和利用來(lái)自多種媒體的多語(yǔ)言信息[1]。

  1.常用的文本分類方法

  傳統(tǒng)的科技文獻(xiàn)分類方法都是基于文本分類的,這些方法是對(duì)給定的文本,根據(jù)其內(nèi)容自動(dòng)或手動(dòng)地加上一個(gè)類別標(biāo)簽,通過(guò)給定的訓(xùn)練集,用某種方法構(gòu)建文本特征與文本類別之間的關(guān)系模型,再利用這個(gè)關(guān)系模型對(duì)新的未知類別文本進(jìn)行類別訓(xùn)練。

  1.1基于簡(jiǎn)單向量距離的分類法

  簡(jiǎn)單向量距離分類法的主要思想,是首先確定新文本的向量,然后根據(jù)尚未分類的文本向量與每個(gè)類別中心向量的距離來(lái)判斷此文本屬于哪個(gè)類別,確定新文本向量的前提是:先根據(jù)算術(shù)平均為每類文本集生成一個(gè)代表該類的中心向量[2]。

  簡(jiǎn)單距離向量分類法實(shí)現(xiàn)簡(jiǎn)單,分類的復(fù)雜度也不高,其缺點(diǎn)也很明顯:直接使用特征空間的特征分布,受訓(xùn)練文本中的噪聲影響較大,同時(shí)對(duì)分布不規(guī)則的數(shù)據(jù),能夠取得的效果是很有限的。

  1.2 K近鄰法(K-Nearest Neighbor)

  KNN最初由Cover和Hart于1968年提出,是一個(gè)理論上比較成熟的方法,其分類方式是通過(guò)查詢已知類別文本的情況,來(lái)判斷新文本與已知文本是否屬于同一類。算法的基本思想是:首先給定新文本,然后在訓(xùn)練文本集中找出與新文本距離最近的文本,依據(jù)找出的最近距離文本的類別,來(lái)判定新文本所屬的類別。

  KNN方法相對(duì)簡(jiǎn)單,易于實(shí)現(xiàn),用于基于統(tǒng)計(jì)的模式識(shí)別中非常有效,并且對(duì)于未知和非正態(tài)的分布能夠取得比較高的分類準(zhǔn)確率。但對(duì)于樣本分布依賴性較大,當(dāng)樣本分布不均勻時(shí),可能造成一定的偏向性。

  1.3 貝葉斯分類法

  貝葉斯分類方法在使誤判率或風(fēng)險(xiǎn)最小的問(wèn)題上是很有意義的。它是將研究對(duì)象的先驗(yàn)概率來(lái)作為輔助判斷,這樣做可以使結(jié)論更精確的得到分析。但由于貝葉斯分類器的前提是需要已知條件概率,而且它的決策面比較復(fù)雜,因此在計(jì)算和構(gòu)造方面是相對(duì)困難的[26]。

  貝葉斯分類的優(yōu)點(diǎn)在于算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn),并且算法穩(wěn)定。但其也有缺陷,就是在其獨(dú)立性假設(shè)時(shí),在許多實(shí)際中并不能夠成立,這樣會(huì)引起分類的誤差。

  1.4 支持向量機(jī)(SVM)

  支持向量機(jī)(Support Vector Machine,SVM)是統(tǒng)計(jì)學(xué)概念上一個(gè)有監(jiān)督的學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出特有的優(yōu)勢(shì)。這種方法是針對(duì)線性可分情況進(jìn)行分析,通過(guò)尋找最優(yōu)線性分類面來(lái)減小對(duì)新文檔的誤分概率[3]。

  2.常用的文本聚類方法

  作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,文本聚類是在給定的某種相似性度量下,把對(duì)象集合進(jìn)行分組,使得相似的對(duì)象能夠分到同一個(gè)組內(nèi)。其方法通常是利用向量空間模型,將文本轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類。因此,影響文本聚類結(jié)果的因素除了文檔聚類算法的選擇外,還包括語(yǔ)義問(wèn)題和降維問(wèn)題。

  2.1基于劃分的方法

  劃分法(Partitioning Method)也稱分裂法,其基本原理是:首先得到初始的k個(gè)劃分,然后通過(guò)迭代,將文檔從一個(gè)中間類轉(zhuǎn)移到另一個(gè)類中,以改進(jìn)聚類的質(zhì)量。代表性算法有K-means算法、k-中心點(diǎn)、CLARA、CLARANS等。

  2.2基于層次的方法

  層次法(Hierarchical Methods)首先假設(shè)所有文檔自成一類,然后將最相似的兩類合并,重復(fù)此過(guò)程,直到最后將所有文檔合并為一類,因而可以形成一顆聚類樹(shù)。層次法分為凝聚層次聚類和劃分層次聚類兩種,而劃分層次聚類用的比較少。

  典型的層次聚類方法包括:CURE(Clustering Using REprisent-

  atives)方法、ROCK方法、Chameleon、BIRCH(Balances Iterative Reducing and Clustering using Hierarchies)方法等。

  2.3基于模型的方法

  基于模型的方法(Model-based methods)是從文本集合中學(xué)習(xí)一個(gè)模型,每個(gè)模型代表一個(gè)文本類,并優(yōu)化給定的數(shù)據(jù)和數(shù)學(xué)模型之間的適應(yīng)性。它的一個(gè)潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。典型的基于模型的方法有:統(tǒng)計(jì)方法COBWEB和CLASSIT。

  2.4基于網(wǎng)格的方法

  基于網(wǎng)格的算法(Grid-based methods)首先將數(shù)據(jù)空間劃分成為有限個(gè)單元的網(wǎng)格結(jié)構(gòu)(所有的處理都是以單個(gè)的單元為對(duì)象的),然后利用網(wǎng)格結(jié)構(gòu)完成聚類。其優(yōu)點(diǎn)是處理速度比較快,通常與目標(biāo)數(shù)據(jù)庫(kù)中記錄的個(gè)數(shù)無(wú)關(guān),只與將數(shù)據(jù)空間所分的單元數(shù)量有關(guān)。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(Clustering In QUEst)算法、WAVE-CLUSTER算法。

  2.5基于密度的方法

  為了發(fā)現(xiàn)任意形狀的聚類結(jié)果,提出了基于密度的方法(Density-based methods)。這類方法將簇看作是數(shù)據(jù)空間中被低密度區(qū)域分割開(kāi)的高密度區(qū)域。只要一個(gè)區(qū)域中點(diǎn)的密度大于某個(gè)閥值,就將其加到與之相近的聚類中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

  3.基于主題模型的檔案文獻(xiàn)主題探測(cè)研究方法

  基于主題模型的檔案文獻(xiàn)主題探測(cè),初步提出了將LDA主題模型運(yùn)用到檔案主題探測(cè)中。

  使用LDA主題模型,旨在更好的獲取文本的主題。主題模型采用了概率分析的方法,和以往其他模型的統(tǒng)計(jì)方法有著很大的不同。而LDA是服從于Dirichlet分布的概率模型,使得文本、主題、單詞在模型超參數(shù)上有了不同的發(fā)生概率,LDA主題模型的提出,使文本不再局限于與主題一一對(duì)應(yīng),并且給出了文本在各個(gè)主題上的概率分布。

  4.結(jié)束語(yǔ)

  文本數(shù)據(jù)挖掘方法一直是數(shù)據(jù)挖掘工作人員不斷探索的重要內(nèi)容,而主題探測(cè)能夠很好的幫助我們解決“信息過(guò)載”的現(xiàn)象。本文概述了文本挖掘的常用方法,并提出了最新主題模型LDA,將其運(yùn)用到檔案文獻(xiàn)主題探測(cè)中,目前正對(duì)其方法做進(jìn)一步的測(cè)試,將其與常用的文本分類或文本聚類方法做比較。

  參考文獻(xiàn):

  [1]李保利,俞士汶. 話題識(shí)別與跟蹤研究[J]. 計(jì)算機(jī)工程與應(yīng)用. 2003(17): 7-10.

  [2]龐劍峰,基于向量空間模型的自反饋的文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D].中科院計(jì)算所碩士論文.2001.

  [3]T. Joachims. Text categorization with support Vector machines: Learning with many relevant features[C]. Lecture Notes in Computer Science,1998,(1398):137-142.

【檔案文獻(xiàn)主題探測(cè)方法】相關(guān)文章:

關(guān)于法律自考論文參考文獻(xiàn)的查找方法10-09

碩士論文參考文獻(xiàn)標(biāo)注方法大全10-03

檔案管理體制相關(guān)文獻(xiàn)統(tǒng)計(jì)研究論文10-08

文書檔案的整理與保管方法的創(chuàng)新10-05

檔案信息化建設(shè)與檔案管理方法論文10-12

國(guó)際檔案日主題征文07-10

學(xué)習(xí)方法主題班會(huì)06-14

電子信息檔案管理的風(fēng)險(xiǎn)控制方法10-26

加強(qiáng)醫(yī)院檔案管理建設(shè)的方法探究論文10-12

火災(zāi)探測(cè)器清洗合同09-10