亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

數(shù)學(xué)畢業(yè)論文

統(tǒng)計(jì)數(shù)據(jù)挖掘的方法及應(yīng)用

時(shí)間:2022-10-08 10:39:49 數(shù)學(xué)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

統(tǒng)計(jì)數(shù)據(jù)挖掘的方法及應(yīng)用

  統(tǒng)計(jì)數(shù)據(jù)挖掘的方法及應(yīng)用

  摘要:在我國(guó),經(jīng)濟(jì)統(tǒng)計(jì)工作的進(jìn)行是為了有效地反映經(jīng)濟(jì)發(fā)展?fàn)顩r,為決策者提供有效決策的依據(jù)。

  因此,統(tǒng)計(jì)部門在進(jìn)行經(jīng)濟(jì)統(tǒng)計(jì)時(shí)必須重視經(jīng)濟(jì)統(tǒng)計(jì)信息的準(zhǔn)確性和可靠性。

  統(tǒng)計(jì)數(shù)據(jù)挖掘技術(shù)可以從混亂、紛繁的數(shù)據(jù)中提取關(guān)鍵的信息與知識(shí),有利于過程控制、決策支持、查詢優(yōu)化、信息管理等工作的順利開展,在信息爆炸的時(shí)代具有十分重要的應(yīng)用價(jià)值。

  因此,分析統(tǒng)計(jì)數(shù)據(jù)挖掘的方法,探究統(tǒng)計(jì)數(shù)據(jù)挖掘技術(shù)的恰當(dāng)應(yīng)用是非常必要的。

  關(guān)鍵詞:統(tǒng)計(jì)數(shù)據(jù)挖掘;聚類分析方法;統(tǒng)計(jì)基礎(chǔ)方法

  數(shù)據(jù)挖掘是由數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)規(guī)則知識(shí)表達(dá)和知識(shí)應(yīng)用與服務(wù)等幾個(gè)方面組成。

  其中,數(shù)據(jù)采集是基礎(chǔ),數(shù)據(jù)處理是關(guān)鍵,數(shù)據(jù)規(guī)則知識(shí)表達(dá)是形式,知識(shí)應(yīng)用與服務(wù)是目的。

  現(xiàn)實(shí)世界中的大部分?jǐn)?shù)據(jù)是有污染的,任何對(duì)數(shù)據(jù)的分析和挖掘都是建立在或多或少的病態(tài)數(shù)據(jù)基礎(chǔ)上的,沒有好的數(shù)據(jù),就不可能提供可靠的規(guī)則和知識(shí)。

  規(guī)則往往是被大量復(fù)雜的數(shù)據(jù)項(xiàng)隱藏,有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無關(guān)的,它們的存在有可能影響到有價(jià)值規(guī)則的發(fā)現(xiàn),這必然要求我們?cè)跀?shù)據(jù)處理過程中把好數(shù)據(jù)關(guān),即選擇什么樣的數(shù)據(jù),如何進(jìn)行數(shù)據(jù)清理,對(duì)選擇好的數(shù)據(jù)如何處理、要進(jìn)行哪些處理,只有過好數(shù)據(jù)關(guān)才能保證整個(gè)基于統(tǒng)計(jì)分析的數(shù)據(jù)挖掘工作的順利完成。

  一、數(shù)據(jù)挖掘技術(shù)的概念及特征

  數(shù)據(jù)挖掘技術(shù),簡(jiǎn)單地說就是從大量的數(shù)據(jù)信息中挖掘出有用的信息。

  這里大量的數(shù)據(jù)信息通常被認(rèn)為是不完全的、模糊的、有噪音的、隨機(jī)的,是完全沒有加以處理的信息。

  而挖掘之后呈現(xiàn)的就是有效的、潛在有用的、新穎的信息。

  這樣的一個(gè)變化過程,也常常被認(rèn)為是數(shù)據(jù)挖掘。

  數(shù)據(jù)挖掘,可以是經(jīng)濟(jì)信息轉(zhuǎn)換的一個(gè)過程,還可以是一門交叉的學(xué)科。

  數(shù)據(jù)挖掘是一門涉及面廣的學(xué)科,包括機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、數(shù)據(jù)統(tǒng)計(jì)等等,現(xiàn)在廣泛應(yīng)用于統(tǒng)計(jì)界。

  數(shù)據(jù)挖掘作為一個(gè)信息轉(zhuǎn)換的過程,其大體的步驟是:數(shù)據(jù)準(zhǔn)備――數(shù)據(jù)挖掘――結(jié)果分析總結(jié)。

  數(shù)據(jù)挖掘的主要功能是:分類、預(yù)測(cè)模型、數(shù)據(jù)聚類、數(shù)據(jù)總結(jié)等。

  數(shù)據(jù)挖掘的特點(diǎn),同時(shí)又是數(shù)據(jù)挖掘的優(yōu)點(diǎn)有以下幾點(diǎn):其一,處理的數(shù)據(jù)量巨大;其二,具有自動(dòng)找尋信息的功能;其三,能夠有效地描繪過去和預(yù)測(cè)未來;其四,信息反映快捷及時(shí)。

  數(shù)據(jù)挖掘常常采用的一些技術(shù)有:關(guān)聯(lián)規(guī)則方法、聚集檢測(cè)、記憶基礎(chǔ)推理方法、鏈接分析等等。

  二、統(tǒng)計(jì)數(shù)據(jù)挖掘的內(nèi)容

  隨著統(tǒng)計(jì)信息化工程的進(jìn)展,各地市統(tǒng)計(jì)系統(tǒng)的數(shù)據(jù)庫(kù)建設(shè)正在緊鑼密鼓地進(jìn)行,有的已經(jīng)開始,有的正在醞釀之中。

  一般小型數(shù)據(jù)庫(kù)采用了FoxPro、Access等數(shù)據(jù)庫(kù)軟件,大型數(shù)據(jù)庫(kù)采用了oracle系統(tǒng),同時(shí)一些大型企業(yè)也都建立了自己的統(tǒng)計(jì)數(shù)據(jù)庫(kù)。

  另外還有基于Web的統(tǒng)計(jì)數(shù)據(jù)庫(kù)系統(tǒng),這些不同數(shù)據(jù)源收集的統(tǒng)計(jì)信息,通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝人和定期數(shù)據(jù)刷新就構(gòu)成了一個(gè)大型的統(tǒng)計(jì)數(shù)據(jù)倉(cāng)庫(kù),為統(tǒng)計(jì)數(shù)據(jù)的挖掘創(chuàng)造了條件。

  具體來講統(tǒng)計(jì)數(shù)據(jù)挖掘的內(nèi)容有:

  (一)時(shí)間序列數(shù)據(jù)序的挖掘

  時(shí)間序列數(shù)據(jù)庫(kù)是存放隨時(shí)間變化序列值的數(shù)據(jù)庫(kù),包括反映月度、季度變化的進(jìn)度數(shù)據(jù)庫(kù)以及年度數(shù)據(jù)庫(kù),由于這些數(shù)據(jù)是經(jīng)過長(zhǎng)期歷史積累形成的,因此顯得尤其珍貴。

  其中有些是反映國(guó)家或某一地區(qū)國(guó)家經(jīng)濟(jì)和社會(huì)發(fā)展的,出現(xiàn)在各種統(tǒng)計(jì)年鑒中的,有些是反映企業(yè)的生產(chǎn)、銷售、成本等狀況的,有些是反映市場(chǎng)狀況的,如交易狀況。

  通過對(duì)時(shí)間序列數(shù)據(jù)庫(kù)的挖掘,可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中對(duì)象演變特征或?qū)ο蟮淖兓厔?shì),以及相互之間的長(zhǎng)期均衡的各種關(guān)系,利用這些信息可以進(jìn)行有關(guān)預(yù)測(cè)及決策和進(jìn)一步的定量分析。

  (二)截面數(shù)據(jù)庫(kù)的挖掘

  截面數(shù)據(jù)庫(kù)是存放同一時(shí)間上不同個(gè)體數(shù)據(jù)指標(biāo)的數(shù)據(jù)庫(kù),包括不同省市、城市、縣鎮(zhèn)區(qū)的宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)庫(kù),也包括不同企業(yè)、家庭及居民的各種行為指標(biāo)數(shù)據(jù)庫(kù),反映了不同個(gè)體之間的差異性及特殊性。

  通過對(duì)截面數(shù)據(jù)庫(kù)的挖掘,可以發(fā)現(xiàn)不同個(gè)體之間呈現(xiàn)出的各種規(guī)律及量化關(guān)系,以及通過統(tǒng)計(jì)中的聚類分析、判別分析,對(duì)不同個(gè)體進(jìn)行分類,還可以進(jìn)行孤立點(diǎn)分析,判別出那些數(shù)據(jù)與數(shù)據(jù)的一般行為或模型不一致,例如可以發(fā)現(xiàn)信用卡欺詐、為騙取保險(xiǎn)金的偽保險(xiǎn)、交易中的違規(guī)交易等。

  (三)統(tǒng)計(jì)信息數(shù)據(jù)庫(kù)的挖掘

  統(tǒng)計(jì)信息涵蓋了國(guó)家社會(huì)、經(jīng)濟(jì)、科技信息的主要方面,是國(guó)家重要的基本信息資源。

  統(tǒng)計(jì)工作信息化的建設(shè)一直是各級(jí)統(tǒng)計(jì)部門工作中的重點(diǎn),已經(jīng)初具規(guī)模,有FoxPro為系統(tǒng)的小型信息數(shù)據(jù)庫(kù),也有oracle大型數(shù)據(jù)庫(kù)管理系統(tǒng),此外,還開發(fā)引進(jìn)了一些通用的和專用的報(bào)表處理、統(tǒng)計(jì)報(bào)表排版、統(tǒng)計(jì)分析等應(yīng)用較件,各種統(tǒng)計(jì)信息資源應(yīng)有盡有。

  同是大型企業(yè)也十分重視建立統(tǒng)計(jì)信息管理系統(tǒng),主要用于企業(yè)內(nèi)部的統(tǒng)計(jì)業(yè)務(wù)處理和向上級(jí)公司和政府機(jī)關(guān)上報(bào)報(bào)表。

  通過對(duì)統(tǒng)計(jì)信息數(shù)據(jù)庫(kù)的挖掘,可以全方位掌握和了解最新的國(guó)民經(jīng)濟(jì)、社會(huì)發(fā)展、企業(yè)景氣狀況的動(dòng)態(tài),為政府和企業(yè)的決策服務(wù)。

  (四)統(tǒng)計(jì)普查數(shù)據(jù)庫(kù)的挖掘

  普查是專門組織的一次性全面調(diào)查,是全面系統(tǒng)地掌握國(guó)情國(guó)力統(tǒng)計(jì)資料的重要途徑。

  例如工業(yè)普查、農(nóng)業(yè)普查、人口普查、物質(zhì)庫(kù)存普查、工作設(shè)備普查等等。

  由于進(jìn)行普查的工作量大,需要?jiǎng)訂T較多的人力、物力,組織一次很不容易,因此普查的統(tǒng)計(jì)資料就顯得尤為珍貴,需要對(duì)普查后的數(shù)據(jù)整理、保存,建立相關(guān)統(tǒng)計(jì)普查數(shù)據(jù)庫(kù),通過對(duì)統(tǒng)計(jì)普查數(shù)據(jù)庫(kù)的挖掘,可以掌握相關(guān)的真實(shí)數(shù)據(jù),從普查中提煉出有價(jià)值的信息。

  (五)抽樣調(diào)查數(shù)據(jù)庫(kù)的挖掘

  在社會(huì)經(jīng)濟(jì)現(xiàn)象中,有很多現(xiàn)象,是無法進(jìn)行全面調(diào)查的,有些也不必要進(jìn)行全面調(diào)查,這樣抽樣調(diào)查的方法就顯得比較重要,它較全面調(diào)查有節(jié)省人力、財(cái)力,速度快等優(yōu)點(diǎn)。

  由于抽樣調(diào)查需要事先設(shè)計(jì)好抽樣框,要體現(xiàn)出隨機(jī)性原則,因此隨機(jī)抽樣,并不是簡(jiǎn)單地抽取,要完成一次好的隨機(jī)抽樣也并不是易事,抽樣調(diào)查的結(jié)果也非常有價(jià)值,抽樣調(diào)查的結(jié)果保存在計(jì)算機(jī)中,就形成了抽樣調(diào)查數(shù)據(jù)庫(kù)。

  通過抽樣調(diào)查數(shù)據(jù)庫(kù)的挖掘可以及時(shí)了解社會(huì)經(jīng)濟(jì),特別是居民生活方面的現(xiàn)實(shí)狀況,對(duì)企業(yè)來講可全方位地了解市場(chǎng)信息及市場(chǎng)行情。

  三、統(tǒng)計(jì)數(shù)據(jù)挖掘的方法及應(yīng)用探析

  (一)統(tǒng)計(jì)基礎(chǔ)方法

  數(shù)據(jù)挖掘經(jīng)常能夠用到統(tǒng)計(jì)的基礎(chǔ)方法,例如,用直方圖和莖葉圖對(duì)樣本數(shù)據(jù)作描述;數(shù)據(jù)結(jié)構(gòu)的基本特征可以用數(shù)據(jù)的集中頻次和頻率進(jìn)行描述;數(shù)據(jù)中心可以用均值、中位數(shù)和眾數(shù)進(jìn)行描述;數(shù)據(jù)的離散特征可以用極值與百分位點(diǎn)等進(jìn)行點(diǎn)狀描述;數(shù)據(jù)的離散特征可以用極差和離差進(jìn)行區(qū)間描述;數(shù)據(jù)特征的綜合描述可以用樣本方差或箱形圖等。

  此外,數(shù)據(jù)挖掘中,還廣泛的應(yīng)用了回歸分析,回歸又包括線性回歸和非線性回歸。

  線性回歸是最簡(jiǎn)單的回歸形式。

  雙變量回歸是將一個(gè)隨機(jī)變量看作另一個(gè)隨機(jī)變量的線性函數(shù)。

  非線性回歸用于描述變量間的曲線性式關(guān)系。

  回歸分析表明了數(shù)據(jù)間的相關(guān)關(guān)系,為進(jìn)一步的數(shù)據(jù)分析提供了依據(jù)。

  (二)聚類分析方法

  在模式類型無法得知的情況下,可以運(yùn)用聚類分析法進(jìn)行分類、識(shí)別。

  按照模式間的相似程度進(jìn)行自動(dòng)分類的聚類分析法,能夠?qū)⑾嗨贫却蟮哪J綒w為一類。

  聚類分析法有凝聚算法、分裂算法、增量聚類和劃分聚類。

  例如,層次方法就是按照一定的層次分解給定的數(shù)據(jù)對(duì)象集合,可以分為分裂層次方法和凝聚層次方法。

  聚類分析法適用于分析樣本之間的內(nèi)部關(guān)系,合理的評(píng)價(jià)樣本結(jié)構(gòu)。

  此外,孤立點(diǎn)的檢測(cè)也可以應(yīng)用聚類分析。

  聚類是為了將某個(gè)對(duì)象從大量的數(shù)據(jù)中分離出來,不是簡(jiǎn)單地將數(shù)據(jù)集聚在一起。

  目前,聚類分析廣泛應(yīng)用于圖像處理、模式識(shí)別、經(jīng)濟(jì)分析等多個(gè)領(lǐng)域。

  (三)粗集方法

  在缺少數(shù)據(jù)先驗(yàn)知識(shí)的情況下,例如隸屬函數(shù)、隸屬度和概率分布等,直接從給定的問題出發(fā),問題的近似域確定可以運(yùn)用不可分辨類與不可分辨關(guān)系,找出問題中存在的規(guī)律。

  粗集理論和證據(jù)理論、神經(jīng)網(wǎng)絡(luò)、模糊集等一樣都是進(jìn)行不確定性計(jì)算的重要理論方法,粗集方法在數(shù)據(jù)挖掘中有著廣泛的應(yīng)用,在殘缺、模糊信息和知識(shí)的分類與獲取上有著較大的應(yīng)用優(yōu)勢(shì),比較有代表性的方法有:統(tǒng)計(jì)檢驗(yàn)方法;單規(guī)則離散器方法;信息嫡方法等。

  這些方法都各具特點(diǎn),但又存在著一個(gè)共同的缺陷――每個(gè)屬性的離散化過程是各自獨(dú)立的,這忽視了不同屬性之間的關(guān)聯(lián),進(jìn)而導(dǎo)致離散的結(jié)果中包含了不合理或冗余的分割點(diǎn)。

  四、結(jié)束語(yǔ)

  可以確信,如果數(shù)學(xué)是統(tǒng)計(jì)方法的首要工具,那么以計(jì)算機(jī)和網(wǎng)絡(luò)為代表的信息技術(shù),正在成為統(tǒng)計(jì)應(yīng)用的首要工具。

  隨著統(tǒng)計(jì)學(xué)與現(xiàn)代信息技術(shù)的融合,在方法上不斷進(jìn)行新的探索,一定會(huì)為統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘未來的發(fā)展開辟一片新的天地。

  參考文獻(xiàn):

  [1]陳鳳蘭.數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].現(xiàn)代商業(yè),2010,05

  [2]吳慧香.數(shù)據(jù)挖掘在財(cái)務(wù)風(fēng)險(xiǎn)警報(bào)系統(tǒng)中的應(yīng)用[J].財(cái)會(huì)通訊,2008,02

  [3]丁衛(wèi)平,王杰華,管致錦.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)評(píng)估智能輔助決策平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].電化教育研究,2009,04

  [4]李占宣.數(shù)據(jù)庫(kù)中面向復(fù)雜應(yīng)用的查詢方法[J].電腦學(xué)習(xí),2009,04

【統(tǒng)計(jì)數(shù)據(jù)挖掘的方法及應(yīng)用】相關(guān)文章:

數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用論文10-09

數(shù)據(jù)挖掘在電子商務(wù)管理中的應(yīng)用論文10-09

Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文10-09

淺談數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用經(jīng)濟(jì)論文10-10

計(jì)算機(jī)應(yīng)用基礎(chǔ)教學(xué)方法10-26

列方程解應(yīng)用題的方法10-26

關(guān)于談經(jīng)濟(jì)統(tǒng)計(jì)的應(yīng)用方法論文10-09

淺談項(xiàng)目管理方法在物業(yè)管理的應(yīng)用10-05

中醫(yī)學(xué)多元教學(xué)方法的應(yīng)用的論文10-08

開放性應(yīng)用題的學(xué)習(xí)方法總結(jié)01-23