- 相關(guān)推薦
科研數(shù)據(jù)挖掘技術(shù)論文范文
一、數(shù)據(jù)挖掘相關(guān)概念
數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學(xué)科,它涉及到數(shù)據(jù)庫和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識,其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。
二、使用Weka進(jìn)行關(guān)聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進(jìn)行。
。ㄒ唬⿺(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。
。ǘ⿺(shù)據(jù)載入
點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級、學(xué)術(shù)著作等級、科研獲獎等級、科研立項(xiàng)等級、科研總分等級留下。
(三)關(guān)聯(lián)挖掘與結(jié)果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。
三、挖掘結(jié)果與應(yīng)用
以上是針對教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。
1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級或是國家級的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過程中一定會有國家級論文或者省級論文進(jìn)行發(fā)表來支撐立項(xiàng),所以這類教師的論文得分也會很高。針對這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動整個(gè)學(xué)校科研工作的進(jìn)展。
2、副教授類的教師科研立項(xiàng)得分很高,而講師類教師和助教類教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬惖慕處熡幸欢ǖ慕虒W(xué)經(jīng)驗(yàn),并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級以上的課題研究,因此這兩類教師的科研立項(xiàng)分?jǐn)?shù)不高。針對這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。
3、講師類教師的論文等級不高。從論文得分能夠推斷出講師類教師所發(fā)表論文的級別不高。為了鼓勵這類教師的論文發(fā)表,在今后的科研量化工作中對省級、國家級的論文級別進(jìn)行細(xì)化,并且降低一般論文的得分權(quán)重,加大高級論文的得分權(quán)重。并且鼓勵講師類教師參加假期培訓(xùn),提高自身的科研和教學(xué)水平。
【科研數(shù)據(jù)挖掘技術(shù)論文】相關(guān)文章:
云計(jì)算環(huán)境下數(shù)據(jù)挖掘技術(shù)分析論文10-09
復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)挖掘論文11-15
Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用論文10-09
數(shù)據(jù)挖掘技術(shù)的信息安全開發(fā)研究優(yōu)秀論文10-08
數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用論文10-09
關(guān)于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)研究論文10-08
Hadoop物聯(lián)網(wǎng)數(shù)據(jù)挖掘的算法分析論文10-10