- 相關(guān)推薦
圖書館對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的大數(shù)據(jù)分析平臺(tái)構(gòu)論文
高校圖書館因擁有豐富的數(shù)字資源和良好的學(xué)習(xí)環(huán)境,成為學(xué)校師生學(xué)習(xí)和休閑的重要場(chǎng)所.學(xué)生作為高校圖書館服務(wù)對(duì)象主體之一,其學(xué)業(yè)和高校圖書館所提供的服務(wù)必然存在一定的關(guān)系,因此圖書館對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)研究是指導(dǎo)高校圖書館投入產(chǎn)出的重要組成部分
大數(shù)據(jù)技術(shù)作為一種新興的海量數(shù)據(jù)分析工具越來(lái)越受到各行各業(yè)的重視.互聯(lián)網(wǎng)企業(yè)Google及Facebook之所以取得令人矚目的成績(jī),其核心的本質(zhì)就是其公司記錄和分析了用戶的行為大數(shù)據(jù),從而精確掌握用戶行為并形成預(yù)判.
由此可見(jiàn),大數(shù)據(jù)技術(shù)對(duì)于海量、高速發(fā)展的數(shù)據(jù)具有很好的分析和管理能力,它被用來(lái)研究圖書館用戶行為的“大數(shù)據(jù)”是最佳選擇,研究成果可以為高校圖書館服務(wù)決策提供客觀的依據(jù),具有重要理論研究意義和實(shí)際應(yīng)用價(jià)值.
1大數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù)是一系列收集、存儲(chǔ)、管理、處理、分析、共享和可視化技術(shù)的集合.大數(shù)據(jù)的關(guān)鍵技術(shù)有很多,如借鑒生物界的進(jìn)化規(guī)律演化的隨機(jī)化搜索方法已被人們廣泛應(yīng)用于組合優(yōu)化、機(jī)器學(xué)習(xí)、信號(hào)處理、自適應(yīng)控制等領(lǐng)域;再如分布式技術(shù)包含分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、分布式計(jì)算框架等,其已經(jīng)全面運(yùn)用于各類大數(shù)據(jù)應(yīng)用中.大數(shù)據(jù)價(jià)值的完整體現(xiàn)則需要多種技術(shù)的協(xié)同,總的來(lái)說(shuō)可以歸納為以下幾種:
(1)分布式技術(shù).最典型的是Apache基金會(huì)的Hadoop大數(shù)據(jù)分布式處理軟件框架,主要延續(xù)了Google分布式文件系統(tǒng)GFS的開(kāi)源思想、分布式計(jì)算框架MapReduce和分布式數(shù)據(jù)庫(kù)BigTable的實(shí)現(xiàn)機(jī)理,開(kāi)發(fā)了自有的產(chǎn)品--HDFS分布式文件系統(tǒng)、MapReduce分布式編程框架和HBase分布式數(shù)據(jù)庫(kù).
(2)大數(shù)據(jù)預(yù)處理技術(shù).大數(shù)據(jù)的一個(gè)重要特點(diǎn)是多樣性,這就意味著數(shù)據(jù)來(lái)源極其廣泛、數(shù)據(jù)類型極為繁雜,這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)處理帶來(lái)了極大的挑戰(zhàn).所以在分析大數(shù)據(jù)前,首先必須對(duì)海量數(shù)據(jù)源進(jìn)行預(yù)處理,以保證數(shù)據(jù)質(zhì)量及可信性.
大數(shù)據(jù)挖掘技術(shù).數(shù)據(jù)挖掘是整個(gè)大數(shù)據(jù)處理流程的核心,因?yàn)榇髷?shù)據(jù)的價(jià)值產(chǎn)生于挖掘過(guò)程.數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、P逭機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程.大數(shù)據(jù)挖掘的算法眾多,其中(1)以分類算法、聚類挖掘算法、關(guān)聯(lián)挖掘算法、序列挖掘算法最為主流.
2圍書館大數(shù)據(jù)分析面臨的問(wèn)題及數(shù)據(jù)構(gòu)成
2.1圖書館大數(shù)據(jù)分析面臨的問(wèn)題
大數(shù)據(jù)時(shí)代的圖書館讀者行為大數(shù)據(jù)具有數(shù)據(jù)海量、類型復(fù)雜、處理速度快和價(jià)值密度低的特點(diǎn),要對(duì)這些大數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ)與分析,對(duì)圖書館來(lái)說(shuō)有著極大的挑戰(zhàn)性.以下是3個(gè)亟待解決問(wèn)題:⑴數(shù)據(jù)的存儲(chǔ)能九學(xué)生在圖書館的所有行為活動(dòng)都將產(chǎn)生數(shù)據(jù),數(shù)據(jù)量已由TB級(jí)升至PB級(jí),而且還在源源不斷地增加,數(shù)據(jù)量的增長(zhǎng)速度已遠(yuǎn)遠(yuǎn)大于存儲(chǔ)能力的增長(zhǎng)速度.(2)數(shù)據(jù)類型復(fù)雜繁多.學(xué)生對(duì)圖書館的利用行為數(shù)據(jù)不僅僅是簡(jiǎn)單的二維表格式存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),還有以文本、圖片、XML文檔、JSON文檔、日志文件和音頻/視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)無(wú)法有效管理這些數(shù)據(jù).(3)數(shù)據(jù)處理的實(shí)時(shí)性.大數(shù)據(jù)時(shí)代強(qiáng)調(diào)的是數(shù)據(jù)處理的及時(shí)有效,圖書館要求大數(shù)據(jù)分析平臺(tái)可以快速地獲取、存儲(chǔ)和分析學(xué)生的行為數(shù)據(jù),為圖書館提供快速的決策支持.
面對(duì)上述問(wèn)題,傳統(tǒng)數(shù)據(jù)分析工具已不再適合,而Hadoop大數(shù)據(jù)分布式存儲(chǔ)與計(jì)算框架能很好地解決了這些問(wèn)題,因此基于Hadoop建立統(tǒng)一的圖書館大數(shù)據(jù)存儲(chǔ)和分析平臺(tái)變得尤為迫切.
2.2圖書館大數(shù)據(jù)的構(gòu)成分析
針對(duì)目前寧波大學(xué)在校的本科學(xué)生,將其對(duì)圖書館利用行為和學(xué)業(yè)成效相關(guān)數(shù)據(jù)(2010?2014年)作為此次實(shí)驗(yàn)的數(shù)據(jù)源.經(jīng)過(guò)分析,確定數(shù)據(jù)源由學(xué)生個(gè)人信息、學(xué)生學(xué)業(yè)相關(guān)數(shù)據(jù)及圖書館利用行為數(shù)據(jù)三部分組成,數(shù)據(jù)類型包括結(jié)構(gòu)化的二維表數(shù)據(jù)和非結(jié)構(gòu)化的日志數(shù)據(jù),數(shù)據(jù)總量共計(jì)6108萬(wàn)條記錄.其中,學(xué)生學(xué)業(yè)相關(guān)完整數(shù)據(jù)有120萬(wàn)條記錄;圖書館利用行為數(shù)據(jù)包括從圖書館門禁系統(tǒng)(357萬(wàn))、閱覽室座位管理系統(tǒng)(320萬(wàn))、圖書借閱系統(tǒng)(247萬(wàn))、數(shù)字資源訪問(wèn)日志(5064萬(wàn))等途徑獲取學(xué)生的圖書館服務(wù)數(shù)據(jù)共計(jì)5988萬(wàn)條記錄,為圖書館服務(wù)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)研究提供基礎(chǔ)的大數(shù)據(jù)參考樣本.
從上述統(tǒng)計(jì)來(lái)看,實(shí)驗(yàn)涉及到的數(shù)據(jù)量級(jí)已在十億字節(jié)以上,而且還在隨著時(shí)間的推移成線性增長(zhǎng),因此定期將相關(guān)系統(tǒng)中每天生成的數(shù)據(jù)導(dǎo)入Hadoop大數(shù)據(jù)平臺(tái)成為必然的選擇.目前此次實(shí)驗(yàn)數(shù)據(jù)的收集整理工作已經(jīng)基本完成,初步擬定大數(shù)據(jù)主題分析的內(nèi)容見(jiàn)表1.
高校大學(xué)生學(xué)業(yè)成效主要由學(xué)業(yè)成績(jī)、獎(jiǎng)勵(lì)情況和科研能力三部分組成.學(xué)業(yè)成績(jī)主要是學(xué)生的在校的各類專業(yè)課和選修課的考試成績(jī)積點(diǎn)分,獎(jiǎng)勵(lì)情況是在校期間參加社團(tuán)活動(dòng)、校級(jí)活動(dòng)等獲得的獎(jiǎng)勵(lì)或榮譽(yù)稱號(hào),科研能力是指參與科研項(xiàng)目或發(fā)表論文等.
圖書館利用行為此內(nèi)容,并綜合已有的相關(guān)研究關(guān)注的內(nèi)容,再結(jié)合寧波大學(xué)的實(shí)際情況,考慮選取以下幾方面:(1)X寸紙質(zhì)館藏的利用,包括入館記錄(室內(nèi)閱讀情況)和借閱記錄等;(2)對(duì)閱覽室的利用,包括入室記錄和在館時(shí)間(座位管理系統(tǒng)記錄情況)等;(3)數(shù)字資源的利用,包括數(shù)據(jù)庫(kù)檢索次數(shù)和全文下載次數(shù)等;(4)其他,如對(duì)網(wǎng)絡(luò)的利用等.
上述是高校圖書館服務(wù)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)研究中主題分析的相關(guān)內(nèi)容,但在實(shí)際的分析建模過(guò)程中,可以進(jìn)行適當(dāng)?shù)娜∩峄蛟黾?
3圖書館成效貢獻(xiàn)的大數(shù)據(jù)分析平臺(tái)構(gòu)建
3.1圖書館大數(shù)據(jù)分析平臺(tái)的總體架構(gòu)
基于Hadoop的圖書館大數(shù)據(jù)分析平臺(tái)主要分為兩層一大數(shù)據(jù)預(yù)處理層和主題模型構(gòu)建層,自下往上每層都為上層提供服務(wù).整體的架構(gòu)設(shè)計(jì)如圖1所示.
3.2圖書館大數(shù)據(jù)預(yù)處理方案的設(shè)計(jì)
圖書館大數(shù)據(jù)預(yù)處理層主要是利用Hadoop集群在存儲(chǔ)和計(jì)算能力的優(yōu)越性,并結(jié)合大數(shù)據(jù)預(yù)處理技術(shù),來(lái)對(duì)學(xué)生圖書館活動(dòng)及學(xué)業(yè)數(shù)據(jù)進(jìn)行預(yù)處理?具體的設(shè)計(jì)方案流程如圖2所示.
整個(gè)方案采用分層設(shè)計(jì)思想,底層是Hadoop分布式平臺(tái)層.目前實(shí)驗(yàn)采用10臺(tái)Linux操作系統(tǒng)的普通服務(wù)器機(jī)子,并分別在每臺(tái)機(jī)器上安裝JDK、SSH、Hadoop和Hbase,搭建Hadoop完全分布式運(yùn)行環(huán)境.整個(gè)集群規(guī)劃為:NameNode:10.22.102.46,DataNode1~DataNode9:10.22.102.47?10.22.102.55.HDFS是分布式計(jì)算的存儲(chǔ)基礎(chǔ),主要用于存儲(chǔ)學(xué)生圖書館利用行為和學(xué)業(yè)成效相關(guān)源數(shù)據(jù)氣其采用Master/Slave結(jié)構(gòu),集群包括1個(gè)NameNode和多個(gè)DataNodes,NameNode負(fù)責(zé)整個(gè)集群的任務(wù)調(diào)度分配,DataNode則是存儲(chǔ)實(shí)際的數(shù)據(jù)?MapReduce過(guò)程是把從HDFS中待處理的學(xué)生圖書館利用行為和學(xué)業(yè)成效相關(guān)源數(shù)據(jù)集分解成M個(gè)小數(shù)據(jù)集進(jìn)行并行Map操作,輸出中間態(tài)鍵值對(duì)<眾,value〉,然后根據(jù)眾值進(jìn)行Group操作,形成新的小數(shù)據(jù)組集<々,list(value)>,最后將這些小數(shù)據(jù)組集分割成R個(gè)集合,進(jìn)行Reduce操作后存儲(chǔ)到分布式數(shù)據(jù)庫(kù)中.Hbase是個(gè)基于列存儲(chǔ)的分布式數(shù)據(jù)庫(kù),數(shù)據(jù)行有3種基本類型:行關(guān)鍵字、時(shí)間戳和列,行關(guān)鍵字是數(shù)據(jù)表的唯一標(biāo)示.海量的學(xué)生圖書館利用行為和學(xué)業(yè)成效相關(guān)數(shù)據(jù)通過(guò)MapReduce計(jì)算后,可以A:值作為行關(guān)鍵字進(jìn)行分布式存儲(chǔ),實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)與管理功能.
在Hadoop層之上,則為相應(yīng)的大數(shù)據(jù)預(yù)處理模塊,可以透明地調(diào)用Hadoop底層的計(jì)算和存儲(chǔ)能力,包括數(shù)據(jù)清理、變換、集成及歸一化4個(gè)子模塊.數(shù)據(jù)清理是刪除那些不符合要求的記錄.數(shù)據(jù)集成是將來(lái)自不同應(yīng)用系統(tǒng)中的數(shù)據(jù)源合并到一起,形成一致的數(shù)據(jù)存儲(chǔ).數(shù)據(jù)轉(zhuǎn)換是將學(xué)生學(xué)業(yè)相關(guān)數(shù)據(jù)和圖書館相關(guān)應(yīng)用系統(tǒng)中的數(shù)據(jù)用一定的格式來(lái)表示,以方便后期做關(guān)聯(lián)挖掘.歸一化處理是把數(shù)據(jù)值控制在一定的范圍內(nèi),保證程序運(yùn)行時(shí)收斂加快.最終將處理好的數(shù)據(jù)通過(guò)接口或其他方式輸出.
3.2圖書館服務(wù)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的主題模型
構(gòu)建思路
圖書館服務(wù)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的主題建模主要是利用大數(shù)據(jù)挖掘算法對(duì)相關(guān)數(shù)據(jù)進(jìn)行深入分析挖掘,精確發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,構(gòu)建相應(yīng)的主題分析模型.具體的分析挖掘過(guò)程如下:首先選擇合適的聚類算法將學(xué)生群體和圖書館服務(wù)資源數(shù)據(jù)按照一定的規(guī)則分割成不同的集合,分析不同集合表現(xiàn)出的特征;其次利用關(guān)聯(lián)規(guī)則挖掘算法對(duì)主題分析的內(nèi)容進(jìn)行關(guān)聯(lián)挖掘,分析各項(xiàng)數(shù)據(jù)之間存在的關(guān)系;最后采用決策樹(shù)分類算法做一些預(yù)測(cè)性主題分析?
最終擬定圖書館服務(wù)與學(xué)生學(xué)業(yè)成效的主題模型主要從以下幾個(gè)主題分析方向進(jìn)行構(gòu)建:
(1)各學(xué)院在某學(xué)年/學(xué)期學(xué)生整體學(xué)業(yè)成效情況分別與對(duì)圖書館利用行為(學(xué)院平均進(jìn)出閱覽室時(shí)長(zhǎng)、借閱次數(shù)、數(shù)字資源利用)的相關(guān)性分析.
(2)各專業(yè)在某學(xué)年/學(xué)期不同班級(jí)間學(xué)業(yè)成效分布情況與對(duì)圖書館利用行為(班級(jí)平均進(jìn)出閱覽室時(shí)長(zhǎng)、借閱次數(shù)、數(shù)字資源利用)的相關(guān)性分析.
(3)相同專業(yè)學(xué)業(yè)成效相差較大的個(gè)人與對(duì)圖書館利用行為(個(gè)人進(jìn)出閱覽室時(shí)長(zhǎng)、借閱次數(shù)、數(shù)字資源利用)的相關(guān)性分析.
(4)圖書館不同的資源服務(wù)(紙質(zhì)館藏、閱覽室利用、數(shù)字資源等)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的比重進(jìn)行分析.
此外,在上述主題分析中分別加入控制因素(性別、生源地以及高考成績(jī)),分析它們與學(xué)生學(xué)業(yè)成效的相關(guān)性,建立相應(yīng)的主題關(guān)聯(lián)模型,達(dá)到指導(dǎo)服務(wù)決策與優(yōu)化資源配置的目的,最終更好的為用戶提供服務(wù)資源.
4結(jié)語(yǔ)
高校圖書館對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的研究,以學(xué)生作為研究主體,以學(xué)生的學(xué)業(yè)成效作為關(guān)注目標(biāo),提出基于Hadoop開(kāi)源平臺(tái)與大數(shù)據(jù)技術(shù)進(jìn)行分析與主題建模,探索學(xué)生對(duì)于圖書館的利用與其學(xué)業(yè)成效之間的關(guān)系.在整個(gè)主題模型構(gòu)建過(guò)程中,將一些控制因素加入到圖書館與學(xué)業(yè)成效的關(guān)聯(lián)分析中,根據(jù)分析結(jié)果可以反過(guò)來(lái)指導(dǎo)完善圖書館服務(wù)對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)主題模型的構(gòu)建,從而更全面地對(duì)高校圖書館資源與服務(wù)在幫助學(xué)生提高學(xué)業(yè)成效方面的作用進(jìn)行考察.最終的研究成果可指導(dǎo)圖書館進(jìn)一步將服務(wù)嵌入到學(xué)生學(xué)習(xí)的每一個(gè)細(xì)節(jié)處,并以此為依據(jù)提升圖書館服務(wù)的質(zhì)量與水平.
【圖書館對(duì)學(xué)生學(xué)業(yè)成效貢獻(xiàn)的大數(shù)據(jù)分析平臺(tái)構(gòu)論文】相關(guān)文章:
大數(shù)據(jù)云平臺(tái)推廣語(yǔ)12-29
大數(shù)據(jù)在旅游管理的應(yīng)用論文10-12
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較論文11-13
大數(shù)據(jù)計(jì)算機(jī)信息的處理技術(shù)論文10-11
大數(shù)據(jù)時(shí)代銀行信息安全保護(hù)探究論文10-11
大數(shù)據(jù)信息安全風(fēng)險(xiǎn)框架及策略論文10-11
網(wǎng)絡(luò)平臺(tái)在土木工程的應(yīng)用論文10-13