小議序列模式挖掘在物流中的應(yīng)用

時(shí)間：2022-10-09 02:10:26 碩士畢業(yè)論文我要投稿

相關(guān)推薦

　　摘要：當(dāng)前第三方物流管理系統(tǒng)中以物流活動(dòng)為對(duì)象的數(shù)據(jù)庫(kù)龐大，難以發(fā)現(xiàn)有價(jià)值數(shù)據(jù)。為此，本文提出一種針對(duì)物流數(shù)據(jù)分析的經(jīng)典方法： IGSP( improved sequential pa tterns)算法。該方法通過對(duì)原始序列數(shù)據(jù)庫(kù)篩選，選出路徑序列長(zhǎng)度大于或等于候選序列長(zhǎng)度的路徑序列，進(jìn)而有針對(duì)性地產(chǎn)生過度候選序列，經(jīng)約減產(chǎn)生候選序列。利用這種產(chǎn)生候選序列的方式，能夠有效地減少候選序列數(shù)量，進(jìn)而產(chǎn)生物流中有意義的規(guī)則。案例和理論分析表明，該方法不僅縮小了掃描數(shù)據(jù)庫(kù)的規(guī)模，而且減少了生成頻繁序列的候選序列集合。

　　關(guān)鍵詞： 物流管理系統(tǒng); 數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則; 序列模式挖掘

　　1 引言

　　目前，數(shù)據(jù)挖掘技術(shù)[ 1] 正以前所未有的速度發(fā)展，已廣泛應(yīng)用于政府、電力、企業(yè)、電信、金融等行業(yè)部門，而在物流行業(yè)的應(yīng)用還不是很普遍。隨著物流信息化水平的提高，物流戰(zhàn)略已從內(nèi)部一體化向外部一體化轉(zhuǎn)變，供應(yīng)鏈管理已成為競(jìng)爭(zhēng)戰(zhàn)略中非常重要的組成部分，信息化物流網(wǎng)絡(luò)體系的應(yīng)用使數(shù)據(jù)規(guī)模不斷擴(kuò)大，產(chǎn)生巨大數(shù)據(jù)流，使企業(yè)很難對(duì)這些數(shù)據(jù)進(jìn)行高效的收集和及時(shí)決策。數(shù)據(jù)挖掘方法有效地促進(jìn)企業(yè)的業(yè)務(wù)處理過程重組，改善并強(qiáng)化對(duì)客戶的服務(wù)，實(shí)現(xiàn)企業(yè)規(guī)模優(yōu)化，有效地提高企業(yè)的競(jìng)爭(zhēng)力。因此，通過數(shù)據(jù)挖掘技術(shù)分析物流中的貨物流向，對(duì)于物流企業(yè)或者物流用戶都有著至關(guān)重要的意義。

　　數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)[ 2, 3] 能夠有效地發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系，根據(jù)已有數(shù)據(jù)預(yù)測(cè)未來發(fā)展趨勢(shì)。因此，將關(guān)聯(lián)規(guī)則技術(shù)應(yīng)用在貨物流向分析[ 4] 中，將產(chǎn)生一定影響。目前，關(guān)于序列模式挖掘的研究已有很多。如基于垂直格式的候選碼生成- 測(cè)試的方法- SPADE 算法[5] ;基于模式增長(zhǎng)的方法- prefixspan算法[ 6] 等，還有分布式環(huán)境下序列模式挖掘算法- FMGSP[ 7] 和FMGMFI[ 8] 等。

　　但經(jīng)典GSP算法[9] 是產(chǎn)生關(guān)聯(lián)規(guī)則最有影響力的算法，該算法是基于Aprio ri算法的候選碼生成與測(cè)試的方法，該方法實(shí)現(xiàn)對(duì)時(shí)間約束數(shù)據(jù)(如：規(guī)定時(shí)間的貨物運(yùn)送目的地) 的挖掘，產(chǎn)生頻繁序列，進(jìn)而生成規(guī)則。但是， GSP算法有它的缺點(diǎn)[ 10] :

　　第一，在大型數(shù)據(jù)庫(kù)中會(huì)有相當(dāng)多的候選序列產(chǎn)生。因?yàn)樾蛄兄械脑厥怯行虻�，所以不同元素的交換就會(huì)產(chǎn)生很多不同的序列，而且項(xiàng)目也可以是重復(fù)的，產(chǎn)生的候選2- 序列就一共有5個(gè)： < ab> , < ba> , < aa> , < bb> , < ( ab) > 。

　　第二，在挖掘過程中要多次掃描數(shù)據(jù)庫(kù)。候選序列的長(zhǎng)度每增加1,就需要掃描1次數(shù)據(jù)庫(kù)。通常，要找出長(zhǎng)度為L(zhǎng)的頻繁序列，至少要掃描L次數(shù)據(jù)庫(kù)。

　　第三，在挖掘長(zhǎng)模式時(shí)，會(huì)產(chǎn)生巨大的候選序列。一個(gè)長(zhǎng)模式包含很多的子模式，每個(gè)子模式都需要生成-測(cè)試，這將導(dǎo)致候選序列的數(shù)量隨著需要挖掘的序列模式的長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。

　　為此，本文以物流貨物流向分析為背景提出了GSP算法的改進(jìn)算法IGSP算法。該算法在產(chǎn)生各個(gè)不同長(zhǎng)度的候選序列過程中，首先對(duì)原序列數(shù)據(jù)庫(kù)進(jìn)行篩選，選出序列長(zhǎng)度大于或等于候選序列長(zhǎng)度的序列，進(jìn)而有針對(duì)性地對(duì)這些序列產(chǎn)生過渡候選序列，經(jīng)過aprior i性質(zhì)約減后產(chǎn)生候選序列。通過這種方法大大減少了候選序列的數(shù)量，而且也降低了對(duì)于原始數(shù)據(jù)庫(kù)的掃描次數(shù)，能夠有效地生成頻繁序列。

　　2 物流信息挖掘過程

　　在物流決策支持系統(tǒng)中首先明確挖掘的目標(biāo)就是發(fā)現(xiàn)在未來物流市場(chǎng)上的貨物流向，物流用戶通過該決策支持系統(tǒng)可以發(fā)現(xiàn)不同的貨主選擇把同樣的一批貨物分別運(yùn)往的目的，而物流企業(yè)可以通過物流決策支持系統(tǒng)發(fā)現(xiàn)未來的物流市場(chǎng)可能出現(xiàn)的變動(dòng)。物流信息挖掘整個(gè)過程。

　　2. 1 物流信息挖掘的數(shù)據(jù)預(yù)處理和收集物流信息挖掘收集了第三方物流管理信息系統(tǒng)中的關(guān)于物流活動(dòng)的大量數(shù)據(jù)。而這些數(shù)據(jù)的數(shù)據(jù)源并不相同，為了操作方便，把這些數(shù)據(jù)集成于數(shù)據(jù)倉(cāng)庫(kù)中。在第三方物流管理信息系統(tǒng)中，隨著物流活動(dòng)的不斷發(fā)生，從中得到的數(shù)據(jù)集也會(huì)越來越大，因此選定數(shù)據(jù)在挖掘前，必須加以精煉處理，辨別出需要進(jìn)行分析的數(shù)據(jù)集合，縮小挖掘范圍，避免盲目搜索，提高數(shù)據(jù)挖掘的效率和質(zhì)量( 見圖1數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)采集階段)。

　　2. 2 物流信息挖掘的結(jié)果解釋和評(píng)估將可視化工具與挖掘工具結(jié)合起來，把每次的分析結(jié)果清晰、準(zhǔn)確、明了的表達(dá)出來。物流決策支持系統(tǒng)經(jīng)物流用戶和物流企業(yè)使用以后，根據(jù)用戶反饋進(jìn)行結(jié)果評(píng)估( 見圖1結(jié)果表達(dá)階段)。

　　3 物流信息挖掘算法- IGSP算法

　　序列模式挖掘算法GSP是基于aprior i算法。首先通過掃描原始數(shù)據(jù)庫(kù)找出所有的頻繁1 - 序列; 然后利用連接操作通過頻繁1- 序列產(chǎn)生候選2- 序列，再次掃描數(shù)據(jù)庫(kù)計(jì)數(shù)候選序列，找出滿足最小支持度的頻繁2 - 序列; 用頻繁k- 序列( k! 2)產(chǎn)生候選k+ 1- 序列，掃描數(shù)據(jù)庫(kù)找出頻繁k+ 1 序列; 重復(fù)這個(gè)操作，直到?jīng)]有候選序列產(chǎn)生為止。該算法雖然通過aprio ri性質(zhì)進(jìn)行了大幅度壓縮，但仍避免不了頻繁掃描整個(gè)數(shù)據(jù)庫(kù)進(jìn)行支持度的計(jì)算，因此降低了整個(gè)算法的效率。

　　本文提出的算法IGSP, 無論是在候選序列數(shù)目上還是掃描數(shù)據(jù)庫(kù)次數(shù)上都有很大改進(jìn)。算法IGSP利用序列數(shù)據(jù)庫(kù)S產(chǎn)生長(zhǎng)度為1 的候選序列C1, 然后掃描數(shù)據(jù)庫(kù)S, 對(duì)C1 中每個(gè)項(xiàng)的出現(xiàn)次數(shù)計(jì)數(shù)，確定頻繁1- 序列L1, 同時(shí)將不滿足最小支持度條件的項(xiàng)從S 中刪除，并且將項(xiàng)數(shù)少于2的序列從S中刪除，產(chǎn)生過渡候選2- 序列C? 2, 然后由C? 2 產(chǎn)生長(zhǎng)度為2的候選序列C2�？梢奍G??

　　SP算法第一次遍歷原始數(shù)據(jù)庫(kù)之后就不再掃描原始數(shù)據(jù)庫(kù)來計(jì)算支持度，而通過過渡序列集合C? k計(jì)算，并且利用頻繁序列Lk- 1對(duì)C? k進(jìn)行篩選，將不符合最小支持度的元素從C? k中刪除，最后將項(xiàng)數(shù)小于或等于( k- 1)的事務(wù)刪除以縮小C? k。這樣大大減少了候選2 - 序列C2 數(shù)目，有效的縮減序列數(shù)據(jù)庫(kù)，并減少了掃描原始數(shù)據(jù)庫(kù)的次數(shù)，提高了算法效率。

　　IGSP算法形式化描述如下(略，備索)。

　　4 案例分析

　　數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則技術(shù)就是發(fā)現(xiàn)事物之間有意義的聯(lián)系和規(guī)則，能夠從事物數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)和其它數(shù)據(jù)存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。因此，利用關(guān)聯(lián)規(guī)則技術(shù)可以對(duì)物流中的路徑數(shù)據(jù)進(jìn)行分析、挖掘，找出頻繁出現(xiàn)的路徑信息，以發(fā)現(xiàn)物流市場(chǎng)上的貨物流向及未來可能出現(xiàn)的變動(dòng)。

　　支持度：表示規(guī)則出現(xiàn)的頻度， support( A# B ) = P( A? B) 。

　　如80%的鋼材鐵板都要裝到45英尺的集裝箱里，則定義45英尺的集裝箱的支持度為80%。

　　置信度：表示規(guī)則的強(qiáng)度， confidence( A# B) = P( B |A) 。

　　如60%的40英尺的集裝箱可以同時(shí)裝A、B、C 三種貨物，則可以定義這樣一條規(guī)則：裝有貨物A、B 的集裝箱可以同時(shí)裝C, 則稱裝有貨物A、B 的集裝箱可以同時(shí)裝C的置信度為60%。

　　挖掘貨物路徑規(guī)則大概可以分為兩步：第一，找出所有的頻繁路徑序列。這部分由本文提出的IMGSP算法來解決。第二，由頻繁路徑序列來生成相關(guān)聯(lián)的路徑規(guī)則。

　　這些規(guī)則需滿足最小支持度和最小置信度。

　　在第三方物流管理信息系統(tǒng)中，數(shù)據(jù)庫(kù)D 為第三方物流管理信息系統(tǒng)中的物流活動(dòng)數(shù)據(jù)庫(kù)。由于數(shù)據(jù)較多，這里所給出的數(shù)據(jù)表中只列出了部分?jǐn)?shù)據(jù)，見表1。

　　表中列出了幾個(gè)屬性進(jìn)行關(guān)聯(lián)規(guī)則挖掘，這里只對(duì)物流企業(yè)管理系統(tǒng)來加以說明。假設(shè)物流企業(yè)對(duì)貨物A進(jìn)行操作，考慮時(shí)間和用戶編號(hào)等相關(guān)屬性，收集路徑信息，轉(zhuǎn)換后得到路徑序列數(shù)據(jù)庫(kù)。

　　假設(shè)最小支持計(jì)數(shù)為2, 對(duì)轉(zhuǎn)換后的路徑序列數(shù)據(jù)庫(kù)采用IGSP算法挖掘頻繁路徑，則算法的挖掘過程如下所示：

　　首先掃描整個(gè)序列數(shù)據(jù)庫(kù)- 表2, 對(duì)每個(gè)項(xiàng)計(jì)數(shù)，產(chǎn)生長(zhǎng)度為1的候選序列C1, 見表3。因?yàn)樘旖颉⒅貞c不滿足用戶規(guī)定的最小支持度，所以生成長(zhǎng)度為1 的頻繁序列L1 時(shí)要去掉天津、重慶，根據(jù)算法IGSP更新路徑數(shù)據(jù)庫(kù)，刪除包括天津、重慶的項(xiàng)， L1見表4。其中， SID 為1的路徑序列中去掉天津，就成為只有一個(gè)元素的序列，不應(yīng)該出現(xiàn)在C2 中，故刪除S ID為1的路徑序列。同樣，將SID為3的路徑序列縮減為包含3個(gè)元素的序列; 然后生成長(zhǎng)度為2的過渡候選路徑序列集合C? 2, 見表5。根據(jù)性質(zhì)1和過渡候選路徑序列集合C? 2 中路徑序列出現(xiàn)次數(shù)生成長(zhǎng)度為2的候選序列集合C2, 見表6( 略，備索)。

　　在C2 中{ 上海，南京} {廣州，上海} {上海，廣州} {南京，廣州} 不滿足最小支持度，去除{上海，南京} {廣州，上海} {上海，廣州} {南京，廣州}生成長(zhǎng)度為2的頻繁路徑序列L2, 見表7 (略，備索)。根據(jù)算法IGSP從C? 2 中刪除包含{上海，南京} { 廣州，上海} { 上海，廣州} {南京，廣州} 的項(xiàng)，其中SID為2的路徑序列只包含2 個(gè)元素，SID為3的路徑序列也只包含2個(gè)元素，而SID 為5的路徑序列只包含一個(gè)元素，都不應(yīng)該被包含在C3 中，故刪除S ID為2, 3和5的路徑序列，根據(jù)算法IGSP生成長(zhǎng)度為3的過渡候選路徑序列集合C? 3, 見表8(略，備索) ; 然后根據(jù)性質(zhì)1和C? 3 中路徑序列出現(xiàn)次數(shù)生成C3, 見表9( 略，備索) , 因不滿足最小支持度，所有沒有長(zhǎng)度為3的頻繁路徑序列產(chǎn)生，挖掘過程結(jié)束。

　　分析：算法IGSP能夠有針對(duì)性地產(chǎn)生過渡候選路徑序列，通過aprior i性質(zhì)進(jìn)一步篩選產(chǎn)生候選序列，大大減少了候選序列的數(shù)量。如表5產(chǎn)生的過渡候選2 - 序列數(shù)目為10, 經(jīng)過篩選后產(chǎn)生候選2- 序列數(shù)目為7。假設(shè)采用算法GSP挖掘路徑數(shù)據(jù)庫(kù)表2, 產(chǎn)生候選- 2序列：

　　{ 北京，廣州} {北京，上海} {北京，南京} {廣州，上海} {廣州，南京} {上海，南京} { 廣州，北京} {上海，北京} { 南京，北京} {上海，廣州} {南京，廣州} {南京，上海} { (北京，廣州) } { ( 北京，上海) } { ( 北京，南京) } { (廣州，上海) }

　　{ (廣州，南京) } { ( 上海，南京) } { 北京，北京} { 上海，上海} {廣州，廣州} { 南京，南京}, 共22 個(gè)2 - 候選序列。

　　相比之下，算法IGSP能夠大大約減候選序列，尤其是候選2- 序列。不僅如此，算法IGSP在整個(gè)挖掘過程中，僅需要掃描數(shù)據(jù)庫(kù)一次，后面統(tǒng)計(jì)計(jì)數(shù)只需統(tǒng)計(jì)過渡候選序列即可，減少了掃描原始數(shù)據(jù)庫(kù)的次數(shù)，降低了I/O開銷。

　　5 結(jié)論

　　本文針對(duì)物流信息管理系統(tǒng)中貨物流向分析這一需求，提出了物流信息挖掘算法- IGSP算法。IGSP算法基于經(jīng)典算法GSP算法改進(jìn)而來，首先根據(jù)頻繁k - 序列Lk更新數(shù)據(jù)庫(kù)，刪除長(zhǎng)度小于k + 1的路徑序列，然后生成過度候選序列C? k+ 1, 進(jìn)而通過aprior i性質(zhì)篩選產(chǎn)生候選序列Ck+ 1, 這樣能夠有針對(duì)性地產(chǎn)生候選序列，大大減少了候選序列數(shù)目，尤其是候選2- 序列。不僅如此，算法IGSP還減少了掃描數(shù)據(jù)庫(kù)的次數(shù)，有效地降低了I /O操作成本。雖然該算法在產(chǎn)生候選序列方面已大大壓縮，但是當(dāng)數(shù)據(jù)庫(kù)中的路徑序列長(zhǎng)度變得很大時(shí)，該算法仍將會(huì)產(chǎn)生很多候選碼，效率就會(huì)相應(yīng)降低，這也正是將本算法應(yīng)用在物流貨物流向分析而不是生物DNA分析方面的原因(路徑序列長(zhǎng)度不像DNA序列那樣長(zhǎng))。

　　為此以后工作中，我們將提出最大頻繁序列模式這個(gè)概念，最大頻繁項(xiàng)目集中已經(jīng)隱含了所有頻繁項(xiàng)目集，所以可把發(fā)現(xiàn)頻繁項(xiàng)目集的問題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項(xiàng)目集的問題。另外，某些數(shù)據(jù)挖掘應(yīng)用僅需發(fā)現(xiàn)最大頻繁項(xiàng)目集，而不必發(fā)現(xiàn)所有的頻繁項(xiàng)目集，因而發(fā)現(xiàn)最大頻繁項(xiàng)目集對(duì)數(shù)據(jù)挖掘具有重大意義。

　　參考文獻(xiàn)：

　　[ 1] HAN J, KAMBER M. Data m ining C oncep ts and T echniques S econd Edition [M] . 北京：北京機(jī)械工業(yè)出版社，2006

　　[ 2] PARKJ S, PSY U. An effic ient parallel data m in ing fo rassoc ia tion rules [ C ] Proc. of the 4th on In fo rm ation andKnow ledg eM anag em ent, New York: ACM Press, 1995: 31~ 36

　　[ 3] CH EUNG D W, HAN J, NG V T, e t a .l A fast d istr ibuted a lgo rithm for m in ing asso ciation ru les[ A]. Proc. o f the4th Interna tiona l Con ference on Parallel and D istr ibuted In fo ation System s. Los A lam itos, Ca.l , USA: IEEE Compu terSoc iety Press, 1996: 31~ 44

　　[ 4]徐曉飛，鄧勝春。基于關(guān)聯(lián)規(guī)則的零部件供應(yīng)商選擇優(yōu)化[ J] . 計(jì)算機(jī)集成制造系統(tǒng)， 2004, 10( 3) : 13~ 16

　　[ 5] ZAK IM. Spade: An e fficient a lgo rithm for m ining frequent sequences [ J]. M ach ine Learning, 2001, 41( 2) : 31~ 60

　　[ 6] PE I. J, HAN J, PINTO. H, et a.l U, & Pre fixSpan:

　　M in ing Sequential Patterns E ffic iently by Pre fix - ProjectedPa ttern Grow th?, IEEE T ransactions on Know ledge & Da taEng ineering, Vo .l 16, No. 1, pp. 1424 ~ 1440, January,2004

　　[ 7] Zhang Changha,i H u Kong fa, L iu H a idong, et a.l FMG??

　　SP: An E fficientM e thod o fM in ing G loba l Sequentia l Patterns[ C ]. In: Pro c o f the 4 th International Conference on fuzzysystem s and know ledg e discovery. H a inan, Ch ina: IEEECom puter So ciety, 2007: 761~ 765

　　[ 8]陸介平，楊明，孫志揮等。快速挖掘全局最大頻繁項(xiàng)目集[ J] . 軟件學(xué)報(bào)， 2005, 16( 4)： 553~ 560

　　[ 9] SRIKANT R, AGRAWAL R. M in ing sequentia l patterns: Genera lizations and perform ance improvem ents. [ C ].

　　Proc. of 5th Internationa l Conference on Ex tending DatabaseTechno logy, H e idelberg: Springer, 1996: 3~ 17

　　[ 10]張長(zhǎng)海，胡孔法，陳崚。序列模式挖掘算法綜述[ J].揚(yáng)州大學(xué)學(xué)報(bào)， 2007, 10( 1) : 41~ 46

【小議序列模式挖掘在物流中的應(yīng)用】相關(guān)文章：

淺談JIT模式在電網(wǎng)公司物流中的應(yīng)用10-26

網(wǎng)絡(luò)營(yíng)銷中數(shù)據(jù)挖掘技術(shù)的應(yīng)用10-07

旅游管理中的情景模式應(yīng)用論文10-08

數(shù)據(jù)挖掘在電子商務(wù)管理中的應(yīng)用論文10-09

計(jì)算機(jī)應(yīng)用基礎(chǔ)教學(xué)在合作學(xué)習(xí)模式在中的應(yīng)用10-07

合作學(xué)習(xí)模式在初中數(shù)學(xué)中的應(yīng)用論文10-11

綜合管理模式在搶救車管理中的應(yīng)用10-07

PBL與案例整合模式在婦科護(hù)理中的應(yīng)用論文10-08

外科護(hù)理教學(xué)中案例教學(xué)模式的應(yīng)用論文10-10

亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

小議序列模式挖掘在物流中的應(yīng)用