亚洲色影视在线播放_国产一区+欧美+综合_久久精品少妇视频_制服丝袜国产网站

論文范文

高維時空房地產(chǎn)數(shù)據(jù)的可視分析論文

時間:2022-10-11 06:08:08 論文范文 我要投稿
  • 相關推薦

高維時空房地產(chǎn)數(shù)據(jù)的可視分析論文

  房地產(chǎn)數(shù)據(jù)是典型的時空高維數(shù)據(jù),包含了樓展趨勢.可視化分析房地產(chǎn)數(shù)據(jù)能直觀、有效、交互盤的地理分布、樓盤價格和銷售量等其他未知的發(fā)式地展示數(shù)據(jù),幫助用戶發(fā)現(xiàn)和分析這些已知的和未知的趨勢,具有重要的科學研究和應用前景.本文首先研究數(shù)據(jù)的地理位置、空間位置及其他屬性的聚類算法,并將這些算法集成到地學可視化組件、堆棧圖組件、像素條圖組件以及樹圖組件中,各個組件實現(xiàn)不同的可視化功能;然后將這些組件集成在一個基于HTML5開發(fā)的可視化分析系統(tǒng)中,實現(xiàn)了各個可視化組件的相互協(xié)同操作.本文的可視分析方法可揭示房地產(chǎn)市場的發(fā)展,以及房價、銷售數(shù)量、時間、文化和政策之間的關系.

高維時空房地產(chǎn)數(shù)據(jù)的可視分析論文

  1相關工作

  地學可視化通過人們的感知理解與地理信息進行“交流”,并實現(xiàn)數(shù)據(jù)探索和決策分析,近20年來,Takatsuka等開發(fā)了GeoVISTAStudio可視分析環(huán)境,其允許用戶快速地建立自定義的可視化應用組件,用于分析空間數(shù)據(jù);在此基礎上,Hardisty等提出了GeoViz開發(fā)包,使用基于組件協(xié)同的方式來輔助可視化應用程序的創(chuàng)建.

  近年來,很多時序數(shù)據(jù)可視化新技術不斷地被提出并得到發(fā)展.Havre等提出的主題河(ThemeRiver)用于可視化文檔中隨著時間變遷的主題變化;Byron等發(fā)展了用于可視化多個時間序列的堆棧圖,并更注重于可視化設計中的幾何特性和美感;Keim等提出了像素條圖,其無需數(shù)據(jù)的聚集就可以可視化大規(guī)模多維時序數(shù)據(jù);Ziegler等集成了像素條圖用于可視化金融時序數(shù)據(jù).由于房地產(chǎn)數(shù)據(jù)的銷售情況是離散分布的,因此本文提出了新非等長的時序數(shù)據(jù)聚類方法和可視化展現(xiàn)形式.

  在網(wǎng)絡應用程序方面,目前瀏覽器本地支持的繪圖逭染技術有SVG,HTML5的Canvas元素繪圖和WebGL等.當前的在線可視化應用有Spotfire?,Manyeyes[7]等.Spotfire是一個比較全面的富含多種可視化方式的商業(yè)平臺,可幫助用戶創(chuàng)建自定義的可視化分析程序,但其所含的可視化組件相對比較傳統(tǒng),功能單一.Manyeyes站點提供多種多樣的獨立的交互式的可視化應用服務,但其是基于JavaApplet來實現(xiàn)各種數(shù)據(jù)的可視化,普及性不是很好.在用本文方法研發(fā)的系統(tǒng)(簡稱本文系統(tǒng))中使用Canvas來創(chuàng)建各個可視化組件,使用WebGL緩存各個組件的可視化結(jié)果來加速可視化的繪制和用戶交互.

  在類似的在線房地產(chǎn)數(shù)據(jù)可視分析方面,Tableau公司?提供了在線的可自定義的房地產(chǎn)可視分析解決方案,但需要具有相對專業(yè)的知識才能使用;Search,ch公司③自動收集了瑞士各大售房網(wǎng)站上的廣告并采用地圖的形式展示出來,可實時地提供樓盤價格等,但其缺乏分析能力;Hotpads公司④同樣提供了基于地圖服務的樓盤銷售與租賃信息,其用房屋圖片的大小和形狀表示不同樓盤的價格及其他屬性等.

  2可視化組件的設計

  本文系統(tǒng)包括5個可視化組件:地學可視化組件(GeoMap),展示樓盤銷售數(shù)量變化的堆棧圖組件(StackedGraph),展示樓盤多維屬性的像素條圖組件(Pixel-bar),平行坐標組件(ParallelCoordinatorPlot)和展示數(shù)據(jù)層次結(jié)構(gòu)的樹圖組件(Treemap).下面重點介紹本文開發(fā)的GeoMap,StackedGraph,Pixel-bar和Treemap4個組件.

  2.1GeoMap

  每個樓盤標記用地圖上的一個圓點或者圖標來表示,圓點的顏色和大小用于編碼數(shù)據(jù)的不同維度,如圖la所示,高銷量樓盤標記覆蓋在低銷量樓盤標記的上面,且在地圖上疊加了規(guī)劃單元.圖1b所示為用貨幣符號的大小表示樓盤價格不同的區(qū)間段.

  由于在繪制過程中可能需要將數(shù)百個樓盤標記展示在一個小區(qū)域內(nèi),而直接在瀏覽器內(nèi)繪制大量樓盤會降低運行性能,因此本文將地理位置相近的樓盤進行聚集以提高可視化效果.GoogleGeoAPI小組?提出了基于網(wǎng)格的聚類方法,首先將地圖切分為固定大小的網(wǎng)格,網(wǎng)格的大小隨著地圖縮放比例的變化而自動更改;然后根據(jù)各樓盤的經(jīng)緯度坐標將它們分配到各自的網(wǎng)格中.該方法在瀏覽器中執(zhí)行速度快,但是存在一個顯著的問題--地理位置相距很近的樓盤可能被分配到不同的網(wǎng)格中.另外一種方法,即傳統(tǒng)的基于距離的聚類方法雖然解決了上述問題,但需要遍歷所有的樓盤標記數(shù)次,在用戶瀏覽器中執(zhí)行速度并不理想.

  本文提出一種改進的基于網(wǎng)格的聚類算法,步驟如下:

  Stepl.如果存在未被聚類的標記,則選擇之;否則,算法結(jié)束.

  Step2.如果該標記位于某一聚類所代表的網(wǎng)格中,則將該標記添加至該聚類中,同時計算該網(wǎng)格中所有標記的幾何中心作為該聚類的新聚類中心,轉(zhuǎn)Stepl;否則,將該標記構(gòu)造為一個新的聚類,聚類所代表的網(wǎng)格大小根據(jù)地圖縮放比例自動設置,轉(zhuǎn)Stepl.

  該算法只需要遍歷所有的樓盤標記點一次即可完成聚類,執(zhí)行速度快,能夠快速響應用戶在瀏覽器中對地圖進行縮放的操作,實時更新聚類,如圖lc所示,其中的數(shù)字表示該聚類內(nèi)樓盤的數(shù)目.

  本文統(tǒng)計了每個聚類內(nèi)所含樓盤的屬性,并提出了一種新穎的可視化方式,用放置在聚類圖標周圍的圓弧表示不同的統(tǒng)計信息.如圖lc所示,聚類圖標左邊的圓弧表示該聚類內(nèi)樓盤的銷售數(shù)量,圓弧的長度用于編碼銷量的多少;而右邊的圓弧則用于表示聚類內(nèi)樓盤的均價.

  2.2StackedGraph2.2.1布局和排序

  堆棧圖有多種布局方式,如傳統(tǒng)的堆棧圖布局方式,ThemeRiver布局方式[3],StreamGraph布局方式[4]和最小擺動布局方式[4]等;以及多種不同的排序方式,如基于堆找圖中各層開始時間點的排序,基于各層動蕩性的排序和基于各層的數(shù)據(jù)總和大小的排序等.

  在堆棧圖布局方式中,本文將樓盤銷售時間序列轉(zhuǎn)換成相對應的》個非負、可微且連續(xù)的函數(shù)/,,/2,…,A,值域轉(zhuǎn)換為[0,1].定義堆棧圖底部為基準函數(shù)g。,第;層&表示g。與時間序列函數(shù)的總和,定義為

  排序方式.基于各層動蕩性的排序方式,應將越動蕩(即樓盤銷量變化越明顯)的層放置在圖的外圍用于避免堆棧圖的整體變形,或放置在圖的中央位置用于查看堆棧圖的整體動蕩情況.基于各層數(shù)值大小的排序方式,根據(jù)各層的數(shù)值總和進行從大到小或從小到大的排序.

  不同布局和排序的組合可被適當?shù)貞糜诜康禺a(chǎn)數(shù)據(jù).本文根據(jù)房地產(chǎn)數(shù)據(jù)的特殊性,提出了堆棧

  圖的布局和排序方式的組合,使其更加適用于房地產(chǎn)數(shù)據(jù)的分析.如圖2a所示的堆棧圖使用StreamGraph布局和基于動蕩性的排序方式展示了所有樓盤銷售數(shù)量的動蕩情況,可以看出,大部分銷售數(shù)量高的樓盤所表示的層(顏色較深的層)分布在圖的外圍,且這些樓盤的銷售數(shù)量隨著時間變化比較劇烈.因此可以認為,樓盤銷量與銷售所持續(xù)的時間以及銷量起伏的動蕩程度存在一定的聯(lián)系.

  2.2.2文字標簽

  將表示各層屬性的文字標簽恰當?shù)貥俗⒃诙褩D中的各層也是一個具有挑戰(zhàn)性的問題.較好的設計方案能夠使文字標簽自適應各層的大小,各個文字標簽在堆棧圖中不會造成重疊且具有較好的視覺美感,而在堆棧圖含有數(shù)百個層的情況下,僅僅用一張靜態(tài)的堆棧圖幾乎不可能很好地達到這個目標.

  本文將銷售數(shù)量高的樓盤的標簽直接繪制在圖上,其余樓盤的標簽隨著用戶選擇某一層時自動彈出,如圖2b所示.某一層文字標簽的字體大小S=L/TXH,

  其中,L表示該樓盤的銷量總和,了表示圖中所有樓盤的銷量總和,H表示堆桟圖顯示區(qū)域的高度.當S小于某一閾值時,該標簽將不會展示在圖中?由于StreamGraph布局中的文字標簽可以分布在基線的兩側(cè)以降低文字標簽的重疊,因此提高了圖的可讀性.

  2.3Pixel-bar

  本文使用像素條圖對樓盤的價格或銷量數(shù)據(jù)進行可視化,觀察單個樓盤的銷售情況,并對可視化結(jié)果進行聚類.在圖3a所示的像素條圖中,每個像素條表示一個樓盤,每個像素條的橫軸表示時間的跨度,每個時間點上的顏色表示該樓盤在該時間上的統(tǒng)計信息,如某一周(或月)內(nèi)的平均價格或者銷售數(shù)量總和.樓盤均價主要分布在10000?40000元之間,而銷售數(shù)量分布較廣,從幾套直至上千套?為了避免顏色編碼結(jié)果的單一性,本文對銷售數(shù)量取對數(shù)操作.通過查看像素條圖上的顏色分布,可以清楚地看到樓盤銷售的時間區(qū)間以及房地產(chǎn)市場整體的銷售情況和價格走勢.

  由于每個像素條的顯示區(qū)域都只占用同樣的高度,因此使用像素條圖展示大量條目的數(shù)據(jù)可幫助節(jié)省顯示空間,且布局更加整齊?但由于大量的像素條被繪制在圖中容易導致用戶感官上的混淆,本文針對房地產(chǎn)數(shù)據(jù)的特殊性,基于K-means聚類算法[7]對得到的大量像素條進行聚類-

  首先,用戶在地圖上選擇需要用像素條圖進行可視化的樓盤,并設置聚類數(shù)目為然后,算法隨機選擇》個樓盤作為初始的聚類中心,迭代剩余所有樓盤,計算其與n個初始聚類中心的距離,該距離可定義為樓盤和聚類中心的平均價格差或者銷售數(shù)量的差,并將距離最近的樓盤添加到該聚類中心;最后,計算聚類中心所含樓盤的價格平均值或銷售數(shù)量平均值以更新聚類中心,重復以上迭代操作,直至聚類中心不再發(fā)生變化.

  如圖3a所示,每一聚類作為一列繪制在聚類后的像素條圖中,聚類內(nèi)的像素條基于價格從上到下降序排列.

  由于上述方法僅僅局限于樓盤的單個屬性,因此本文提出了一種同時基于樓盤價格和銷量的聚類方法.由于不同樓盤的銷售時間不同,且時間是離散或者持續(xù)的,因此本文首先根據(jù)樓盤的銷售數(shù)量對樓盤進行分段,然后在各段中根據(jù)樓盤的價格進行排序.在樓盤分段過程中,首先計算每個樓盤的銷售數(shù)量總和并升序排列,如圖3b中折線圖所示,并在該折線圖上使用基于PIPs(perceptuallyimportantpoints)的分段方法M進行識別.圖3b中,&(&,%)和P2,力)作為初始的2個PIPs,P3U3,y3)為離初始2個PIPs所連直線垂直距離最遠的一個點.該垂直距離

  通過同樣的方法迭代被巧分割后的折線段可以得到剩余的PIPs,之后就得到了不同銷售數(shù)量的樓盤類別.本文將每個樓盤類別作為一列繪制在圖中,各列根據(jù)其平均銷量從左到右升序放置;在各列中,本文根據(jù)樓盤均價對樓盤進行降序排列,如圖3c所示.

  2.3Treemap

  本文結(jié)合Treemap展示數(shù)據(jù)的層次結(jié)構(gòu)并揭示其所蘊含的空間信息,Treemap中的布局和排序方式?jīng)Q定了各節(jié)點在圖中的排列方式,而這些排列方式?jīng)Q定著Treemap展現(xiàn)其所蘊含著的模式和規(guī)律的能力.本文根據(jù)房地產(chǎn)數(shù)據(jù)的特殊性,提出了如下布局方式和排序方式的組合,使其更加適用于房地產(chǎn)數(shù)據(jù)的分析.

  圖4a所本為含有2個層次的Treemap,其中使用了非常有助于排名類問題的有序正方化布局算法[?.該布局算法首先根據(jù)節(jié)點所表示數(shù)值的大小對節(jié)點進行降序排列,并沿著左上角到右下角的對角線將節(jié)點放置在圖中.圖4a中第一層次表示杭州的行政劃分單元,嵌套其內(nèi)的第二層次表示各個樓盤,其節(jié)點的面積大小和顏色用于編碼樓盤的銷售均價.

  在有序正方化布局的基礎上,本文直接使用表示樓盤地理位置的經(jīng)緯度屬性替代之前計算得到的二維位置,即空間有序布局[1°],其非常適合可視化包含空間信息的數(shù)據(jù).如圖4b所示,每個節(jié)點在樹圖中的位置盡量放置貼近于其所表示的樓盤在地圖上的地理位置;每個節(jié)點面積相等,使得布局更加整齊且更有利于保留原有的地理位置信息;節(jié)點的顏色用于表示樓盤的價格或者銷量.通過空間有序布局,可以解決保留在Treemap中原始數(shù)據(jù)的相關地理信息,提高用戶對該類數(shù)據(jù)的感知能力.

  當只考慮保留數(shù)據(jù)一維信息時,基于正方化布局的條帶布局方式[11]比較適合.如圖4c所示,其將節(jié)點從左到右或者從上到下進行排序,同一層次內(nèi)節(jié)點的寬度(或高度)保持不變.該布局方式執(zhí)行速度快,且能很好地保證樹圖順序性和連貫可讀性[I2].

  3實驗數(shù)據(jù)和系統(tǒng)實現(xiàn)

  3.1實驗數(shù)據(jù)

  本文抓取了杭州房產(chǎn)信息網(wǎng)、杭州透明售房網(wǎng)、住在杭州網(wǎng)和杭州市規(guī)劃局網(wǎng)站4個站點的杭州市房地產(chǎn)相關數(shù)據(jù).使用本文系統(tǒng)涉及的數(shù)據(jù)包含了杭州市382個樓盤和超過40000條的銷售數(shù)據(jù),時間從2007-09-2011-11.-個樓盤的屬性包括樓盤識別符、名字、坐標的經(jīng)緯度、其所在的行政單元、規(guī)劃單元、物業(yè)類型、開發(fā)商,以及樓盤每天的預訂數(shù)量、交易數(shù)量、銷售價格、樓盤總套數(shù)、總面積、住宅套數(shù)、住宅面積、開盤次數(shù)等.

  3.2系統(tǒng)實現(xiàn)

  本文系統(tǒng)服務器端使用J2EE實現(xiàn),客戶端基于HTML5開發(fā),其可直接運行在任何兼容HTML5的瀏覽器內(nèi).該系統(tǒng)在Intel?Pentium?ProcessorE5300(2.66GHz),3GBRAM,NVIDIAGeForceG100GPU(512MBRAM)的計算機上進行測試,由于使用了WebGL技術,其能夠在瀏覽器中快速地渲染可視化結(jié)果并進行交互.

  本文針對各個組件設計了良好的交互操作,如組件的縮放操作、樓盤套索選擇操作、用戶偏好選擇等;同時設計了一個顏色選擇工具,幫助用戶選擇適當?shù)念伾c組件進行交互.該顏色選擇工具使用了ColorBrewer[13]顏色方案中的“定性顏色類別(qualitativecolorgroup),’?選定了某一顏色之后,用戶可以使用該顏色框選出需要在其他可視化組件中高亮顯示的樓盤,如圖3c所示.

  在系統(tǒng)實現(xiàn)開發(fā)上,任磊等[14]提出了基于交互式信息可視化界面模型以及開發(fā)方法Daisy,提供對層次、網(wǎng)絡和多維等數(shù)據(jù)類型的統(tǒng)一支持.本文使用了基于組件的可視化模型,各個組件單獨分離開來,采用統(tǒng)一的內(nèi)部協(xié)調(diào)器將各個組件的廣播事件和監(jiān)聽事件鏈接起來,實現(xiàn)協(xié)同可視化.本文系統(tǒng)概覽如圖5所7K,其中①?④分別對應GeoMap,StackedGraph,Pixel-bar和Treemap.各個可視化組件界面均可設置為半透明,從而避免視覺上各組件間的遮擋.

  4案例分析

  4.1對決策者的可用性分析

  用戶可以在本文系統(tǒng)中使用堆棧圖來探索樓盤銷量的模式與趨勢,以發(fā)現(xiàn)一些宏觀的模式,幫助決策者更好地理解此大數(shù)據(jù)集并做出相應的決策.

  本文系統(tǒng)首先用樓盤套索選擇所有的樓盤并進行分析,如圖6a所示,此堆棧圖采用了傳統(tǒng)的堆棧圖布局方式.通過仔細觀察可以發(fā)現(xiàn),如2008年金融危機導致的銷售低谷,2008年底由于國家與地方政府出臺的一系列房地產(chǎn)調(diào)控政策所帶來的2009年房地產(chǎn)銷售高潮,以及2011年國家與地方政府出臺的限購令導致樓盤銷售大幅下滑.

  在分析了所有樓盤的堆棧圖之后,本文進一步可視化了不同地區(qū)的樓盤銷售情況,期待能夠發(fā)現(xiàn)這些年城市的發(fā)展情況.

  圖6b展示了中央商務區(qū)和城西樓盤銷售的堆棧圖,圖6c所示為杭州市東南方向的濱江區(qū)和北面的九堡等地區(qū)的樓盤銷售堆棧圖,杭州市東北方向的下沙區(qū)和城北地區(qū)的樓盤銷售堆棧圖如圖6d所示.可以發(fā)現(xiàn),圖6b中樓盤銷售時間集中在2008年和2009年,而在中央商務區(qū)外圍以及沿著錢塘江的樓盤大部分在2009年被售出(如圖6c所示),更外圍的樓盤的大部分在2009年和2010年被售出.這些堆棧圖幫助我們發(fā)現(xiàn)和驗證這些年杭州市發(fā)展所存在的外擴趨勢,而且主要往城市的東部和北部擴張.

  4.2用戶反饋和專家訪問

  我們將本文系統(tǒng)展示給10位有剛性需求的普通購房者、5位欲投資房地產(chǎn)的商人以及由7人組成的有專業(yè)知識的房地產(chǎn)研究小組,以期獲得有價值的評論和建議.

  反饋結(jié)果表明,普通用戶和專家都認為本文系統(tǒng)提供的交互式、可協(xié)同的可視分析組件可以幫助他們快速地了解房地產(chǎn)的概況.購房者認為,Treemap的結(jié)合可以幫助他們很直觀地看出當前樓盤在地圖上所處的大概位置.除了對本文系統(tǒng)功能的評論外,他們建議可引人經(jīng)濟學中的房地產(chǎn)模型,如HedonicPriceModel等,以及引人更多的參考因素,如土地價格,來增強系統(tǒng)的綜合分析能力.

  5總結(jié)

  本文提出了新的房地產(chǎn)信息可視化方法,研究了基于HTML5的在線可視分析方法,幫助普通用戶和專家快速地感知數(shù)據(jù)特征以及從數(shù)據(jù)中發(fā)現(xiàn)有趣的“故事在這些組件中,本文提出了諸如基于樓盤地理位置的網(wǎng)格聚類方法、基于樓盤價格和銷量的聚類方法等;同時,又根據(jù)房地產(chǎn)數(shù)據(jù)的特殊性提出了不同布局方式和排序方式的組合,使其更適用于房地產(chǎn)數(shù)據(jù)的分析.一些成熟的交互技術也被集成到本文方法所實現(xiàn)的系統(tǒng)中,來自普通用戶和專家的反饋均認可了本文系統(tǒng)分析的準確性和有效性.

  下一步,我們計劃將其他城市的房地產(chǎn)數(shù)據(jù)添加到數(shù)據(jù)庫中,并集成其他的金融信息、政策信息和新聞;同時,計劃添加更多的交互式分析技術以增強系統(tǒng)的分析能力,并與現(xiàn)有的可視化組件互補.

【高維時空房地產(chǎn)數(shù)據(jù)的可視分析論文】相關文章:

分析電子商務中的數(shù)據(jù)安全論文04-26

大數(shù)據(jù)與統(tǒng)計學分析方法比較論文11-13

數(shù)據(jù)分析報告范本06-06

數(shù)據(jù)分析個人報告06-09

數(shù)據(jù)分析報告優(yōu)秀03-07

數(shù)據(jù)分析報告通用02-14

時空醫(yī)學論文(通用7篇)07-12

復雜網(wǎng)絡數(shù)據(jù)挖掘論文11-15

案例分析論文11-07

淘寶數(shù)據(jù)分析報告模板06-06