- 相關(guān)推薦
隱私保護(hù)的經(jīng)濟(jì)統(tǒng)計(jì)信息發(fā)布經(jīng)濟(jì)論文
1引言
21世紀(jì)以來(lái),隨著信息技術(shù)的進(jìn)步和互聯(lián)網(wǎng)的廣泛應(yīng)用,信息共享已成為人們?nèi)粘9ぷ、生活和學(xué)習(xí)中的普遍行為。政府部門、社會(huì)團(tuán)體和個(gè)人的統(tǒng)計(jì)信息大量涌現(xiàn),信息數(shù)據(jù)收集的種類和數(shù)量呈指數(shù)級(jí)增長(zhǎng)。與此同時(shí),國(guó)家和有關(guān)部門制定了有關(guān)信息安全的法規(guī)及相關(guān)制度,輿論媒體對(duì)統(tǒng)計(jì)數(shù)據(jù)的關(guān)注度和要求也越來(lái)越高,但有關(guān)國(guó)民經(jīng)濟(jì)的各種統(tǒng)計(jì)數(shù)據(jù)因存在虛假和泄露隱私受到質(zhì)疑的情況卻時(shí)有發(fā)生。大量的隱私數(shù)據(jù)發(fā)布和共享已經(jīng)對(duì)隱私和信息安全構(gòu)成威脅,隱私數(shù)據(jù)的泄露已成為急待解決的問(wèn)題[1]。如何保證隱私數(shù)據(jù)在發(fā)布或使用時(shí)不被對(duì)應(yīng)到特定人和特定部門已成為一個(gè)研究熱點(diǎn)。
統(tǒng)計(jì)信息通過(guò)分析統(tǒng)計(jì)數(shù)據(jù)得到,統(tǒng)計(jì)數(shù)據(jù)按屬性可分為4類:① 能直接識(shí)別個(gè)體身份信息的顯式標(biāo)志符(EiD),如身份證號(hào)、姓名、社會(huì)保險(xiǎn)代碼等;② 有助識(shí)別個(gè)體信息身份的準(zhǔn)標(biāo)志符(QID),如一些組合屬性;③ 敏感屬性(SA),即隱私信息;④ 非敏感屬性(NSA),即非上述3類的其他屬性。本文所述的隱私保護(hù)主要是指對(duì)統(tǒng)計(jì)數(shù)據(jù)中個(gè)人敏感信息的安全保護(hù),是防止不法分子對(duì)個(gè)人敏感信息非法竊取的私有信息保護(hù)[2]。隱私攻擊者除了能訪問(wèn)發(fā)布的統(tǒng)計(jì)數(shù)據(jù)表外,還可能通過(guò)文獻(xiàn)資料、技術(shù)文檔等獲得發(fā)布的統(tǒng)計(jì)數(shù)據(jù)表中所采用的隱私模型和實(shí)現(xiàn)算法等。我們假定攻擊者可能獲得的數(shù)據(jù)信息統(tǒng)稱為背景知識(shí)。通常攻擊者都是從背景知識(shí)中獲得目標(biāo)對(duì)象的QID屬性(如出生日期、性別、出生地、郵政編碼等)。
用戶對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的第一要求是查詢結(jié)果必須準(zhǔn)確。從這個(gè)前提出發(fā),本文提出一種基于交互的序列表發(fā)布模型,它能保證敏感信息不泄露,同時(shí)又能最大程度地減少統(tǒng)計(jì)數(shù)據(jù)的信息損失,提高統(tǒng)計(jì)數(shù)據(jù)的效用。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)于大數(shù)據(jù)集的隱私能很好地進(jìn)行保護(hù),而且丟失的重要信息少,能夠滿足統(tǒng)計(jì)數(shù)據(jù)發(fā)布的需要。
2隱私保護(hù)模型
為了解決隱私保護(hù)問(wèn)題,國(guó)內(nèi)外研究者提出了很多方法,這些方法主要有:① 匿名保護(hù)。為了保護(hù)個(gè)人信息,在數(shù)據(jù)發(fā)布時(shí),對(duì)能夠直接標(biāo)識(shí)個(gè)人身份的標(biāo)識(shí)符進(jìn)行刪除或加密。② 擾亂、隨機(jī)化數(shù)據(jù)技術(shù)。通過(guò)對(duì)數(shù)據(jù)的隨機(jī)化處理,增加數(shù)據(jù)“噪聲”,使得數(shù)據(jù)不再反映真實(shí)的世界,從而無(wú)法被濫用而侵犯?jìng)(gè)人隱私。當(dāng)然,關(guān)鍵的技術(shù)是要從處理后的數(shù)據(jù)中獲得有效的分析結(jié)果。③ 分布式的隱私保護(hù)技術(shù)。雙方或多方進(jìn)行數(shù)據(jù)分析挖掘時(shí),由于某種原因,參與者不愿將數(shù)據(jù)與他人共享而只愿共享數(shù)據(jù)分析挖掘結(jié)果。這需要運(yùn)用密碼學(xué)技術(shù)來(lái)解決實(shí)際的隱私問(wèn)題。如安全兩方或多方計(jì)算問(wèn)題等。④ k-匿名技術(shù)。它要求在公布后的數(shù)據(jù)中保留一定數(shù)量的個(gè)體特征,從而防止匿名處理后的數(shù)據(jù)被鏈接攻擊,造成個(gè)人隱私泄露。
研究者們根據(jù)隱私保護(hù)方法建立了很多隱私信息保護(hù)發(fā)布模型,如k-匿名模型[3]、L-多樣性模型[4]、t-closness框架[5]和個(gè)性化匿名模型[6]等。這些隱私保護(hù)模型都是針對(duì)可能存在隱私泄露建立的。
3基于統(tǒng)計(jì)應(yīng)用的交互序列發(fā)布模型及算法
3.1序列發(fā)布模型
隱私保護(hù)模型實(shí)際是利用好的數(shù)據(jù)發(fā)布方法來(lái)保護(hù)隱私,使用最多的算法是泛化或有損連接(降低QID和SA兩者之間的聯(lián)系)[7]。在一些統(tǒng)計(jì)分析中,需要進(jìn)行聯(lián)合查詢,用戶對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢最重要的要求是查詢結(jié)果準(zhǔn)確,這樣發(fā)布的數(shù)據(jù)才有較高的應(yīng)用價(jià)值。而匿名化技術(shù)將發(fā)布的數(shù)據(jù)表中涉及個(gè)體的標(biāo)志屬性刪除了,因此降低了QID屬性和SA之間的聯(lián)系,無(wú)法得到用戶關(guān)心的準(zhǔn)確查詢結(jié)果。在對(duì)應(yīng)用查詢的實(shí)際需求和大量實(shí)際數(shù)據(jù)集的QID屬性的統(tǒng)計(jì)中發(fā)現(xiàn),應(yīng)用查詢中所涉及的QID屬性數(shù)目一般只有3個(gè)左右,而原始數(shù)據(jù)集中一般都存在大量滿足匿名要求的數(shù)據(jù)記錄,且所占比例跟QID的數(shù)目存在密切的關(guān)系。例如一個(gè)人口統(tǒng)計(jì)的實(shí)際數(shù)據(jù)集共有14 種屬性,記錄約4萬(wàn)條,其中QID的全部組合數(shù)目為9。在k-匿名模型中,當(dāng)k = 20,QID數(shù)目為3時(shí),其平均滿足k-匿名的記錄比例可高達(dá)85%,而QID數(shù)目為全部組合時(shí)滿足k-匿名的記錄比例只有5%左右;當(dāng)k = 2,QID數(shù)目為全部組合時(shí),滿足k-匿名的記錄比例只有40%左右。由此可見(jiàn),如果將所有的QID屬性捆綁在一起進(jìn)行匿名,必然會(huì)導(dǎo)致大量記錄的QID屬性和SA被割斷。
本文提出一種基于用戶應(yīng)用查詢的序列發(fā)布模型,將滿足k-匿名的記錄按照QID數(shù)目由高到低分成一組序列表進(jìn)行發(fā)布。首先發(fā)布屬性包含了全部QID組合和SA的記錄,然后將QID數(shù)減少一個(gè),發(fā)布屬性包含QID組合和SA的剩余記錄。如此類推,直到最后QID的數(shù)目減少為3,再將這些剩余記錄按照屬性為3個(gè)QID和SA泛化發(fā)布,從而提高泛化表的查準(zhǔn)率。
【隱私保護(hù)的經(jīng)濟(jì)統(tǒng)計(jì)信息發(fā)布經(jīng)濟(jì)論文】相關(guān)文章:
統(tǒng)計(jì)工作與農(nóng)村經(jīng)濟(jì)論文10-01
經(jīng)濟(jì)交通經(jīng)濟(jì)論文10-01
虛擬經(jīng)濟(jì)論文10-08
刑法的經(jīng)濟(jì)論文10-09
文化經(jīng)濟(jì)論文10-09