1.引言
當(dāng)今,社會(huì)信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計(jì),平均每秒有200萬用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過40億,Twitter每天處理的推特?cái)?shù)量超過3.4億。同時(shí),科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達(dá)到2.7 ZB,而到2015年這一數(shù)值預(yù)計(jì)會(huì)達(dá)到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界,圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式,即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究;2008年《Nature))推出了大數(shù)據(jù)?瘜(duì)其展開探討;2011年《Science》也推出類似的數(shù)據(jù)處理?。IT產(chǎn)業(yè)界行動(dòng)更為積極,持續(xù)關(guān)注數(shù)據(jù)再利用,挖掘大數(shù)據(jù)的潛在價(jià)值。目前,大數(shù)據(jù)已成為繼云計(jì)算之后信息技術(shù)領(lǐng)域的另一個(gè)信息產(chǎn)業(yè)增長點(diǎn)。據(jù)Gartner預(yù)測(cè),2013年大數(shù)據(jù)將帶動(dòng)全球IT支出340億美元,到2016年全球在大數(shù)據(jù)方面的總花費(fèi)將達(dá)到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一。不僅如此,作為國家和社會(huì)的主要管理者,各國政府也是大數(shù)據(jù)技術(shù)推廣的主要推動(dòng)者。2009年3月美國政府上線了data.gov網(wǎng)站,向公眾開放政府所擁有的公共數(shù)據(jù)。隨后,英國、澳大利亞等政府也開始了大數(shù)據(jù)開放的進(jìn)程,截至目前,全世界已經(jīng)正式有35個(gè)國家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個(gè)部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”。在我國,2012年中國通信學(xué)會(huì)、中國計(jì)算機(jī)學(xué)會(huì)等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會(huì),為我國大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。
目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題,安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。當(dāng)前,人們?cè)诨ヂ?lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中,包括購物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項(xiàng)實(shí)際案例說明,即使無害的數(shù)據(jù)被大量收集后,也會(huì)暴露個(gè)人隱私。事實(shí)上,大數(shù)據(jù)安全含義更為廣泛,人們面臨的威脅并不僅限于個(gè)人隱私泄漏。與其它信息一樣,大數(shù)據(jù)在存儲(chǔ)、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險(xiǎn),具有數(shù)據(jù)安全與隱私保護(hù)需求。而實(shí)現(xiàn)大數(shù)據(jù)安全與隱私保護(hù),較以往其它安全問題(如云計(jì)算中的數(shù)據(jù)安全等)更為棘手。這是因?yàn)樵谠朴?jì)算中,雖然服務(wù)提供商控制了數(shù)據(jù)的存儲(chǔ)與運(yùn)行環(huán)境,但是用戶仍然有些辦法保護(hù)自己的數(shù)據(jù),例如通過密碼學(xué)的技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)安全存儲(chǔ)與安全計(jì)算,或者通過可信計(jì)算方式實(shí)現(xiàn)運(yùn)行環(huán)境安全等。而在大數(shù)據(jù)的背景下,F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的存儲(chǔ)、管理者和使用者,因此,單純通過技術(shù)手段限制商家對(duì)用戶信息的使用,實(shí)現(xiàn)用戶隱私保護(hù)是極其困難的事。
當(dāng)前很多組織都認(rèn)識(shí)到大數(shù)據(jù)的安全問題,并積極行動(dòng)起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組,旨在尋找針對(duì)數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上,重點(diǎn)分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn),詳細(xì)闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。需要指出的是,大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時(shí),也為信息安全領(lǐng)域帶來了新的發(fā)展契機(jī),即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護(hù)。本文在第5節(jié)對(duì)其進(jìn)行了初步分析與探討。
2.大數(shù)據(jù)研究概述
2.1 大數(shù)據(jù)來源與特征
普遍的觀點(diǎn)認(rèn)為,大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點(diǎn)包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同,大數(shù)據(jù)大致可分為如下幾類:
(1)來自于人。人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)以及使用移動(dòng)互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù),包括文字、圖片、視頻等信息;
(2)來自于機(jī)。各類計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫、多媒體等形式存在,也包括審計(jì)、日志等自動(dòng)生成的信息;
(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號(hào)、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項(xiàng)特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。
2.2 大數(shù)據(jù)分析目標(biāo)
目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個(gè)領(lǐng)域,用途差異巨大。但其目標(biāo)可以歸納為如下幾類:
(1)獲得知識(shí)與推測(cè)趨勢(shì)
人們進(jìn)行數(shù)據(jù)分析由來已久,最初且最重要的目的就是獲得知識(shí)、利用知識(shí)。由于大數(shù)據(jù)包含大量原始、真實(shí)信息,大數(shù)據(jù)分析能夠有效地摒棄個(gè)體差異,幫助人們透過現(xiàn)象、更準(zhǔn)確地把握事物背后的規(guī)律;谕诰虺龅闹R(shí),可以更準(zhǔn)確地對(duì)自然或社會(huì)現(xiàn)象進(jìn)行預(yù)測(cè)。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計(jì)人們對(duì)流感信息的搜索,查詢Google服務(wù)器日志的IP地址判定搜索來源,從而發(fā)布對(duì)世界各地流感情況的預(yù)測(cè)。又如,人們可以根據(jù)Twitter信息預(yù)測(cè)股票行情等。
(2)分析掌握個(gè)性化特征
個(gè)體活動(dòng)在滿足某些群體特征的同時(shí),也具有鮮明的個(gè)性化特征。正如“長尾理論”中那條細(xì)長的尾巴那樣,這些特征可能千差萬別。企業(yè)通過長時(shí)間、多維度的數(shù)據(jù)積累,可以分析用戶行為規(guī)律,更準(zhǔn)確地描繪其個(gè)體輪廓,為用戶提供更好的個(gè)性化產(chǎn)品和服務(wù),以及更準(zhǔn)確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛好進(jìn)行分析,幫助廣告商評(píng)估廣告活動(dòng)效率,預(yù)估在未來可能存在高達(dá)到數(shù)千億美元的市場(chǎng)規(guī)模。
(3)通過分析辨識(shí)真相
錯(cuò)誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利,所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如,2013年4月24日,美聯(lián)社Twitter帳號(hào)被盜,發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止,但是仍然引發(fā)了美國股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性,在一定程度上它可以幫助實(shí)現(xiàn)信息的去偽存真。目前人們開始嘗試?yán)么髷?shù)據(jù)進(jìn)行虛假信息識(shí)別。例如,社交點(diǎn)評(píng)類網(wǎng)站Yelp利用大數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行過濾,為用戶提供更為真實(shí)的評(píng)論信息;Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。
2.3 大數(shù)據(jù)技術(shù)框架
大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。
圖1 大數(shù)據(jù)技術(shù)架構(gòu)
(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)
大數(shù)據(jù)的數(shù)據(jù)源多樣化,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此,大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。
由于大數(shù)據(jù)的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數(shù)據(jù)集成過程中對(duì)數(shù)據(jù)進(jìn)行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻(xiàn)中數(shù)據(jù)清洗和集成技術(shù)針對(duì)大數(shù)據(jù)的特點(diǎn),提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。
數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實(shí)時(shí)性要求較高的應(yīng)用,如狀態(tài)監(jiān)控,更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲(chǔ),以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量,降低存儲(chǔ)成本,通常采用分布式架構(gòu)來存儲(chǔ)大數(shù)據(jù)。這方面有代表性的研究包括:文件系統(tǒng)GFSE、HDFS和Haystack等;NoSQL數(shù)據(jù)庫Mongodb、CouchDB、HBase、Redis、Neo4j等。
(2)數(shù)據(jù)分析(Data Analysis)
數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類:計(jì)算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。
在計(jì)算架構(gòu)方面,MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計(jì)算模型和框架。為了適應(yīng)一些對(duì)任務(wù)完成時(shí)間要求較高的分析需求,文獻(xiàn)對(duì)其性能進(jìn)行了優(yōu)化;文獻(xiàn)提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA,使其能夠支持實(shí)時(shí)分析任務(wù);文獻(xiàn)則提出了基于時(shí)間的大數(shù)據(jù)分析方案Mastiff;文獻(xiàn)也針對(duì)廣告推送等實(shí)時(shí)性要求較高的應(yīng)用,提出了基于MapReduce的TiMR框架來進(jìn)行實(shí)時(shí)流處理。
在查詢與索引方面,由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢和索引技術(shù)受到限制,而NoSQL類數(shù)據(jù)庫技術(shù)得到更多關(guān)注。例如,文獻(xiàn)提出了一個(gè)混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻(xiàn)對(duì)key-value類型數(shù)據(jù)庫的查詢進(jìn)行了性能優(yōu)化。
在數(shù)據(jù)分析與處理方面,主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點(diǎn),所以對(duì)數(shù)據(jù)進(jìn)行語義分析時(shí),就較難統(tǒng)一術(shù)語進(jìn)而挖掘信息。文獻(xiàn)針對(duì)大數(shù)據(jù)環(huán)境,提出了一種解決術(shù)語變異問題的高效術(shù)語標(biāo)準(zhǔn)化方法。文獻(xiàn)對(duì)語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),因此迫切需要對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻(xiàn)提出了一種針對(duì)圖片文件的挖掘技術(shù),文獻(xiàn)提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。
(3)數(shù)據(jù)解釋(Data IntERPretation)
數(shù)據(jù)解釋旨在更好地支持用戶對(duì)數(shù)據(jù)分析結(jié)果的使用,涉及的主要技術(shù)為可視化和人機(jī)交互。目前已經(jīng)有了一些針對(duì)大規(guī)模數(shù)據(jù)的可視化研究,通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機(jī)交互設(shè)計(jì)也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。
(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)
雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心,將計(jì)算推送到數(shù)據(jù)上執(zhí)行,但是在整個(gè)處理過程中,數(shù)據(jù)的傳輸仍然是必不可少的,例如一些科學(xué)觀測(cè)數(shù)據(jù)從觀測(cè)點(diǎn)向數(shù)據(jù)中心的傳輸?shù)取N墨I(xiàn)針對(duì)大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。
此外,由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點(diǎn),人們?cè)诖髷?shù)據(jù)分析時(shí)可以選擇更加方便的虛擬集群來完成各項(xiàng)處理任務(wù)。因此需要針對(duì)大數(shù)據(jù)應(yīng)用展開的虛擬機(jī)集群優(yōu)化研究。
3.大數(shù)據(jù)帶來的安全挑戰(zhàn)
科學(xué)技術(shù)是一把雙刃劍。大數(shù)據(jù)所引發(fā)的安全問題與其帶來的價(jià)值同樣引人注目。而最近爆發(fā)的“棱鏡門”事件更加劇了人們對(duì)大數(shù)據(jù)安全的擔(dān)憂。與傳統(tǒng)的信息安全問題相比,大數(shù)據(jù)安全面臨的挑戰(zhàn)性問題主要體現(xiàn)在以下幾個(gè)方面。
3.1 大數(shù)據(jù)中的用戶隱私保護(hù)
大量事實(shí)表明,大數(shù)據(jù)未被妥善處理會(huì)對(duì)用戶的隱私造成極大的侵害。根據(jù)需要保護(hù)的內(nèi)容不同,隱私保護(hù)又可以進(jìn)一步細(xì)分為位置隱私保護(hù)、標(biāo)識(shí)符匿名保護(hù)、連接關(guān)系匿名保護(hù)等。
人們面臨的威脅并不僅限于個(gè)人隱私泄漏,還在于基于大數(shù)據(jù)對(duì)人們狀態(tài)和行為的預(yù)測(cè)。一個(gè)典型的例子是某零售商通過歷史記錄分析,比家長更早知道其女兒已經(jīng)懷孕的事實(shí),并向其郵寄相關(guān)廣告信息。而社交網(wǎng)絡(luò)分析研究也表明,可以通過其中的群組特性發(fā)現(xiàn)用戶的屬性。例如通過分析用戶的Twitter信息,可以發(fā)現(xiàn)用戶的政治傾向、消費(fèi)習(xí)慣以及喜好的球隊(duì)等。
當(dāng)前企業(yè)常常認(rèn)為經(jīng)過匿名處理后,信息不包含用戶的標(biāo)識(shí)符,就可以公開發(fā)布了。但事實(shí)上,僅通過匿名保護(hù)并不能很好地達(dá)到隱私保護(hù)目標(biāo)。例如,AOL公司曾公布了匿名處理后的3個(gè)月內(nèi)部分搜索歷史,供人們分析使用。雖然個(gè)人相關(guān)的標(biāo)識(shí)信息被精心處理過,但其中的某些記錄項(xiàng)還是可以被準(zhǔn)確地定位到具體的個(gè)人。紐約時(shí)報(bào)隨即公布了其識(shí)別出的1位用戶。編號(hào)為4417 749的用戶是1位62歲的寡居?jì)D人,家里養(yǎng)了3條狗,患有某種疾病,等等。另一個(gè)相似的例子是,著名的DVD租賃商N(yùn)etflix曾公布了約50萬用戶的租賃信息,懸賞100萬美元征集算法,以期提高電影推薦系統(tǒng)的準(zhǔn)確度。但是當(dāng)上述信息與其它數(shù)據(jù)源結(jié)合時(shí),部分用戶還是被識(shí)別出來了。研究者發(fā)現(xiàn),Netflix中的用戶有很大概率對(duì)非topl00、top500、topl000的影片進(jìn)行過評(píng)分,而根據(jù)對(duì)非top影片的評(píng)分結(jié)果進(jìn)行去匿名化(de-anonymizing)攻擊的效果更好。
目前用戶數(shù)據(jù)的收集、存儲(chǔ)、管理與使用等均缺乏規(guī)范,更缺乏監(jiān)管,主要依靠企業(yè)的自律。用戶無法確定自己隱私信息的用途。而在商業(yè)化場(chǎng)景中,用戶應(yīng)有權(quán)決定自己的信息如何被利用,實(shí)現(xiàn)用戶可控的隱私保護(hù)。例如用戶可以決定自己的信息何時(shí)以何種形式披露,何時(shí)被銷毀。包括:(1)數(shù)據(jù)采集時(shí)的隱私保護(hù),如數(shù)據(jù)精度處理;(2)數(shù)據(jù)共享、發(fā)布時(shí)的隱私保護(hù),如數(shù)據(jù)的匿名處理、人工加擾等;(3)數(shù)據(jù)分析時(shí)的隱私保護(hù);(4)數(shù)據(jù)生命周期的隱私保護(hù);(5)隱私數(shù)據(jù)可信銷毀等。
3.2 大數(shù)據(jù)的可信性
關(guān)于大數(shù)據(jù)的一個(gè)普遍的觀點(diǎn)是,數(shù)據(jù)自己可以說明一切,數(shù)據(jù)自身就是事實(shí)。但實(shí)際情況是,如果不仔細(xì)甄別,數(shù)據(jù)也會(huì)欺騙,就像人們有時(shí)會(huì)被自己的雙眼欺騙一樣。
大數(shù)據(jù)可信性的威脅之一是偽造或刻意制造的數(shù)據(jù),而錯(cuò)誤的數(shù)據(jù)往往會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。若數(shù)據(jù)應(yīng)用場(chǎng)景明確,就可能有人刻意制造數(shù)據(jù)、營造某種“假象”,誘導(dǎo)分析者得出對(duì)其有利的結(jié)論。由于虛假信息往往隱藏于大量信息中,使得人們無法鑒別真?zhèn),從而做出錯(cuò)誤判斷。例如,一些點(diǎn)評(píng)網(wǎng)站上的虛假評(píng)論,混雜在真實(shí)評(píng)論中使得用戶無法分辨,可能誤導(dǎo)用戶去選擇某些劣質(zhì)商品或服務(wù)。由于當(dāng)前網(wǎng)絡(luò)社區(qū)中虛假信息的產(chǎn)生和傳播變得越來越容易,其所產(chǎn)生的影響不可低估。用信息安全技術(shù)手段鑒別所有來源的真實(shí)性是不可能的。
大數(shù)據(jù)可信性的威脅之二是數(shù)據(jù)在傳播中的逐步失真。原因之一是人工干預(yù)的數(shù)據(jù)采集過程可能引入誤差,由于失誤導(dǎo)致數(shù)據(jù)失真與偏差,最終影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。此外,數(shù)據(jù)失真還有數(shù)據(jù)的版本變更的因素。在傳播過程中,現(xiàn)實(shí)情況發(fā)生了變化,早期采集的數(shù)據(jù)已經(jīng)不能反映真實(shí)情況。例如,餐館電話號(hào)碼已經(jīng)變更,但早期的信息已經(jīng)被其它搜索引擎或應(yīng)用收錄,所以用戶可能看到矛盾的信息而影響其判斷。
因此,大數(shù)據(jù)的使用者應(yīng)該有能力基于數(shù)據(jù)來源的真實(shí)性、數(shù)據(jù)傳播途徑、數(shù)據(jù)加工處理過程等,了解各項(xiàng)數(shù)據(jù)可信度,防止分析得出無意義或者錯(cuò)誤的結(jié)果。
密碼學(xué)中的數(shù)字簽名、消息鑒別碼等技術(shù)可以用于驗(yàn)證數(shù)據(jù)的完整性,但應(yīng)用于大數(shù)據(jù)的真實(shí)性時(shí)面臨很大困難,主要根源在于數(shù)據(jù)粒度的差異。例如,數(shù)據(jù)的發(fā)源方可以對(duì)整個(gè)信息簽名,但是當(dāng)信息分解成若干組成部分時(shí),該簽名無法驗(yàn)證每個(gè)部分的完整性。而數(shù)據(jù)的發(fā)源方無法事先預(yù)知哪些部分被利用、如何被利用,難以事先為其生成驗(yàn)證對(duì)象。
3.3 如何實(shí)現(xiàn)大數(shù)據(jù)訪問控制
訪問控制是實(shí)現(xiàn)數(shù)據(jù)受控共享的有效手段。由于大數(shù)據(jù)可能被用于多種不同場(chǎng)景,其訪問控制需求十分突出。
大數(shù)據(jù)訪問控制的特點(diǎn)與難點(diǎn)在于:
(1)難以預(yù)設(shè)角色,實(shí)現(xiàn)角色劃分。由于大數(shù)據(jù)應(yīng)用范圍廣泛,它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問,實(shí)施訪問控制是基本需求。然而,在大數(shù)據(jù)的場(chǎng)景下,有大量的用戶需要實(shí)施權(quán)限管理,且用戶具體的權(quán)限要求未知。面對(duì)未知的大量數(shù)據(jù)和用戶,預(yù)先設(shè)置角色十分困難。
(2)難以預(yù)知每個(gè)角色的實(shí)際權(quán)限。由于大數(shù)據(jù)場(chǎng)景中包含海量數(shù)據(jù),安全管理員可能缺乏足夠的專業(yè)知識(shí),無法準(zhǔn)確地為用戶指定其所可以訪問的數(shù)據(jù)范圍。而且從效率角度講,定義用戶所有授權(quán)規(guī)則也不是理想的方式。以醫(yī)療領(lǐng)域應(yīng)用為例,醫(yī)生為了完成其工作可能需要訪問大量信息,但對(duì)于數(shù)據(jù)能否訪問應(yīng)該由醫(yī)生來決定,不應(yīng)該需要管理員對(duì)每個(gè)醫(yī)生做特別的配置。但同時(shí)又應(yīng)該能夠提供對(duì)醫(yī)生訪問行為的檢測(cè)與控制,限制醫(yī)生對(duì)病患數(shù)據(jù)的過度訪問。
此外,不同類型的大數(shù)據(jù)中可能存在多樣化的訪問控制需求。例如,在Web2.0個(gè)人用戶數(shù)據(jù)中,存在基于歷史記錄的訪問控制;在地理地圖數(shù)據(jù)中,存在基于尺度以及數(shù)據(jù)精度的訪問控制需求;在流數(shù)據(jù)處理中,存在數(shù)據(jù)時(shí)間區(qū)間的訪問控制需求,等等。如何統(tǒng)一地描述與表達(dá)訪問控制需求也是一個(gè)挑戰(zhàn)性問題。
4.大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)
當(dāng)前亟需針對(duì)前述大數(shù)據(jù)面l臨的用戶隱私保護(hù)、數(shù)據(jù)內(nèi)容可信驗(yàn)證、訪問控制等安全挑戰(zhàn),展開大數(shù)據(jù)安全關(guān)鍵技術(shù)研究。本節(jié)選取部分重點(diǎn)相關(guān)研究領(lǐng)域予以介紹。
4.1 數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)
對(duì)于大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)(或稱關(guān)系數(shù)據(jù))而言,數(shù)據(jù)發(fā)布匿名保護(hù)是實(shí)現(xiàn)其隱私保護(hù)的核心關(guān)鍵技術(shù)與基本手段,目前仍處于不斷發(fā)展與完善階段。以典型的k匿名方案為例。早期的方案及其優(yōu)化方案通過元組泛化、抑制等數(shù)據(jù)處理,將準(zhǔn)標(biāo)識(shí)符分組。每個(gè)分組中的準(zhǔn)標(biāo)識(shí)符相同且至少包含k個(gè)元組,因而每個(gè)元組至少與k-1個(gè)其它元組不可區(qū)分。由于是匿名模型是針對(duì)所有屬性集合而言,對(duì)于具體的某個(gè)屬性則未加定義,容易出現(xiàn)某個(gè)屬性匿名處理不足的情況。若某等價(jià)類中某個(gè)敏感屬性上取值一致,則攻擊者可以有效地確定該屬性值。針對(duì)該問題研究者提出l多樣化(l-diversity)匿名。其特點(diǎn)是在每一個(gè)匿名屬性組里敏感數(shù)據(jù)的多樣性滿足要大于或等于l。實(shí)現(xiàn)方法包括基于裁剪算法的方案以及基于數(shù)據(jù)置換的方案等。此外,還有一些介于志匿名與l多樣化之間的方案。進(jìn)一步的,由于l-diversity只是能夠盡量使敏感數(shù)據(jù)出現(xiàn)的頻率平均化。當(dāng)同一等價(jià)類中數(shù)據(jù)范圍很小時(shí),攻擊者可猜測(cè)其值。t貼近性(t-closeness)方案要求等價(jià)類中敏感數(shù)據(jù)的分布與整個(gè)數(shù)據(jù)表中數(shù)據(jù)的分布保持一致。其它工作包括(k,e)匿名模型(X,Y)匿名模型等。上述研究是針對(duì)靜態(tài)、一次性發(fā)布情況。而現(xiàn)實(shí)中,數(shù)據(jù)發(fā)布常面臨數(shù)據(jù)連續(xù)、多次發(fā)布的場(chǎng)景。需要防止攻擊者對(duì)多次發(fā)布的數(shù)據(jù)聯(lián)合進(jìn)行分析,破壞數(shù)據(jù)原有的匿名特性。
在大數(shù)據(jù)場(chǎng)景中,數(shù)據(jù)發(fā)布匿名保護(hù)問題較之更為復(fù)雜:攻擊者可以從多種渠道獲得數(shù)據(jù),而不僅僅是同一發(fā)布源。例如,在前所提及的Netflix應(yīng)用中,人們發(fā)現(xiàn)攻擊者可通過將數(shù)據(jù)與公開可獲得的imdb相對(duì)比,從而識(shí)別出目標(biāo)在Netflix的賬號(hào)。并據(jù)此獲取用戶的政治傾向與宗教信仰等(通過用戶的觀看歷史和對(duì)某些電影的評(píng)論和打分分析獲得)。此類問題有待更深入的研究。
4.2 社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)
社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)是大數(shù)據(jù)的重要來源之一,同時(shí)這些數(shù)據(jù)中包含大量用戶隱私數(shù)據(jù)。截至2012年10月Facebook的用戶成員就已達(dá)10億。由于社交網(wǎng)絡(luò)具有圖結(jié)構(gòu)特征,其匿名保護(hù)技術(shù)與結(jié)構(gòu)化數(shù)據(jù)有很大不同。
社交網(wǎng)絡(luò)中的典型匿名保護(hù)需求為用戶標(biāo)識(shí)匿名與屬性匿名(又稱點(diǎn)匿名),在數(shù)據(jù)發(fā)布時(shí)隱藏了用戶的標(biāo)識(shí)與屬性信息;以及用戶問關(guān)系匿名(又稱邊匿名),在數(shù)據(jù)發(fā)布時(shí)隱藏用戶間的關(guān)系。而攻擊者試圖利用節(jié)點(diǎn)的各種屬性(度數(shù)、標(biāo)簽、某些具體連接信息等),重新識(shí)別出圖中節(jié)點(diǎn)的身份信息。
目前的邊匿名方案大多是基于邊的增刪。隨機(jī)增刪交換邊的方法可以有效地實(shí)現(xiàn)邊匿名。其中文獻(xiàn)在匿名過程中保持鄰接矩陣的特征值和對(duì)應(yīng)的拉普拉斯矩陣第二特征值不變,文獻(xiàn)根據(jù)節(jié)點(diǎn)的度數(shù)分組,從度數(shù)相同的節(jié)點(diǎn)中選擇符合要求的進(jìn)行邊的交換,類似的還有文獻(xiàn)。這類方法的問題是隨機(jī)增加的噪音過于分散稀少,存在匿名邊保護(hù)不足問題。
另一個(gè)重要思路是基于超級(jí)節(jié)點(diǎn)對(duì)圖結(jié)構(gòu)進(jìn)行分割和集聚操作。如基于節(jié)點(diǎn)聚集的匿名方案、基于基因算法的實(shí)現(xiàn)方案、基于模擬退火算法的實(shí)現(xiàn)方案哺?jìng)円约跋忍畛湓俜指畛?jí)節(jié)點(diǎn)的方案。文獻(xiàn)所提出的k-security概念,通過k個(gè)同構(gòu)子圖實(shí)現(xiàn)圖匿名保護(hù);诔(jí)節(jié)點(diǎn)的匿名方案雖然能夠?qū)崿F(xiàn)邊的匿名,但是與原始社交結(jié)構(gòu)圖存在較大區(qū)別,以犧牲數(shù)據(jù)的可用性為代價(jià)。
社交網(wǎng)絡(luò)匿名方案面臨的重要問題是,攻擊者可能通過其它公開的信息推測(cè)出匿名用戶,尤其是用戶之間是否存在連接關(guān)系。例如,可以基于弱連接對(duì)用戶可能存在的連接進(jìn)行預(yù)測(cè),適用于用戶關(guān)系較為稀疏的網(wǎng)絡(luò);根據(jù)現(xiàn)有社交結(jié)構(gòu)對(duì)人群中的等級(jí)關(guān)系進(jìn)行恢復(fù)和推測(cè);針對(duì)微博型的復(fù)合社交網(wǎng)絡(luò)進(jìn)行分析與關(guān)系預(yù)測(cè);基于限制隨機(jī)游走方法,推測(cè)不同連接關(guān)系存在的概率,等等。研究表明,社交網(wǎng)絡(luò)的集聚特性對(duì)于關(guān)系預(yù)測(cè)方法的準(zhǔn)確性具有重要影響,社交網(wǎng)絡(luò)局部連接密度增長,集聚系數(shù)增大,則連接預(yù)測(cè)算法的準(zhǔn)確性進(jìn)一步增強(qiáng)。因此,未來的匿名保護(hù)技術(shù)應(yīng)可以有效抵抗此類推測(cè)攻擊。
4.3 數(shù)據(jù)水印技術(shù)
數(shù)字水印是指將標(biāo)識(shí)信息以難以察覺的方式嵌入在數(shù)據(jù)載體內(nèi)部且不影響其使用的方法,多見于多媒體數(shù)據(jù)版權(quán)保護(hù)。也有部分針對(duì)數(shù)據(jù)庫和文本文件的水印方案。
由數(shù)據(jù)的無序性、動(dòng)態(tài)性等特點(diǎn)所決定,在數(shù)據(jù)庫、文檔中添加水印的方法與多媒體載體上有很大不同。其基本前提是上述數(shù)據(jù)中存在冗余信息或可容忍一定精度誤差。例如,Agrawal等人基于數(shù)據(jù)庫中數(shù)值型數(shù)據(jù)存在誤差容忍范圍,將少量水印信息嵌入到這些數(shù)據(jù)中隨機(jī)選取的最不重要位上。而Sion等人提出一種基于數(shù)據(jù)集合統(tǒng)計(jì)特征的方案,將一比特水印信息嵌入在一組屬性數(shù)據(jù)中,防止攻擊者破壞水印。此外,通過將數(shù)據(jù)庫指紋信息嵌入水印中,可以識(shí)別出信息的所有者以及被分發(fā)的對(duì)象,有利于在分布式環(huán)境下追蹤泄密者;通過采用獨(dú)立分量分析技術(shù)(簡(jiǎn)稱ICA),可以實(shí)現(xiàn)無需密鑰的水印公開驗(yàn)證。若在數(shù)據(jù)庫表中嵌人脆弱性水印,可以幫助及時(shí)發(fā)現(xiàn)數(shù)據(jù)項(xiàng)的變化。
文本水印的生成方法種類很多,可大致分為基于文檔結(jié)構(gòu)微調(diào)的水印,依賴字符間距與行間距等格式上的微小差異;基于文本內(nèi)容的水印,依賴于修改文檔內(nèi)容,如增加空格、修改標(biāo)點(diǎn)等;以及基于自然語言的水印。通過理解語義實(shí)現(xiàn)變化,如同義詞替換或句式變化等。
上述水印方案中有些可用于部分?jǐn)?shù)據(jù)的驗(yàn)證。例如在文獻(xiàn)中,殘余元組數(shù)量達(dá)到閾值就可以成功驗(yàn)證出水印。該特性在大數(shù)據(jù)應(yīng)用場(chǎng)景下具有廣闊的發(fā)展前景,例如:強(qiáng)健水印類(RobustWatermark)可用于大數(shù)據(jù)的起源證明,而脆弱水印類(Fragile Watermark)可用于大數(shù)據(jù)的真實(shí)性證明。存在問題之一是當(dāng)前的方案多基于靜態(tài)數(shù)據(jù)集,針對(duì)大數(shù)據(jù)的高速產(chǎn)生與更新的特性考慮不足,這是未來亟待提高的方向。
4.4 數(shù)據(jù)溯源技術(shù)
如前所述,數(shù)據(jù)集成是大數(shù)據(jù)前期處理的步驟之一。由于數(shù)據(jù)的來源多樣化,所以有必要記錄數(shù)據(jù)的來源及其傳播、計(jì)算過程,為后期的挖掘與決策提供輔助支持。
早在大數(shù)據(jù)概念出現(xiàn)之前,數(shù)據(jù)溯源(Data Provenance)技術(shù)就在數(shù)據(jù)庫領(lǐng)域得到廣泛研究。其基本出發(fā)點(diǎn)是幫助人們確定數(shù)據(jù)倉庫中各項(xiàng)數(shù)據(jù)的來源,例如了解它們是由哪些表中的哪些數(shù)據(jù)項(xiàng)運(yùn)算而成,據(jù)此可以方便地驗(yàn)算結(jié)果的正確性,或者以極小的代價(jià)進(jìn)行數(shù)據(jù)更新。數(shù)據(jù)溯源的基本方法是標(biāo)記法,如在口文獻(xiàn)中通過對(duì)數(shù)據(jù)進(jìn)行標(biāo)記來記錄數(shù)據(jù)在數(shù)據(jù)倉庫中的查詢與傳播歷史。后來概念進(jìn)一步細(xì)化為why和where兩類,分別側(cè)重?cái)?shù)據(jù)的計(jì)算方法以及數(shù)據(jù)的出處。除數(shù)據(jù)庫以外,它還包括XML數(shù)據(jù)、流數(shù)據(jù)與不確定數(shù)據(jù)的溯源技術(shù)。
數(shù)據(jù)溯源技術(shù)也可用于文件的溯源與恢復(fù)。例如文獻(xiàn)通過擴(kuò)展Linux內(nèi)核與文件系統(tǒng),創(chuàng)建了一個(gè)數(shù)據(jù)起源存儲(chǔ)系統(tǒng)原型系統(tǒng),可以自動(dòng)搜集起源數(shù)據(jù)。此外也有其在云存儲(chǔ)場(chǎng)景中的應(yīng)用。
未來數(shù)據(jù)溯源技術(shù)將在信息安全領(lǐng)域發(fā)揮重要作用。在2009年呈報(bào)美國國土安全部的“國家網(wǎng)絡(luò)空間安全”的報(bào)告中,將其列為未來確保國家關(guān)鍵基礎(chǔ)設(shè)施安全的3項(xiàng)關(guān)鍵技術(shù)之一。然而,數(shù)據(jù)溯源技術(shù)應(yīng)用于大數(shù)據(jù)安全與隱私保護(hù)中還面I臨如下挑戰(zhàn):
(1)數(shù)據(jù)溯源與隱私保護(hù)之間的平衡。一方面,基于數(shù)據(jù)溯源對(duì)大數(shù)據(jù)進(jìn)行安全保護(hù)首先要通過分析技術(shù)獲得大數(shù)據(jù)的來源,然才能更好地支持安全策略和安全機(jī)制的工作;另一方面,數(shù)據(jù)來源往往本身就是隱私敏感數(shù)據(jù)。用戶不希望這方面的數(shù)據(jù)被分析者獲得。因此,如何平衡這兩者的關(guān)系是值得研究的問題之一。
(2)數(shù)據(jù)溯源技術(shù)自身的安全性保護(hù)。當(dāng)前數(shù)據(jù)溯源技術(shù)并沒有充分考慮安全問題,例如標(biāo)記自身是否正確、標(biāo)記信息與數(shù)據(jù)內(nèi)容之間是否安全綁定等等。而在大數(shù)據(jù)環(huán)境下,其大規(guī)模、高速性、多樣性等特點(diǎn)使該問題更加突出。
4.5 角色挖掘
基于角色的訪問控制(RBAC)是當(dāng)前廣泛使用的一種訪問控制模型。通過為用戶指派角色、將角色關(guān)聯(lián)至權(quán)限集合,實(shí)現(xiàn)用戶授權(quán)、簡(jiǎn)化權(quán)限管理。早期的RBAC權(quán)限管理多采用“自頂向下”的模式:即根據(jù)企業(yè)的職位設(shè)立角色分工。當(dāng)其應(yīng)用于大數(shù)據(jù)場(chǎng)景時(shí),面臨需大量人工參與角色劃分、授權(quán)的問題(又稱為角色工程)。
后來研究者們開始關(guān)注“自底向上”模式,即根據(jù)現(xiàn)有“用戶一對(duì)象”授權(quán)情況,設(shè)計(jì)算法自動(dòng)實(shí)現(xiàn)角色的提取與優(yōu)化,稱為角色挖掘。簡(jiǎn)單來說,就是如何設(shè)置合理的角色。典型的工作包括:以可視化的形式,通過用戶權(quán)限二維圖的排序歸并的方式實(shí)現(xiàn)角色提取;通過子集枚舉以及聚類的方法提取角色等非形式化方法;也有基于形式化語義分析、通過層次化挖掘來更準(zhǔn)確提取角色的方法。
總體來說,挖掘生成最小角色集合的最優(yōu)算法時(shí)間復(fù)雜度高,多屬于NP一完全問題。因而也有研究者關(guān)注在多項(xiàng)式時(shí)間內(nèi)完成的啟發(fā)式算法。在大數(shù)據(jù)場(chǎng)景下,采用角色挖掘技術(shù)可根據(jù)用戶的訪問記錄自動(dòng)生成角色,高效地為海量用戶提供個(gè)性化數(shù)據(jù)服務(wù)。同時(shí)也可用于及時(shí)發(fā)現(xiàn)用戶偏離日常行為所隱藏的潛在危險(xiǎn)。但當(dāng)前角色挖掘技術(shù)大都基于精確、封閉的數(shù)據(jù)集,在應(yīng)用于大數(shù)據(jù)場(chǎng)景時(shí)還需要解決數(shù)據(jù)集動(dòng)態(tài)變更以及質(zhì)量不高等特殊問題。
4.6 風(fēng)險(xiǎn)自適應(yīng)的訪問控制
在大數(shù)據(jù)場(chǎng)景中,安全管理員可能缺乏足夠的專業(yè)知識(shí),無法準(zhǔn)確地為用戶指定其可以訪問的數(shù)據(jù)。風(fēng)險(xiǎn)自適應(yīng)的訪問控制是針對(duì)這種場(chǎng)景討論較多的一種訪問控制方法。Jason的報(bào)告描述了風(fēng)險(xiǎn)量化和訪問配額的概念。隨后,Cheng等人提出了一個(gè)基于多級(jí)別安全模型的風(fēng)險(xiǎn)自適應(yīng)訪問控制解決方案。Ni等人提出了另一個(gè)基于模糊推理的解決方案,將信息的數(shù)目和用戶以及信息的安全等級(jí)作為進(jìn)行風(fēng)險(xiǎn)量化的主要參考參數(shù)。當(dāng)用戶訪問的資源的風(fēng)險(xiǎn)數(shù)值高于某個(gè)預(yù)定的門限時(shí),則限制用戶繼續(xù)訪問。文獻(xiàn)提出了一種針對(duì)醫(yī)療數(shù)據(jù)提供用戶隱私保護(hù)的可量化風(fēng)險(xiǎn)自適應(yīng)訪問控制。通過利用統(tǒng)計(jì)學(xué)和信息論的方法,定義了量化算法,從而實(shí)現(xiàn)基于風(fēng)險(xiǎn)的訪問控制。但同時(shí),在大數(shù)據(jù)應(yīng)用環(huán)境中,風(fēng)險(xiǎn)的定義和量化都較之以往更加困難。
5.大數(shù)據(jù)服務(wù)與信息安全
5.1 基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)
由于大數(shù)據(jù)分析技術(shù)的出現(xiàn),企業(yè)可以超越以往的“保護(hù)-檢測(cè)-響應(yīng)-恢復(fù)”(PDRR)模式,更主動(dòng)地發(fā)現(xiàn)潛在的安全威脅。例如,IBM推出了名為IBM大數(shù)據(jù)安全智能的新型安全工具,可以利用大數(shù)據(jù)來偵測(cè)來自企業(yè)內(nèi)外部的安全威脅,包括掃描電子郵件和社交網(wǎng)絡(luò),標(biāo)示出明顯心存不滿的員工,提醒企業(yè)注意,預(yù)防其泄露企業(yè)機(jī)密。“棱鏡”計(jì)劃也可以被理解為應(yīng)用大數(shù)據(jù)方法進(jìn)行安全分析的成功故事。通過收集各個(gè)國家各種類型的數(shù)據(jù),利用安全威脅數(shù)據(jù)和安全分析形成系統(tǒng)方法發(fā)現(xiàn)潛在危險(xiǎn)局勢(shì),在攻擊發(fā)生之前識(shí)別威脅。相比于傳統(tǒng)技術(shù)方案,基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有以下優(yōu)點(diǎn)。
(1)分析內(nèi)容的范圍更大
傳統(tǒng)的威脅分析主要針對(duì)的內(nèi)容為各類安全事件。而一個(gè)企業(yè)的信息資產(chǎn)則包括數(shù)據(jù)資產(chǎn)、軟件資產(chǎn)、實(shí)物資產(chǎn)、人員資產(chǎn)、服務(wù)資產(chǎn)和其它為業(yè)務(wù)提供支持的無形資產(chǎn)。由于傳統(tǒng)威脅檢測(cè)技術(shù)的局限性,其并不能覆蓋這六類信息資產(chǎn),因此所能發(fā)現(xiàn)的威脅也是有限的。而通過在威脅檢測(cè)方面引入大數(shù)據(jù)分析技術(shù),可以更全面地發(fā)現(xiàn)針對(duì)這些信息資產(chǎn)的攻擊。例如通過分析企業(yè)員工的即時(shí)通信數(shù)據(jù)、Email數(shù)據(jù)等可以及時(shí)發(fā)現(xiàn)人員資產(chǎn)是否面臨其它企業(yè)“挖墻腳”的攻擊威脅。再比如通過對(duì)企業(yè)的客戶部訂單數(shù)據(jù)的分析,也能夠發(fā)現(xiàn)一些異常的操作行為,進(jìn)而判斷是否危害公司利益?梢钥闯,分析內(nèi)容范圍的擴(kuò)大使得基于大數(shù)據(jù)的威脅檢測(cè)更加全面。
(2)分析內(nèi)容的時(shí)間跨度更長
現(xiàn)有的許多威脅分析技術(shù)都是內(nèi)存關(guān)聯(lián)性的,也就是說實(shí)時(shí)收集數(shù)據(jù),采用分析技術(shù)發(fā)現(xiàn)攻擊。分析窗口通常受限于內(nèi)存大小,無法應(yīng)對(duì)持續(xù)性和潛伏性攻擊。而引入大數(shù)據(jù)分析技術(shù)后,威脅分析窗口可以橫跨若干年的數(shù)據(jù),因此威脅發(fā)現(xiàn)能力更強(qiáng),可以有效應(yīng)對(duì)APT類攻擊。
(3)攻擊威脅的預(yù)測(cè)性
傳統(tǒng)的安全防護(hù)技術(shù)或工具大多是在攻擊發(fā)生后對(duì)攻擊行為進(jìn)行分析和歸類,并做出響應(yīng)。而基于大數(shù)據(jù)的威脅分析,可進(jìn)行超前的預(yù)判。它能夠?qū)ふ覞撛诘陌踩{,對(duì)未發(fā)生的攻擊行為進(jìn)行預(yù)防。
(4)對(duì)未知威脅的檢測(cè)
傳統(tǒng)的威脅分析通常是由經(jīng)驗(yàn)豐富的專業(yè)人員根據(jù)企業(yè)需求和實(shí)際情況展開,然而這種威脅分析的結(jié)果很大程度上依賴于個(gè)人經(jīng)驗(yàn)。同時(shí),分析所發(fā)現(xiàn)的威脅也是已知的。而大數(shù)據(jù)分析的特點(diǎn)是側(cè)重于普通的關(guān)聯(lián)分析,而不側(cè)重因果分析,因此通過采用恰當(dāng)?shù)姆治瞿P停砂l(fā)現(xiàn)未知威脅。
雖然基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有上述的優(yōu)點(diǎn),但是該技術(shù)目前也存在一些問題和挑戰(zhàn),主要集中在分析結(jié)果的準(zhǔn)確程度上。一方面,大數(shù)據(jù)的收集很難做到全面,而數(shù)據(jù)又是分析的基礎(chǔ),它的片面性往往會(huì)導(dǎo)致分析出的結(jié)果的偏差。為了分析企業(yè)信息資產(chǎn)面臨的威脅,不但要全面收集企業(yè)內(nèi)部的數(shù)據(jù),還要對(duì)一些企業(yè)外的數(shù)據(jù)進(jìn)行收集,這些在某種程度上是一個(gè)大問題。另一方面,大數(shù)據(jù)分析能力的不足影響威脅分析的準(zhǔn)確性。例如,紐約投資銀行每秒會(huì)有5000次網(wǎng)絡(luò)事件,每天會(huì)從中捕捉25TB數(shù)據(jù)。如果沒有足夠的分析能力,要從如此龐大的數(shù)據(jù)中準(zhǔn)確地發(fā)現(xiàn)極少數(shù)預(yù)示潛在攻擊的事件,進(jìn)而分析出威脅是幾乎不可能完成的任務(wù)。
5.2 基于大數(shù)據(jù)的認(rèn)證技術(shù)
身份認(rèn)證是信息系統(tǒng)或網(wǎng)絡(luò)中確認(rèn)操作者身份的過程。傳統(tǒng)的認(rèn)證技術(shù)主要通過用戶所知的秘密,例如口令,或者持有的憑證,例如數(shù)字證書,來鑒別用戶。這些技術(shù)面臨著如下兩個(gè)問題。
首先,攻擊者總是能夠找到方法來騙取用戶所知的秘密,或竊取用戶持有的憑證,從而通過認(rèn)證機(jī)制的認(rèn)證。例如攻擊者利用釣魚網(wǎng)站竊取用戶口令,或者通過社會(huì)工程學(xué)方式接近用戶,直接騙取用戶所知秘密或持有的憑證。
其次,傳統(tǒng)認(rèn)證技術(shù)中認(rèn)證方式越安全往往意味著用戶負(fù)擔(dān)越重。例如,為了加強(qiáng)認(rèn)證安全,而采用的多因素認(rèn)證。用戶往往需要同時(shí)記憶復(fù)雜的口令,還要隨身攜帶硬件USBKey。一旦忘記口令或者忘記攜帶USBKey,就無法完成身份認(rèn)證。為了減輕用戶負(fù)擔(dān),一些生物認(rèn)證方式出現(xiàn),利用用戶具有的生物特征,例如指紋等,來確認(rèn)其身份。然而,這些認(rèn)證技術(shù)要求設(shè)備必須具有生物特征識(shí)別功能,例如指紋識(shí)別。因此很大程度上限制了這些認(rèn)證技術(shù)的廣泛應(yīng)用。
而在認(rèn)證技術(shù)中引入大數(shù)據(jù)分析則能夠有效地解決這兩個(gè)問題;诖髷(shù)據(jù)的認(rèn)證技術(shù)指的是收集用戶行為和設(shè)備行為數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行分析,獲得用戶行為和設(shè)備行為的特征,進(jìn)而通過鑒別操作者行為及其設(shè)備行為來確定其身份。這與傳統(tǒng)認(rèn)證技術(shù)利用用戶所知秘密,所持有憑證,或具有的生物特征來確認(rèn)其身份有很大不同。具體地,這種新的認(rèn)證技術(shù)具有如下優(yōu)點(diǎn)。
(1)攻擊者很難模擬用戶行為特征來通過認(rèn)證,因此更加安全。利用大數(shù)據(jù)技術(shù)所能收集的用戶行為和設(shè)備行為數(shù)據(jù)是多樣的,可以包括用戶使用系統(tǒng)的時(shí)間、經(jīng)常采用的設(shè)備、設(shè)備所處物理位置,甚至是用戶的操作習(xí)慣數(shù)據(jù)。通過這些數(shù)據(jù)的分析能夠?yàn)橛脩艄串嬕粋(gè)行為特征的輪廓。而攻擊者很難在方方面面都模仿到用戶行為,因此其與真正用戶的行為特征輪廓必然存在一個(gè)較大偏差,無法通過認(rèn)證。
(2)減小了用戶負(fù)擔(dān)。用戶行為和設(shè)備行為特征數(shù)據(jù)的采集、存儲(chǔ)和分析都由認(rèn)證系統(tǒng)完成。相比于傳統(tǒng)認(rèn)證技術(shù),極大地減輕了用戶負(fù)擔(dān)。
(3)可以更好地支持各系統(tǒng)認(rèn)證機(jī)制的統(tǒng)一基于大數(shù)據(jù)的認(rèn)證技術(shù)可以讓用戶在整個(gè)網(wǎng)絡(luò)空間采用相同的行為特征進(jìn)行身份認(rèn)證,而避免不同系統(tǒng)采用不同認(rèn)證方式,且用戶所知秘密或所持有憑證也各不相同而帶來了種種不便。
雖然基于大數(shù)據(jù)的認(rèn)證技術(shù)具有上述優(yōu)點(diǎn),但同時(shí)也存在一些問題和挑戰(zhàn)亟待解決。
(1)初始階段的認(rèn)證問題;诖髷(shù)據(jù)的認(rèn)證技術(shù)是建立在大量用戶行為和設(shè)備行為數(shù)據(jù)分析的基礎(chǔ)上,而初始階段不具備大量數(shù)據(jù)。因此,無法分析出用戶行為特征,或者分析的結(jié)果不夠準(zhǔn)確。
(2)用戶隱私問題;诖髷(shù)據(jù)的認(rèn)證技術(shù)為了能夠獲得用戶的行為習(xí)慣,必然要長期持續(xù)地收集大量的用戶數(shù)據(jù)。那么如何在收集和分析這些數(shù)據(jù)的同時(shí),確保用戶隱私也是亟待解決的問題。它是影響這種新的認(rèn)證技術(shù)是否能夠推廣的主要因素。
5.3 基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析
目前,基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析被廣泛認(rèn)為是最為有效的方法。許多企業(yè)已經(jīng)開始了這方面的研究工作,例如Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件;Yelp等社交點(diǎn)評(píng)網(wǎng)絡(luò)用大數(shù)據(jù)分析來識(shí)別虛假評(píng)論;新浪微博等社交媒體利用大數(shù)據(jù)分析來鑒別各類垃圾信息等。
基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析技術(shù)能夠提高垃圾信息的鑒別能力。一方面,引入大數(shù)據(jù)分析可以獲得更高的識(shí)別準(zhǔn)確率。例如,對(duì)于點(diǎn)評(píng)網(wǎng)站的虛假評(píng)論,可以通過收集評(píng)論者的大量位置信息、評(píng)論內(nèi)容、評(píng)論時(shí)問等進(jìn)行分析,鑒別其評(píng)論的可靠性。如果某評(píng)論者為某品牌多個(gè)同類產(chǎn)品都發(fā)表了惡意評(píng)論,則其評(píng)論的真實(shí)性就值得懷疑;另一方面,在進(jìn)行大數(shù)據(jù)分析時(shí),通過機(jī)器學(xué)習(xí)技術(shù),可以發(fā)現(xiàn)更多具有新特征的垃圾信息。然而該技術(shù)仍然面臨一些困難,主要是虛假信息的定義、分析模型的構(gòu)建等。
5.4 大數(shù)據(jù)與“安全一即一服務(wù)(Security-as-a-Service)”
前面列舉了部分當(dāng)前基于大數(shù)據(jù)的信息安全技術(shù),未來必將涌現(xiàn)出更多、更豐富的安全應(yīng)用和安全服務(wù)。由于此類技術(shù)以大數(shù)據(jù)分析為基礎(chǔ),因此如何收集、存儲(chǔ)和管理大數(shù)據(jù)就是相關(guān)企業(yè)或組織所面臨的核心問題。除了極少數(shù)企業(yè)有能力做到之外,對(duì)于絕大多數(shù)信息安全企業(yè)來說,更為現(xiàn)實(shí)的方式是通過某種方式獲得大數(shù)據(jù)服務(wù),結(jié)合自己的技術(shù)特色領(lǐng)域,對(duì)外提供安全服務(wù)。一種未來的發(fā)展前景是,以底層大數(shù)據(jù)服務(wù)為基礎(chǔ),各個(gè)企業(yè)之間組成相互依賴、相互支撐的信息安全服務(wù)體系,總體上形成信息安全產(chǎn)業(yè)界的良好生態(tài)環(huán)境。
6.小結(jié)
大數(shù)據(jù)帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數(shù)據(jù)的隱私保護(hù)、信任、訪問控制等角度出發(fā),梳理了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)相關(guān)關(guān)鍵技術(shù)。但總體上來說,當(dāng)前國內(nèi)外針對(duì)大數(shù)據(jù)安全與隱私保護(hù)的相關(guān)研究還不充分。只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好地解決大數(shù)據(jù)安全與隱私保護(hù)問題。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:大數(shù)據(jù)安全與隱私保護(hù)
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121513093.html