| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識(shí)庫

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-大數(shù)據(jù)安全與隱私保護(hù)

大數(shù)據(jù)安全與隱私保護(hù)

發(fā)布日期：2014-04-01 10:36:44 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：大數(shù)據(jù)安全與隱私保護(hù) 原標(biāo)題：大數(shù)據(jù)安全與隱私保護(hù) 原作者：發(fā)表時(shí)間：2014/4/1 馮登國張敏李昊來源：萬方數(shù)據(jù)

1.引言

　　當(dāng)今，社會(huì)信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計(jì)，平均每秒有200萬用戶在使用谷歌搜索，F(xiàn)acebook用戶每天共享的東西超過40億，Twitter每天處理的推特?cái)?shù)量超過3.4億。同時(shí)，科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達(dá)到2.7 ZB，而到2015年這一數(shù)值預(yù)計(jì)會(huì)達(dá)到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界，圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式，即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究；2008年《Nature))推出了大數(shù)據(jù)�？瘜�(duì)其展開探討；2011年《Science》也推出類似的數(shù)據(jù)處理�？�。IT產(chǎn)業(yè)界行動(dòng)更為積極，持續(xù)關(guān)注數(shù)據(jù)再利用，挖掘大數(shù)據(jù)的潛在價(jià)值。目前，大數(shù)據(jù)已成為繼云計(jì)算之后信息技術(shù)領(lǐng)域的另一個(gè)信息產(chǎn)業(yè)增長點(diǎn)。據(jù)Gartner預(yù)測(cè)，2013年大數(shù)據(jù)將帶動(dòng)全球IT支出340億美元，到2016年全球在大數(shù)據(jù)方面的總花費(fèi)將達(dá)到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一。不僅如此，作為國家和社會(huì)的主要管理者，各國政府也是大數(shù)據(jù)技術(shù)推廣的主要推動(dòng)者。2009年3月美國政府上線了data.gov網(wǎng)站，向公眾開放政府所擁有的公共數(shù)據(jù)。隨后，英國、澳大利亞等政府也開始了大數(shù)據(jù)開放的進(jìn)程，截至目前，全世界已經(jīng)正式有35個(gè)國家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個(gè)部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”。在我國，2012年中國通信學(xué)會(huì)、中國計(jì)算機(jī)學(xué)會(huì)等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會(huì)，為我國大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。

　　目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題，安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。當(dāng)前，人們?cè)诨ヂ?lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中，包括購物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項(xiàng)實(shí)際案例說明，即使無害的數(shù)據(jù)被大量收集后，也會(huì)暴露個(gè)人隱私。事實(shí)上，大數(shù)據(jù)安全含義更為廣泛，人們面臨的威脅并不僅限于個(gè)人隱私泄漏。與其它信息一樣，大數(shù)據(jù)在存儲(chǔ)、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險(xiǎn)，具有數(shù)據(jù)安全與隱私保護(hù)需求。而實(shí)現(xiàn)大數(shù)據(jù)安全與隱私保護(hù)，較以往其它安全問題(如云計(jì)算中的數(shù)據(jù)安全等)更為棘手。這是因?yàn)樵谠朴?jì)算中，雖然服務(wù)提供商控制了數(shù)據(jù)的存儲(chǔ)與運(yùn)行環(huán)境，但是用戶仍然有些辦法保護(hù)自己的數(shù)據(jù)，例如通過密碼學(xué)的技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)安全存儲(chǔ)與安全計(jì)算，或者通過可信計(jì)算方式實(shí)現(xiàn)運(yùn)行環(huán)境安全等。而在大數(shù)據(jù)的背景下，F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者，又是數(shù)據(jù)的存儲(chǔ)、管理者和使用者，因此，單純通過技術(shù)手段限制商家對(duì)用戶信息的使用，實(shí)現(xiàn)用戶隱私保護(hù)是極其困難的事。

　　當(dāng)前很多組織都認(rèn)識(shí)到大數(shù)據(jù)的安全問題，并積極行動(dòng)起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組，旨在尋找針對(duì)數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上，重點(diǎn)分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn)，詳細(xì)闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。需要指出的是，大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時(shí)，也為信息安全領(lǐng)域帶來了新的發(fā)展契機(jī)，即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護(hù)。本文在第5節(jié)對(duì)其進(jìn)行了初步分析與探討。

　　2.大數(shù)據(jù)研究概述

　　2.1 大數(shù)據(jù)來源與特征

　　普遍的觀點(diǎn)認(rèn)為，大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點(diǎn)包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同，大數(shù)據(jù)大致可分為如下幾類：

　　(1)來自于人。人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)以及使用移動(dòng)互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù)，包括文字、圖片、視頻等信息；

　　(2)來自于機(jī)。各類計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù)，以文件、數(shù)據(jù)庫、多媒體等形式存在，也包括審計(jì)、日志等自動(dòng)生成的信息；

　　(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號(hào)、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項(xiàng)特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。

　　2.2 大數(shù)據(jù)分析目標(biāo)

　　目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個(gè)領(lǐng)域，用途差異巨大。但其目標(biāo)可以歸納為如下幾類：

　　(1)獲得知識(shí)與推測(cè)趨勢(shì)

　　人們進(jìn)行數(shù)據(jù)分析由來已久，最初且最重要的目的就是獲得知識(shí)、利用知識(shí)。由于大數(shù)據(jù)包含大量原始、真實(shí)信息，大數(shù)據(jù)分析能夠有效地摒棄個(gè)體差異，幫助人們透過現(xiàn)象、更準(zhǔn)確地把握事物背后的規(guī)律�；谕诰虺龅闹R(shí)，可以更準(zhǔn)確地對(duì)自然或社會(huì)現(xiàn)象進(jìn)行預(yù)測(cè)。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計(jì)人們對(duì)流感信息的搜索，查詢Google服務(wù)器日志的IP地址判定搜索來源，從而發(fā)布對(duì)世界各地流感情況的預(yù)測(cè)。又如，人們可以根據(jù)Twitter信息預(yù)測(cè)股票行情等。

　　(2)分析掌握個(gè)性化特征

　　個(gè)體活動(dòng)在滿足某些群體特征的同時(shí)，也具有鮮明的個(gè)性化特征。正如“長尾理論”中那條細(xì)長的尾巴那樣，這些特征可能千差萬別。企業(yè)通過長時(shí)間、多維度的數(shù)據(jù)積累，可以分析用戶行為規(guī)律，更準(zhǔn)確地描繪其個(gè)體輪廓，為用戶提供更好的個(gè)性化產(chǎn)品和服務(wù)，以及更準(zhǔn)確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛好進(jìn)行分析，幫助廣告商評(píng)估廣告活動(dòng)效率，預(yù)估在未來可能存在高達(dá)到數(shù)千億美元的市場(chǎng)規(guī)模。
　　　　
　　(3)通過分析辨識(shí)真相

　　錯(cuò)誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利，所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如，2013年4月24日，美聯(lián)社Twitter帳號(hào)被盜，發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止，但是仍然引發(fā)了美國股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性，在一定程度上它可以幫助實(shí)現(xiàn)信息的去偽存真。目前人們開始嘗試?yán)么髷?shù)據(jù)進(jìn)行虛假信息識(shí)別。例如，社交點(diǎn)評(píng)類網(wǎng)站Yelp利用大數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行過濾，為用戶提供更為真實(shí)的評(píng)論信息；Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。

2.3 大數(shù)據(jù)技術(shù)框架

大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。

圖1 大數(shù)據(jù)技術(shù)架構(gòu)

　　(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)

　　大數(shù)據(jù)的數(shù)據(jù)源多樣化，包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此，大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作，為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。

　　由于大數(shù)據(jù)的來源不一，可能存在不同模式的描述，甚至存在矛盾。因此，在數(shù)據(jù)集成過程中對(duì)數(shù)據(jù)進(jìn)行清洗，以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻(xiàn)中數(shù)據(jù)清洗和集成技術(shù)針對(duì)大數(shù)據(jù)的特點(diǎn)，提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。

　　數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實(shí)時(shí)性要求較高的應(yīng)用，如狀態(tài)監(jiān)控，更適合采用流處理模式，直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲(chǔ)，以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量，降低存儲(chǔ)成本，通常采用分布式架構(gòu)來存儲(chǔ)大數(shù)據(jù)。這方面有代表性的研究包括：文件系統(tǒng)GFSE、HDFS和Haystack等；NoSQL數(shù)據(jù)庫Mongodb、CouchDB、HBase、Redis、Neo4j等。

　　(2)數(shù)據(jù)分析(Data Analysis)

　　數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類：計(jì)算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。

　　在計(jì)算架構(gòu)方面，MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計(jì)算模型和框架。為了適應(yīng)一些對(duì)任務(wù)完成時(shí)間要求較高的分析需求，文獻(xiàn)對(duì)其性能進(jìn)行了優(yōu)化；文獻(xiàn)提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA，使其能夠支持實(shí)時(shí)分析任務(wù)；文獻(xiàn)則提出了基于時(shí)間的大數(shù)據(jù)分析方案Mastiff；文獻(xiàn)也針對(duì)廣告推送等實(shí)時(shí)性要求較高的應(yīng)用，提出了基于MapReduce的TiMR框架來進(jìn)行實(shí)時(shí)流處理。

　　在查詢與索引方面，由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)，傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢和索引技術(shù)受到限制，而NoSQL類數(shù)據(jù)庫技術(shù)得到更多關(guān)注。例如，文獻(xiàn)提出了一個(gè)混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻(xiàn)對(duì)key-value類型數(shù)據(jù)庫的查詢進(jìn)行了性能優(yōu)化。

　　在數(shù)據(jù)分析與處理方面，主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點(diǎn)，所以對(duì)數(shù)據(jù)進(jìn)行語義分析時(shí)，就較難統(tǒng)一術(shù)語進(jìn)而挖掘信息。文獻(xiàn)針對(duì)大數(shù)據(jù)環(huán)境，提出了一種解決術(shù)語變異問題的高效術(shù)語標(biāo)準(zhǔn)化方法。文獻(xiàn)對(duì)語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)，因此迫切需要對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻(xiàn)提出了一種針對(duì)圖片文件的挖掘技術(shù)，文獻(xiàn)提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。

　　(3)數(shù)據(jù)解釋(Data IntERPretation)

　　數(shù)據(jù)解釋旨在更好地支持用戶對(duì)數(shù)據(jù)分析結(jié)果的使用，涉及的主要技術(shù)為可視化和人機(jī)交互。目前已經(jīng)有了一些針對(duì)大規(guī)模數(shù)據(jù)的可視化研究，通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性，以人為中心的人機(jī)交互設(shè)計(jì)也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。

　　(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)

　　雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心，將計(jì)算推送到數(shù)據(jù)上執(zhí)行，但是在整個(gè)處理過程中，數(shù)據(jù)的傳輸仍然是必不可少的，例如一些科學(xué)觀測(cè)數(shù)據(jù)從觀測(cè)點(diǎn)向數(shù)據(jù)中心的傳輸?shù)取Ｎ墨I(xiàn)針對(duì)大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。

　　此外，由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點(diǎn)，人們?cè)诖髷?shù)據(jù)分析時(shí)可以選擇更加方便的虛擬集群來完成各項(xiàng)處理任務(wù)。因此需要針對(duì)大數(shù)據(jù)應(yīng)用展開的虛擬機(jī)集群優(yōu)化研究。

　　3.大數(shù)據(jù)帶來的安全挑戰(zhàn)

　　科學(xué)技術(shù)是一把雙刃劍。大數(shù)據(jù)所引發(fā)的安全問題與其帶來的價(jià)值同樣引人注目。而最近爆發(fā)的“棱鏡門”事件更加劇了人們對(duì)大數(shù)據(jù)安全的擔(dān)憂。與傳統(tǒng)的信息安全問題相比，大數(shù)據(jù)安全面臨的挑戰(zhàn)性問題主要體現(xiàn)在以下幾個(gè)方面。

　　3.1 大數(shù)據(jù)中的用戶隱私保護(hù)

　　大量事實(shí)表明，大數(shù)據(jù)未被妥善處理會(huì)對(duì)用戶的隱私造成極大的侵害。根據(jù)需要保護(hù)的內(nèi)容不同，隱私保護(hù)又可以進(jìn)一步細(xì)分為位置隱私保護(hù)、標(biāo)識(shí)符匿名保護(hù)、連接關(guān)系匿名保護(hù)等。

　　人們面臨的威脅并不僅限于個(gè)人隱私泄漏，還在于基于大數(shù)據(jù)對(duì)人們狀態(tài)和行為的預(yù)測(cè)。一個(gè)典型的例子是某零售商通過歷史記錄分析，比家長更早知道其女兒已經(jīng)懷孕的事實(shí)，并向其郵寄相關(guān)廣告信息。而社交網(wǎng)絡(luò)分析研究也表明，可以通過其中的群組特性發(fā)現(xiàn)用戶的屬性。例如通過分析用戶的Twitter信息，可以發(fā)現(xiàn)用戶的政治傾向、消費(fèi)習(xí)慣以及喜好的球隊(duì)等。

　　當(dāng)前企業(yè)常常認(rèn)為經(jīng)過匿名處理后，信息不包含用戶的標(biāo)識(shí)符，就可以公開發(fā)布了。但事實(shí)上，僅通過匿名保護(hù)并不能很好地達(dá)到隱私保護(hù)目標(biāo)。例如，AOL公司曾公布了匿名處理后的3個(gè)月內(nèi)部分搜索歷史，供人們分析使用。雖然個(gè)人相關(guān)的標(biāo)識(shí)信息被精心處理過，但其中的某些記錄項(xiàng)還是可以被準(zhǔn)確地定位到具體的個(gè)人。紐約時(shí)報(bào)隨即公布了其識(shí)別出的1位用戶。編號(hào)為4417 749的用戶是1位62歲的寡居?jì)D人，家里養(yǎng)了3條狗，患有某種疾病，等等。另一個(gè)相似的例子是，著名的DVD租賃商N(yùn)etflix曾公布了約50萬用戶的租賃信息，懸賞100萬美元征集算法，以期提高電影推薦系統(tǒng)的準(zhǔn)確度。但是當(dāng)上述信息與其它數(shù)據(jù)源結(jié)合時(shí)，部分用戶還是被識(shí)別出來了。研究者發(fā)現(xiàn)，Netflix中的用戶有很大概率對(duì)非topl00、top500、topl000的影片進(jìn)行過評(píng)分，而根據(jù)對(duì)非top影片的評(píng)分結(jié)果進(jìn)行去匿名化(de-anonymizing)攻擊的效果更好。

　　目前用戶數(shù)據(jù)的收集、存儲(chǔ)、管理與使用等均缺乏規(guī)范，更缺乏監(jiān)管，主要依靠企業(yè)的自律。用戶無法確定自己隱私信息的用途。而在商業(yè)化場(chǎng)景中，用戶應(yīng)有權(quán)決定自己的信息如何被利用，實(shí)現(xiàn)用戶可控的隱私保護(hù)。例如用戶可以決定自己的信息何時(shí)以何種形式披露，何時(shí)被銷毀。包括：(1)數(shù)據(jù)采集時(shí)的隱私保護(hù)，如數(shù)據(jù)精度處理；(2)數(shù)據(jù)共享、發(fā)布時(shí)的隱私保護(hù)，如數(shù)據(jù)的匿名處理、人工加擾等；(3)數(shù)據(jù)分析時(shí)的隱私保護(hù)；(4)數(shù)據(jù)生命周期的隱私保護(hù)；(5)隱私數(shù)據(jù)可信銷毀等。

　　3.2 大數(shù)據(jù)的可信性

　　關(guān)于大數(shù)據(jù)的一個(gè)普遍的觀點(diǎn)是，數(shù)據(jù)自己可以說明一切，數(shù)據(jù)自身就是事實(shí)。但實(shí)際情況是，如果不仔細(xì)甄別，數(shù)據(jù)也會(huì)欺騙，就像人們有時(shí)會(huì)被自己的雙眼欺騙一樣。

　　大數(shù)據(jù)可信性的威脅之一是偽造或刻意制造的數(shù)據(jù)，而錯(cuò)誤的數(shù)據(jù)往往會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。若數(shù)據(jù)應(yīng)用場(chǎng)景明確，就可能有人刻意制造數(shù)據(jù)、營造某種“假象”，誘導(dǎo)分析者得出對(duì)其有利的結(jié)論。由于虛假信息往往隱藏于大量信息中，使得人們無法鑒別真?zhèn)�，從而做出錯(cuò)誤判斷。例如，一些點(diǎn)評(píng)網(wǎng)站上的虛假評(píng)論，混雜在真實(shí)評(píng)論中使得用戶無法分辨，可能誤導(dǎo)用戶去選擇某些劣質(zhì)商品或服務(wù)。由于當(dāng)前網(wǎng)絡(luò)社區(qū)中虛假信息的產(chǎn)生和傳播變得越來越容易，其所產(chǎn)生的影響不可低估。用信息安全技術(shù)手段鑒別所有來源的真實(shí)性是不可能的。

　　大數(shù)據(jù)可信性的威脅之二是數(shù)據(jù)在傳播中的逐步失真。原因之一是人工干預(yù)的數(shù)據(jù)采集過程可能引入誤差，由于失誤導(dǎo)致數(shù)據(jù)失真與偏差，最終影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。此外，數(shù)據(jù)失真還有數(shù)據(jù)的版本變更的因素。在傳播過程中，現(xiàn)實(shí)情況發(fā)生了變化，早期采集的數(shù)據(jù)已經(jīng)不能反映真實(shí)情況。例如，餐館電話號(hào)碼已經(jīng)變更，但早期的信息已經(jīng)被其它搜索引擎或應(yīng)用收錄，所以用戶可能看到矛盾的信息而影響其判斷。

　　因此，大數(shù)據(jù)的使用者應(yīng)該有能力基于數(shù)據(jù)來源的真實(shí)性、數(shù)據(jù)傳播途徑、數(shù)據(jù)加工處理過程等，了解各項(xiàng)數(shù)據(jù)可信度，防止分析得出無意義或者錯(cuò)誤的結(jié)果。

　　密碼學(xué)中的數(shù)字簽名、消息鑒別碼等技術(shù)可以用于驗(yàn)證數(shù)據(jù)的完整性，但應(yīng)用于大數(shù)據(jù)的真實(shí)性時(shí)面臨很大困難，主要根源在于數(shù)據(jù)粒度的差異。例如，數(shù)據(jù)的發(fā)源方可以對(duì)整個(gè)信息簽名，但是當(dāng)信息分解成若干組成部分時(shí)，該簽名無法驗(yàn)證每個(gè)部分的完整性。而數(shù)據(jù)的發(fā)源方無法事先預(yù)知哪些部分被利用、如何被利用，難以事先為其生成驗(yàn)證對(duì)象。

　　3.3 如何實(shí)現(xiàn)大數(shù)據(jù)訪問控制

　　訪問控制是實(shí)現(xiàn)數(shù)據(jù)受控共享的有效手段。由于大數(shù)據(jù)可能被用于多種不同場(chǎng)景，其訪問控制需求十分突出。

　　大數(shù)據(jù)訪問控制的特點(diǎn)與難點(diǎn)在于：

　　(1)難以預(yù)設(shè)角色，實(shí)現(xiàn)角色劃分。由于大數(shù)據(jù)應(yīng)用范圍廣泛，它通常要為來自不同組織或部門、不同身份與目的的用戶所訪問，實(shí)施訪問控制是基本需求。然而，在大數(shù)據(jù)的場(chǎng)景下，有大量的用戶需要實(shí)施權(quán)限管理，且用戶具體的權(quán)限要求未知。面對(duì)未知的大量數(shù)據(jù)和用戶，預(yù)先設(shè)置角色十分困難。

　　(2)難以預(yù)知每個(gè)角色的實(shí)際權(quán)限。由于大數(shù)據(jù)場(chǎng)景中包含海量數(shù)據(jù)，安全管理員可能缺乏足夠的專業(yè)知識(shí)，無法準(zhǔn)確地為用戶指定其所可以訪問的數(shù)據(jù)范圍。而且從效率角度講，定義用戶所有授權(quán)規(guī)則也不是理想的方式。以醫(yī)療領(lǐng)域應(yīng)用為例，醫(yī)生為了完成其工作可能需要訪問大量信息，但對(duì)于數(shù)據(jù)能否訪問應(yīng)該由醫(yī)生來決定，不應(yīng)該需要管理員對(duì)每個(gè)醫(yī)生做特別的配置。但同時(shí)又應(yīng)該能夠提供對(duì)醫(yī)生訪問行為的檢測(cè)與控制，限制醫(yī)生對(duì)病患數(shù)據(jù)的過度訪問。

　　此外，不同類型的大數(shù)據(jù)中可能存在多樣化的訪問控制需求。例如，在Web2.0個(gè)人用戶數(shù)據(jù)中，存在基于歷史記錄的訪問控制；在地理地圖數(shù)據(jù)中，存在基于尺度以及數(shù)據(jù)精度的訪問控制需求；在流數(shù)據(jù)處理中，存在數(shù)據(jù)時(shí)間區(qū)間的訪問控制需求，等等。如何統(tǒng)一地描述與表達(dá)訪問控制需求也是一個(gè)挑戰(zhàn)性問題。

　　4.大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)

　　當(dāng)前亟需針對(duì)前述大數(shù)據(jù)面l臨的用戶隱私保護(hù)、數(shù)據(jù)內(nèi)容可信驗(yàn)證、訪問控制等安全挑戰(zhàn)，展開大數(shù)據(jù)安全關(guān)鍵技術(shù)研究。本節(jié)選取部分重點(diǎn)相關(guān)研究領(lǐng)域予以介紹。

　　4.1 數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)

　　對(duì)于大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)(或稱關(guān)系數(shù)據(jù))而言，數(shù)據(jù)發(fā)布匿名保護(hù)是實(shí)現(xiàn)其隱私保護(hù)的核心關(guān)鍵技術(shù)與基本手段，目前仍處于不斷發(fā)展與完善階段。以典型的k匿名方案為例。早期的方案及其優(yōu)化方案通過元組泛化、抑制等數(shù)據(jù)處理，將準(zhǔn)標(biāo)識(shí)符分組。每個(gè)分組中的準(zhǔn)標(biāo)識(shí)符相同且至少包含k個(gè)元組，因而每個(gè)元組至少與k-1個(gè)其它元組不可區(qū)分。由于是匿名模型是針對(duì)所有屬性集合而言，對(duì)于具體的某個(gè)屬性則未加定義，容易出現(xiàn)某個(gè)屬性匿名處理不足的情況。若某等價(jià)類中某個(gè)敏感屬性上取值一致，則攻擊者可以有效地確定該屬性值。針對(duì)該問題研究者提出l多樣化(l-diversity)匿名。其特點(diǎn)是在每一個(gè)匿名屬性組里敏感數(shù)據(jù)的多樣性滿足要大于或等于l。實(shí)現(xiàn)方法包括基于裁剪算法的方案以及基于數(shù)據(jù)置換的方案等。此外，還有一些介于志匿名與l多樣化之間的方案。進(jìn)一步的，由于l-diversity只是能夠盡量使敏感數(shù)據(jù)出現(xiàn)的頻率平均化。當(dāng)同一等價(jià)類中數(shù)據(jù)范圍很小時(shí)，攻擊者可猜測(cè)其值。t貼近性(t-closeness)方案要求等價(jià)類中敏感數(shù)據(jù)的分布與整個(gè)數(shù)據(jù)表中數(shù)據(jù)的分布保持一致。其它工作包括(k，e)匿名模型(X，Y)匿名模型等。上述研究是針對(duì)靜態(tài)、一次性發(fā)布情況。而現(xiàn)實(shí)中，數(shù)據(jù)發(fā)布常面臨數(shù)據(jù)連續(xù)、多次發(fā)布的場(chǎng)景。需要防止攻擊者對(duì)多次發(fā)布的數(shù)據(jù)聯(lián)合進(jìn)行分析，破壞數(shù)據(jù)原有的匿名特性。

　　在大數(shù)據(jù)場(chǎng)景中，數(shù)據(jù)發(fā)布匿名保護(hù)問題較之更為復(fù)雜：攻擊者可以從多種渠道獲得數(shù)據(jù)，而不僅僅是同一發(fā)布源。例如，在前所提及的Netflix應(yīng)用中，人們發(fā)現(xiàn)攻擊者可通過將數(shù)據(jù)與公開可獲得的imdb相對(duì)比，從而識(shí)別出目標(biāo)在Netflix的賬號(hào)。并據(jù)此獲取用戶的政治傾向與宗教信仰等(通過用戶的觀看歷史和對(duì)某些電影的評(píng)論和打分分析獲得)。此類問題有待更深入的研究。

　　4.2 社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)

　　社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)是大數(shù)據(jù)的重要來源之一，同時(shí)這些數(shù)據(jù)中包含大量用戶隱私數(shù)據(jù)。截至2012年10月Facebook的用戶成員就已達(dá)10億。由于社交網(wǎng)絡(luò)具有圖結(jié)構(gòu)特征，其匿名保護(hù)技術(shù)與結(jié)構(gòu)化數(shù)據(jù)有很大不同。

　　社交網(wǎng)絡(luò)中的典型匿名保護(hù)需求為用戶標(biāo)識(shí)匿名與屬性匿名(又稱點(diǎn)匿名)，在數(shù)據(jù)發(fā)布時(shí)隱藏了用戶的標(biāo)識(shí)與屬性信息；以及用戶問關(guān)系匿名(又稱邊匿名)，在數(shù)據(jù)發(fā)布時(shí)隱藏用戶間的關(guān)系。而攻擊者試圖利用節(jié)點(diǎn)的各種屬性(度數(shù)、標(biāo)簽、某些具體連接信息等)，重新識(shí)別出圖中節(jié)點(diǎn)的身份信息。

　　目前的邊匿名方案大多是基于邊的增刪。隨機(jī)增刪交換邊的方法可以有效地實(shí)現(xiàn)邊匿名。其中文獻(xiàn)在匿名過程中保持鄰接矩陣的特征值和對(duì)應(yīng)的拉普拉斯矩陣第二特征值不變，文獻(xiàn)根據(jù)節(jié)點(diǎn)的度數(shù)分組，從度數(shù)相同的節(jié)點(diǎn)中選擇符合要求的進(jìn)行邊的交換，類似的還有文獻(xiàn)。這類方法的問題是隨機(jī)增加的噪音過于分散稀少，存在匿名邊保護(hù)不足問題。

　　另一個(gè)重要思路是基于超級(jí)節(jié)點(diǎn)對(duì)圖結(jié)構(gòu)進(jìn)行分割和集聚操作。如基于節(jié)點(diǎn)聚集的匿名方案、基于基因算法的實(shí)現(xiàn)方案、基于模擬退火算法的實(shí)現(xiàn)方案哺?jìng)円约跋忍畛湓俜指畛?jí)節(jié)點(diǎn)的方案。文獻(xiàn)所提出的k-security概念，通過k個(gè)同構(gòu)子圖實(shí)現(xiàn)圖匿名保護(hù)�；诔�(jí)節(jié)點(diǎn)的匿名方案雖然能夠?qū)崿F(xiàn)邊的匿名，但是與原始社交結(jié)構(gòu)圖存在較大區(qū)別，以犧牲數(shù)據(jù)的可用性為代價(jià)。

　　社交網(wǎng)絡(luò)匿名方案面臨的重要問題是，攻擊者可能通過其它公開的信息推測(cè)出匿名用戶，尤其是用戶之間是否存在連接關(guān)系。例如，可以基于弱連接對(duì)用戶可能存在的連接進(jìn)行預(yù)測(cè)，適用于用戶關(guān)系較為稀疏的網(wǎng)絡(luò)；根據(jù)現(xiàn)有社交結(jié)構(gòu)對(duì)人群中的等級(jí)關(guān)系進(jìn)行恢復(fù)和推測(cè)；針對(duì)微博型的復(fù)合社交網(wǎng)絡(luò)進(jìn)行分析與關(guān)系預(yù)測(cè)；基于限制隨機(jī)游走方法，推測(cè)不同連接關(guān)系存在的概率，等等。研究表明，社交網(wǎng)絡(luò)的集聚特性對(duì)于關(guān)系預(yù)測(cè)方法的準(zhǔn)確性具有重要影響，社交網(wǎng)絡(luò)局部連接密度增長，集聚系數(shù)增大，則連接預(yù)測(cè)算法的準(zhǔn)確性進(jìn)一步增強(qiáng)。因此，未來的匿名保護(hù)技術(shù)應(yīng)可以有效抵抗此類推測(cè)攻擊。

　　4.3 數(shù)據(jù)水印技術(shù)

　　數(shù)字水印是指將標(biāo)識(shí)信息以難以察覺的方式嵌入在數(shù)據(jù)載體內(nèi)部且不影響其使用的方法，多見于多媒體數(shù)據(jù)版權(quán)保護(hù)。也有部分針對(duì)數(shù)據(jù)庫和文本文件的水印方案。

　　由數(shù)據(jù)的無序性、動(dòng)態(tài)性等特點(diǎn)所決定，在數(shù)據(jù)庫、文檔中添加水印的方法與多媒體載體上有很大不同。其基本前提是上述數(shù)據(jù)中存在冗余信息或可容忍一定精度誤差。例如，Agrawal等人基于數(shù)據(jù)庫中數(shù)值型數(shù)據(jù)存在誤差容忍范圍，將少量水印信息嵌入到這些數(shù)據(jù)中隨機(jī)選取的最不重要位上。而Sion等人提出一種基于數(shù)據(jù)集合統(tǒng)計(jì)特征的方案，將一比特水印信息嵌入在一組屬性數(shù)據(jù)中，防止攻擊者破壞水印。此外，通過將數(shù)據(jù)庫指紋信息嵌入水印中，可以識(shí)別出信息的所有者以及被分發(fā)的對(duì)象，有利于在分布式環(huán)境下追蹤泄密者；通過采用獨(dú)立分量分析技術(shù)(簡(jiǎn)稱ICA)，可以實(shí)現(xiàn)無需密鑰的水印公開驗(yàn)證。若在數(shù)據(jù)庫表中嵌人脆弱性水印，可以幫助及時(shí)發(fā)現(xiàn)數(shù)據(jù)項(xiàng)的變化。

　　文本水印的生成方法種類很多，可大致分為基于文檔結(jié)構(gòu)微調(diào)的水印，依賴字符間距與行間距等格式上的微小差異；基于文本內(nèi)容的水印，依賴于修改文檔內(nèi)容，如增加空格、修改標(biāo)點(diǎn)等；以及基于自然語言的水印。通過理解語義實(shí)現(xiàn)變化，如同義詞替換或句式變化等。

　　上述水印方案中有些可用于部分?jǐn)?shù)據(jù)的驗(yàn)證。例如在文獻(xiàn)中，殘余元組數(shù)量達(dá)到閾值就可以成功驗(yàn)證出水印。該特性在大數(shù)據(jù)應(yīng)用場(chǎng)景下具有廣闊的發(fā)展前景，例如：強(qiáng)健水印類(RobustWatermark)可用于大數(shù)據(jù)的起源證明，而脆弱水印類(Fragile Watermark)可用于大數(shù)據(jù)的真實(shí)性證明。存在問題之一是當(dāng)前的方案多基于靜態(tài)數(shù)據(jù)集，針對(duì)大數(shù)據(jù)的高速產(chǎn)生與更新的特性考慮不足，這是未來亟待提高的方向。

　　4.4 數(shù)據(jù)溯源技術(shù)

　　如前所述，數(shù)據(jù)集成是大數(shù)據(jù)前期處理的步驟之一。由于數(shù)據(jù)的來源多樣化，所以有必要記錄數(shù)據(jù)的來源及其傳播、計(jì)算過程，為后期的挖掘與決策提供輔助支持。

　　早在大數(shù)據(jù)概念出現(xiàn)之前，數(shù)據(jù)溯源(Data Provenance)技術(shù)就在數(shù)據(jù)庫領(lǐng)域得到廣泛研究。其基本出發(fā)點(diǎn)是幫助人們確定數(shù)據(jù)倉庫中各項(xiàng)數(shù)據(jù)的來源，例如了解它們是由哪些表中的哪些數(shù)據(jù)項(xiàng)運(yùn)算而成，據(jù)此可以方便地驗(yàn)算結(jié)果的正確性，或者以極小的代價(jià)進(jìn)行數(shù)據(jù)更新。數(shù)據(jù)溯源的基本方法是標(biāo)記法，如在口文獻(xiàn)中通過對(duì)數(shù)據(jù)進(jìn)行標(biāo)記來記錄數(shù)據(jù)在數(shù)據(jù)倉庫中的查詢與傳播歷史。后來概念進(jìn)一步細(xì)化為why和where兩類，分別側(cè)重?cái)?shù)據(jù)的計(jì)算方法以及數(shù)據(jù)的出處。除數(shù)據(jù)庫以外，它還包括XML數(shù)據(jù)、流數(shù)據(jù)與不確定數(shù)據(jù)的溯源技術(shù)。

　　數(shù)據(jù)溯源技術(shù)也可用于文件的溯源與恢復(fù)。例如文獻(xiàn)通過擴(kuò)展Linux內(nèi)核與文件系統(tǒng)，創(chuàng)建了一個(gè)數(shù)據(jù)起源存儲(chǔ)系統(tǒng)原型系統(tǒng)，可以自動(dòng)搜集起源數(shù)據(jù)。此外也有其在云存儲(chǔ)場(chǎng)景中的應(yīng)用。

　　未來數(shù)據(jù)溯源技術(shù)將在信息安全領(lǐng)域發(fā)揮重要作用。在2009年呈報(bào)美國國土安全部的“國家網(wǎng)絡(luò)空間安全”的報(bào)告中，將其列為未來確保國家關(guān)鍵基礎(chǔ)設(shè)施安全的3項(xiàng)關(guān)鍵技術(shù)之一。然而，數(shù)據(jù)溯源技術(shù)應(yīng)用于大數(shù)據(jù)安全與隱私保護(hù)中還面I臨如下挑戰(zhàn)：

　　(1)數(shù)據(jù)溯源與隱私保護(hù)之間的平衡。一方面，基于數(shù)據(jù)溯源對(duì)大數(shù)據(jù)進(jìn)行安全保護(hù)首先要通過分析技術(shù)獲得大數(shù)據(jù)的來源，然才能更好地支持安全策略和安全機(jī)制的工作；另一方面，數(shù)據(jù)來源往往本身就是隱私敏感數(shù)據(jù)。用戶不希望這方面的數(shù)據(jù)被分析者獲得。因此，如何平衡這兩者的關(guān)系是值得研究的問題之一。

　　(2)數(shù)據(jù)溯源技術(shù)自身的安全性保護(hù)。當(dāng)前數(shù)據(jù)溯源技術(shù)并沒有充分考慮安全問題，例如標(biāo)記自身是否正確、標(biāo)記信息與數(shù)據(jù)內(nèi)容之間是否安全綁定等等。而在大數(shù)據(jù)環(huán)境下，其大規(guī)模、高速性、多樣性等特點(diǎn)使該問題更加突出。

　　4.5 角色挖掘

　　基于角色的訪問控制(RBAC)是當(dāng)前廣泛使用的一種訪問控制模型。通過為用戶指派角色、將角色關(guān)聯(lián)至權(quán)限集合，實(shí)現(xiàn)用戶授權(quán)、簡(jiǎn)化權(quán)限管理。早期的RBAC權(quán)限管理多采用“自頂向下”的模式：即根據(jù)企業(yè)的職位設(shè)立角色分工。當(dāng)其應(yīng)用于大數(shù)據(jù)場(chǎng)景時(shí)，面臨需大量人工參與角色劃分、授權(quán)的問題(又稱為角色工程)。

　　后來研究者們開始關(guān)注“自底向上”模式，即根據(jù)現(xiàn)有“用戶一對(duì)象”授權(quán)情況，設(shè)計(jì)算法自動(dòng)實(shí)現(xiàn)角色的提取與優(yōu)化，稱為角色挖掘。簡(jiǎn)單來說，就是如何設(shè)置合理的角色。典型的工作包括：以可視化的形式，通過用戶權(quán)限二維圖的排序歸并的方式實(shí)現(xiàn)角色提取；通過子集枚舉以及聚類的方法提取角色等非形式化方法；也有基于形式化語義分析、通過層次化挖掘來更準(zhǔn)確提取角色的方法。

　　總體來說，挖掘生成最小角色集合的最優(yōu)算法時(shí)間復(fù)雜度高，多屬于NP一完全問題。因而也有研究者關(guān)注在多項(xiàng)式時(shí)間內(nèi)完成的啟發(fā)式算法。在大數(shù)據(jù)場(chǎng)景下，采用角色挖掘技術(shù)可根據(jù)用戶的訪問記錄自動(dòng)生成角色，高效地為海量用戶提供個(gè)性化數(shù)據(jù)服務(wù)。同時(shí)也可用于及時(shí)發(fā)現(xiàn)用戶偏離日常行為所隱藏的潛在危險(xiǎn)。但當(dāng)前角色挖掘技術(shù)大都基于精確、封閉的數(shù)據(jù)集，在應(yīng)用于大數(shù)據(jù)場(chǎng)景時(shí)還需要解決數(shù)據(jù)集動(dòng)態(tài)變更以及質(zhì)量不高等特殊問題。

　　4.6 風(fēng)險(xiǎn)自適應(yīng)的訪問控制

　　在大數(shù)據(jù)場(chǎng)景中，安全管理員可能缺乏足夠的專業(yè)知識(shí)，無法準(zhǔn)確地為用戶指定其可以訪問的數(shù)據(jù)。風(fēng)險(xiǎn)自適應(yīng)的訪問控制是針對(duì)這種場(chǎng)景討論較多的一種訪問控制方法。Jason的報(bào)告描述了風(fēng)險(xiǎn)量化和訪問配額的概念。隨后，Cheng等人提出了一個(gè)基于多級(jí)別安全模型的風(fēng)險(xiǎn)自適應(yīng)訪問控制解決方案。Ni等人提出了另一個(gè)基于模糊推理的解決方案，將信息的數(shù)目和用戶以及信息的安全等級(jí)作為進(jìn)行風(fēng)險(xiǎn)量化的主要參考參數(shù)。當(dāng)用戶訪問的資源的風(fēng)險(xiǎn)數(shù)值高于某個(gè)預(yù)定的門限時(shí)，則限制用戶繼續(xù)訪問。文獻(xiàn)提出了一種針對(duì)醫(yī)療數(shù)據(jù)提供用戶隱私保護(hù)的可量化風(fēng)險(xiǎn)自適應(yīng)訪問控制。通過利用統(tǒng)計(jì)學(xué)和信息論的方法，定義了量化算法，從而實(shí)現(xiàn)基于風(fēng)險(xiǎn)的訪問控制。但同時(shí)，在大數(shù)據(jù)應(yīng)用環(huán)境中，風(fēng)險(xiǎn)的定義和量化都較之以往更加困難。

　　5.大數(shù)據(jù)服務(wù)與信息安全

　　5.1 基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)

　　由于大數(shù)據(jù)分析技術(shù)的出現(xiàn)，企業(yè)可以超越以往的“保護(hù)-檢測(cè)-響應(yīng)-恢復(fù)”(PDRR)模式，更主動(dòng)地發(fā)現(xiàn)潛在的安全威脅。例如，IBM推出了名為IBM大數(shù)據(jù)安全智能的新型安全工具，可以利用大數(shù)據(jù)來偵測(cè)來自企業(yè)內(nèi)外部的安全威脅，包括掃描電子郵件和社交網(wǎng)絡(luò)，標(biāo)示出明顯心存不滿的員工，提醒企業(yè)注意，預(yù)防其泄露企業(yè)機(jī)密。“棱鏡”計(jì)劃也可以被理解為應(yīng)用大數(shù)據(jù)方法進(jìn)行安全分析的成功故事。通過收集各個(gè)國家各種類型的數(shù)據(jù)，利用安全威脅數(shù)據(jù)和安全分析形成系統(tǒng)方法發(fā)現(xiàn)潛在危險(xiǎn)局勢(shì)，在攻擊發(fā)生之前識(shí)別威脅。相比于傳統(tǒng)技術(shù)方案，基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有以下優(yōu)點(diǎn)。

　　(1)分析內(nèi)容的范圍更大

　　傳統(tǒng)的威脅分析主要針對(duì)的內(nèi)容為各類安全事件。而一個(gè)企業(yè)的信息資產(chǎn)則包括數(shù)據(jù)資產(chǎn)、軟件資產(chǎn)、實(shí)物資產(chǎn)、人員資產(chǎn)、服務(wù)資產(chǎn)和其它為業(yè)務(wù)提供支持的無形資產(chǎn)。由于傳統(tǒng)威脅檢測(cè)技術(shù)的局限性，其并不能覆蓋這六類信息資產(chǎn)，因此所能發(fā)現(xiàn)的威脅也是有限的。而通過在威脅檢測(cè)方面引入大數(shù)據(jù)分析技術(shù)，可以更全面地發(fā)現(xiàn)針對(duì)這些信息資產(chǎn)的攻擊。例如通過分析企業(yè)員工的即時(shí)通信數(shù)據(jù)、Email數(shù)據(jù)等可以及時(shí)發(fā)現(xiàn)人員資產(chǎn)是否面臨其它企業(yè)“挖墻腳”的攻擊威脅。再比如通過對(duì)企業(yè)的客戶部訂單數(shù)據(jù)的分析，也能夠發(fā)現(xiàn)一些異常的操作行為，進(jìn)而判斷是否危害公司利益�？梢钥闯�，分析內(nèi)容范圍的擴(kuò)大使得基于大數(shù)據(jù)的威脅檢測(cè)更加全面。

　　(2)分析內(nèi)容的時(shí)間跨度更長

　　現(xiàn)有的許多威脅分析技術(shù)都是內(nèi)存關(guān)聯(lián)性的，也就是說實(shí)時(shí)收集數(shù)據(jù)，采用分析技術(shù)發(fā)現(xiàn)攻擊。分析窗口通常受限于內(nèi)存大小，無法應(yīng)對(duì)持續(xù)性和潛伏性攻擊。而引入大數(shù)據(jù)分析技術(shù)后，威脅分析窗口可以橫跨若干年的數(shù)據(jù)，因此威脅發(fā)現(xiàn)能力更強(qiáng)，可以有效應(yīng)對(duì)APT類攻擊。

　　(3)攻擊威脅的預(yù)測(cè)性

　　傳統(tǒng)的安全防護(hù)技術(shù)或工具大多是在攻擊發(fā)生后對(duì)攻擊行為進(jìn)行分析和歸類，并做出響應(yīng)。而基于大數(shù)據(jù)的威脅分析，可進(jìn)行超前的預(yù)判。它能夠?qū)ふ覞撛诘陌踩{，對(duì)未發(fā)生的攻擊行為進(jìn)行預(yù)防。

　　(4)對(duì)未知威脅的檢測(cè)

　　傳統(tǒng)的威脅分析通常是由經(jīng)驗(yàn)豐富的專業(yè)人員根據(jù)企業(yè)需求和實(shí)際情況展開，然而這種威脅分析的結(jié)果很大程度上依賴于個(gè)人經(jīng)驗(yàn)。同時(shí)，分析所發(fā)現(xiàn)的威脅也是已知的。而大數(shù)據(jù)分析的特點(diǎn)是側(cè)重于普通的關(guān)聯(lián)分析，而不側(cè)重因果分析，因此通過采用恰當(dāng)?shù)姆治瞿Ｐ停砂l(fā)現(xiàn)未知威脅。

　　雖然基于大數(shù)據(jù)的威脅發(fā)現(xiàn)技術(shù)具有上述的優(yōu)點(diǎn)，但是該技術(shù)目前也存在一些問題和挑戰(zhàn)，主要集中在分析結(jié)果的準(zhǔn)確程度上。一方面，大數(shù)據(jù)的收集很難做到全面，而數(shù)據(jù)又是分析的基礎(chǔ)，它的片面性往往會(huì)導(dǎo)致分析出的結(jié)果的偏差。為了分析企業(yè)信息資產(chǎn)面臨的威脅，不但要全面收集企業(yè)內(nèi)部的數(shù)據(jù)，還要對(duì)一些企業(yè)外的數(shù)據(jù)進(jìn)行收集，這些在某種程度上是一個(gè)大問題。另一方面，大數(shù)據(jù)分析能力的不足影響威脅分析的準(zhǔn)確性。例如，紐約投資銀行每秒會(huì)有5000次網(wǎng)絡(luò)事件，每天會(huì)從中捕捉25TB數(shù)據(jù)。如果沒有足夠的分析能力，要從如此龐大的數(shù)據(jù)中準(zhǔn)確地發(fā)現(xiàn)極少數(shù)預(yù)示潛在攻擊的事件，進(jìn)而分析出威脅是幾乎不可能完成的任務(wù)。

　　5.2 基于大數(shù)據(jù)的認(rèn)證技術(shù)

　　身份認(rèn)證是信息系統(tǒng)或網(wǎng)絡(luò)中確認(rèn)操作者身份的過程。傳統(tǒng)的認(rèn)證技術(shù)主要通過用戶所知的秘密，例如口令，或者持有的憑證，例如數(shù)字證書，來鑒別用戶。這些技術(shù)面臨著如下兩個(gè)問題。

　　首先，攻擊者總是能夠找到方法來騙取用戶所知的秘密，或竊取用戶持有的憑證，從而通過認(rèn)證機(jī)制的認(rèn)證。例如攻擊者利用釣魚網(wǎng)站竊取用戶口令，或者通過社會(huì)工程學(xué)方式接近用戶，直接騙取用戶所知秘密或持有的憑證。

　　其次，傳統(tǒng)認(rèn)證技術(shù)中認(rèn)證方式越安全往往意味著用戶負(fù)擔(dān)越重。例如，為了加強(qiáng)認(rèn)證安全，而采用的多因素認(rèn)證。用戶往往需要同時(shí)記憶復(fù)雜的口令，還要隨身攜帶硬件USBKey。一旦忘記口令或者忘記攜帶USBKey，就無法完成身份認(rèn)證。為了減輕用戶負(fù)擔(dān)，一些生物認(rèn)證方式出現(xiàn)，利用用戶具有的生物特征，例如指紋等，來確認(rèn)其身份。然而，這些認(rèn)證技術(shù)要求設(shè)備必須具有生物特征識(shí)別功能，例如指紋識(shí)別。因此很大程度上限制了這些認(rèn)證技術(shù)的廣泛應(yīng)用。

　　而在認(rèn)證技術(shù)中引入大數(shù)據(jù)分析則能夠有效地解決這兩個(gè)問題�；诖髷�(shù)據(jù)的認(rèn)證技術(shù)指的是收集用戶行為和設(shè)備行為數(shù)據(jù)，并對(duì)這些數(shù)據(jù)進(jìn)行分析，獲得用戶行為和設(shè)備行為的特征，進(jìn)而通過鑒別操作者行為及其設(shè)備行為來確定其身份。這與傳統(tǒng)認(rèn)證技術(shù)利用用戶所知秘密，所持有憑證，或具有的生物特征來確認(rèn)其身份有很大不同。具體地，這種新的認(rèn)證技術(shù)具有如下優(yōu)點(diǎn)。

　　(1)攻擊者很難模擬用戶行為特征來通過認(rèn)證，因此更加安全。利用大數(shù)據(jù)技術(shù)所能收集的用戶行為和設(shè)備行為數(shù)據(jù)是多樣的，可以包括用戶使用系統(tǒng)的時(shí)間、經(jīng)常采用的設(shè)備、設(shè)備所處物理位置，甚至是用戶的操作習(xí)慣數(shù)據(jù)。通過這些數(shù)據(jù)的分析能夠?yàn)橛脩艄串嬕粋€(gè)行為特征的輪廓。而攻擊者很難在方方面面都模仿到用戶行為，因此其與真正用戶的行為特征輪廓必然存在一個(gè)較大偏差，無法通過認(rèn)證。

　　(2)減小了用戶負(fù)擔(dān)。用戶行為和設(shè)備行為特征數(shù)據(jù)的采集、存儲(chǔ)和分析都由認(rèn)證系統(tǒng)完成。相比于傳統(tǒng)認(rèn)證技術(shù)，極大地減輕了用戶負(fù)擔(dān)。

　　(3)可以更好地支持各系統(tǒng)認(rèn)證機(jī)制的統(tǒng)一基于大數(shù)據(jù)的認(rèn)證技術(shù)可以讓用戶在整個(gè)網(wǎng)絡(luò)空間采用相同的行為特征進(jìn)行身份認(rèn)證，而避免不同系統(tǒng)采用不同認(rèn)證方式，且用戶所知秘密或所持有憑證也各不相同而帶來了種種不便。

　　雖然基于大數(shù)據(jù)的認(rèn)證技術(shù)具有上述優(yōu)點(diǎn)，但同時(shí)也存在一些問題和挑戰(zhàn)亟待解決。

　　(1)初始階段的認(rèn)證問題�；诖髷�(shù)據(jù)的認(rèn)證技術(shù)是建立在大量用戶行為和設(shè)備行為數(shù)據(jù)分析的基礎(chǔ)上，而初始階段不具備大量數(shù)據(jù)。因此，無法分析出用戶行為特征，或者分析的結(jié)果不夠準(zhǔn)確。

　　(2)用戶隱私問題�；诖髷�(shù)據(jù)的認(rèn)證技術(shù)為了能夠獲得用戶的行為習(xí)慣，必然要長期持續(xù)地收集大量的用戶數(shù)據(jù)。那么如何在收集和分析這些數(shù)據(jù)的同時(shí)，確保用戶隱私也是亟待解決的問題。它是影響這種新的認(rèn)證技術(shù)是否能夠推廣的主要因素。

　　5.3 基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析

　　目前，基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析被廣泛認(rèn)為是最為有效的方法。許多企業(yè)已經(jīng)開始了這方面的研究工作，例如Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件；Yelp等社交點(diǎn)評(píng)網(wǎng)絡(luò)用大數(shù)據(jù)分析來識(shí)別虛假評(píng)論；新浪微博等社交媒體利用大數(shù)據(jù)分析來鑒別各類垃圾信息等。

　　基于大數(shù)據(jù)的數(shù)據(jù)真實(shí)性分析技術(shù)能夠提高垃圾信息的鑒別能力。一方面，引入大數(shù)據(jù)分析可以獲得更高的識(shí)別準(zhǔn)確率。例如，對(duì)于點(diǎn)評(píng)網(wǎng)站的虛假評(píng)論，可以通過收集評(píng)論者的大量位置信息、評(píng)論內(nèi)容、評(píng)論時(shí)問等進(jìn)行分析，鑒別其評(píng)論的可靠性。如果某評(píng)論者為某品牌多個(gè)同類產(chǎn)品都發(fā)表了惡意評(píng)論，則其評(píng)論的真實(shí)性就值得懷疑；另一方面，在進(jìn)行大數(shù)據(jù)分析時(shí)，通過機(jī)器學(xué)習(xí)技術(shù)，可以發(fā)現(xiàn)更多具有新特征的垃圾信息。然而該技術(shù)仍然面臨一些困難，主要是虛假信息的定義、分析模型的構(gòu)建等。

　　5.4 大數(shù)據(jù)與“安全一即一服務(wù)(Security-as-a-Service)”

　　前面列舉了部分當(dāng)前基于大數(shù)據(jù)的信息安全技術(shù)，未來必將涌現(xiàn)出更多、更豐富的安全應(yīng)用和安全服務(wù)。由于此類技術(shù)以大數(shù)據(jù)分析為基礎(chǔ)，因此如何收集、存儲(chǔ)和管理大數(shù)據(jù)就是相關(guān)企業(yè)或組織所面臨的核心問題。除了極少數(shù)企業(yè)有能力做到之外，對(duì)于絕大多數(shù)信息安全企業(yè)來說，更為現(xiàn)實(shí)的方式是通過某種方式獲得大數(shù)據(jù)服務(wù)，結(jié)合自己的技術(shù)特色領(lǐng)域，對(duì)外提供安全服務(wù)。一種未來的發(fā)展前景是，以底層大數(shù)據(jù)服務(wù)為基礎(chǔ)，各個(gè)企業(yè)之間組成相互依賴、相互支撐的信息安全服務(wù)體系，總體上形成信息安全產(chǎn)業(yè)界的良好生態(tài)環(huán)境。

　　6.小結(jié)

　　大數(shù)據(jù)帶來了新的安全問題，但它自身也是解決問題的重要手段。本文從大數(shù)據(jù)的隱私保護(hù)、信任、訪問控制等角度出發(fā)，梳理了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)相關(guān)關(guān)鍵技術(shù)。但總體上來說，當(dāng)前國內(nèi)外針對(duì)大數(shù)據(jù)安全與隱私保護(hù)的相關(guān)研究還不充分。只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合，才能更好地解決大數(shù)據(jù)安全與隱私保護(hù)問題。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：大數(shù)據(jù)安全與隱私保護(hù)

本文網(wǎng)址：http://www.ezxoed.cn/html/support/11121513093.html

關(guān)鍵詞標(biāo)簽： 大數(shù)據(jù)安全與隱私保護(hù),大數(shù)據(jù) 大數(shù)據(jù)安全隱私保護(hù) 信息安全,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉庫管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：基于PLC構(gòu)成GM離心鼓風(fēng)機(jī)組的計(jì)算機(jī)控制系統(tǒng)

下一篇：基于GB/T 24734的三維尺寸快速標(biāo)注技術(shù)

相關(guān)文章

服務(wù)支持

拓步ERP系統(tǒng)軟件平臺(tái)11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺(tái)11.5標(biāo)..

金蝶KIS財(cái)務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財(cái)務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡(jiǎn)體中..

金蝶KIS商貿(mào)高級(jí)版V4.0|破..

金蝶KIS財(cái)務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財(cái)務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺(tái)客戶端安裝培訓(xùn)..

拓步ERP財(cái)務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺(tái)通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺(tái)采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)報(bào)表系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財(cái)務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺(tái)系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺(tái)系列標(biāo)準(zhǔn)版

拓步ERP財(cái)務(wù)系列迷你版（財(cái)務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺(tái)系列企業(yè)版

拓步ERP平臺(tái)系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

最新服務(wù)支持

談3D可視化系統(tǒng)在工業(yè)4.0三項(xiàng)集成的應(yīng)用

互聯(lián)網(wǎng)+智能家裝TOP50新鮮出..

淺談業(yè)務(wù)流程治理

解析工業(yè)4.0系列專欄—— 德國..

工業(yè)物聯(lián)網(wǎng)應(yīng)用場(chǎng)景及系統(tǒng)構(gòu)建

數(shù)據(jù)中心四大災(zāi)備技術(shù)解析

2015網(wǎng)絡(luò)、數(shù)據(jù)中心和云該期待..

如何利用云服務(wù)創(chuàng)建強(qiáng)大的備份策略

《中國制造2025》的總體思路圖

未來數(shù)據(jù)中心UPS需求趨勢(shì)

點(diǎn)擊

聯(lián)系ERP系統(tǒng)咨詢顧問
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問-1
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問-2


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識(shí)庫

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識(shí)庫

常見問題資料庫

在線學(xué)習(xí)資料庫

日常辦公資料庫

企業(yè)管理知識(shí)庫

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)

猜您喜歡