當(dāng)前各個(gè)領(lǐng)域數(shù)據(jù)生成速度逐漸加快,需要處理的數(shù)據(jù)量急劇膨脹。這些巨大的數(shù)據(jù)資源蘊(yùn)藏著潛在的價(jià)值,需要對(duì)其進(jìn)行有效的分析和利用。當(dāng)前數(shù)據(jù)的特點(diǎn)除了數(shù)量龐大之外,數(shù)據(jù)類(lèi)型也變得多樣化,其中包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)量龐大、種類(lèi)繁多的海量數(shù)據(jù),給傳統(tǒng)分析工具帶來(lái)了巨大的挑戰(zhàn)。當(dāng)前對(duì)數(shù)據(jù)的分析不再是簡(jiǎn)單的生成統(tǒng)計(jì)報(bào)表,而是利用復(fù)雜的分析模型進(jìn)行深人的分析,傳統(tǒng)分析技術(shù)例如關(guān)系數(shù)據(jù)庫(kù)技術(shù)已經(jīng)不能滿(mǎn)足其要求。在擴(kuò)展性上,通過(guò)增加或更換內(nèi)存、CPU、硬盤(pán)等設(shè)備原件以打一展單個(gè)節(jié)點(diǎn)的能力的縱向打一展(scale up)系統(tǒng)遇到了瓶頸;只有通過(guò)增加計(jì)算節(jié)點(diǎn),連接成大規(guī)模集群,進(jìn)行分布式并行計(jì)算和管理的橫向打一展(scale out )系統(tǒng)才能滿(mǎn)足大數(shù)據(jù)的分析需求[u。因此傳統(tǒng)工具在擴(kuò)展性上遇到了障礙,必須尋求可靠的數(shù)據(jù)存儲(chǔ)和分析技術(shù)來(lái)分析和利用這些龐大的資源。利用云計(jì)算平臺(tái)搭建Hadoop計(jì)算框架成為當(dāng)前處理大數(shù)據(jù)的主要手段。然而由于云計(jì)算和Hadoop應(yīng)用的特點(diǎn)和自身安全機(jī)制薄弱,不可避免地帶來(lái)了安全風(fēng)險(xiǎn)。
1、大數(shù)據(jù)應(yīng)用模式
云計(jì)算(Cloud Computing)是一種基于Internet的計(jì)算,是以并行計(jì)算(Parallel Computing )、分布式計(jì)算(Distributed Computing)和網(wǎng)格計(jì)算(Grid Compu-tin助為基礎(chǔ),融合了網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等技術(shù)的新興產(chǎn)物。它將原本需要由個(gè)人計(jì)算機(jī)和私有數(shù)據(jù)中心執(zhí)行的任務(wù)轉(zhuǎn)移給具備專(zhuān)業(yè)存儲(chǔ)和計(jì)算技術(shù)的大型計(jì)算中心來(lái)完成,實(shí)現(xiàn)了計(jì)算機(jī)軟件、硬件等計(jì)算資源的充分共享[z}。企業(yè)或個(gè)人不再需要花費(fèi)大量的費(fèi)用在基礎(chǔ)設(shè)施的購(gòu)買(mǎi)上,更不需要花費(fèi)精力對(duì)軟硬件進(jìn)行安裝、配置和維護(hù),這些都將由云計(jì)算服務(wù)商CSP( Cloud Service Provider)提供相應(yīng)的服務(wù)。企業(yè)或個(gè)人只需按照計(jì)時(shí)或計(jì)量的方式支付租賃的計(jì)算資源。云計(jì)算服務(wù)商擁有大數(shù)據(jù)存儲(chǔ)能力和計(jì)算資源,被視為外包信息服務(wù)的最佳選擇[31因此大數(shù)據(jù)的應(yīng)用往往與云計(jì)算相結(jié)合。
Hadoop是當(dāng)前最廣為人知的大數(shù)據(jù)技術(shù)實(shí)施方案,它是Google云計(jì)算中的Map/Reduce}4}和GFS( Google File System)的開(kāi)源實(shí)現(xiàn)。Hadoop提供了一種計(jì)算框架,其最為核心的技術(shù)是HDFS ( HadoopDistributed File System)以及MapReduee } HDFS提供了高吞吐量的分布式文件系統(tǒng),而MapReduee是大型數(shù)據(jù)的分布式處理模型。Hadoop為大數(shù)據(jù)提供了一個(gè)可靠的共享存儲(chǔ)和分析系統(tǒng)[5-6 }v
盡管有一些組織自建集群來(lái)運(yùn)行Hadoop,但是仍有許多組織選擇在租賃硬件所搭建的云端運(yùn)行Hadoop或提供Hadoop服務(wù)。例如提供在公有或私有云端運(yùn)行Hadoop的Cloudera,還有由Amazon提供的稱(chēng)為Elastic MapReduee的云服務(wù)等f(wàn)}l。因此將云計(jì)算與Hadoop結(jié)合處理大數(shù)據(jù)已成為一種趨勢(shì)。
2、大數(shù)據(jù)安全風(fēng)險(xiǎn)分析
隨著大數(shù)據(jù)應(yīng)用范圍越來(lái)越廣,對(duì)數(shù)據(jù)安全的需求也越來(lái)越迫切。
由于云計(jì)算的特點(diǎn)是將數(shù)據(jù)外包給云服務(wù)商提供服務(wù),這種服務(wù)模式將數(shù)據(jù)的所有權(quán)轉(zhuǎn)移給了CSP,用戶(hù)失去了對(duì)物理資源的直接控制[A1。而云中存儲(chǔ)的大數(shù)據(jù)通常是以明文的方式存在的,CSP對(duì)數(shù)據(jù)具有底層控制權(quán),惡意的CSP有可能在用戶(hù)不知情的情況下竊取用戶(hù)數(shù)據(jù),而云計(jì)算平臺(tái)亦可能受到攻擊致使安全機(jī)制失效或被非法控制從而導(dǎo)致非授權(quán)人讀取數(shù)據(jù),給大數(shù)據(jù)安全帶來(lái)了威脅。
Hadoop在設(shè)計(jì)之初并未考慮過(guò)安全問(wèn)題,在Ha-doop 1. 0. 0和Cloudera CDH3版本之后,Hadoop加人了Kerberos的身份認(rèn)證機(jī)制和基于ACL的訪(fǎng)問(wèn)控制機(jī)制[91。即使在安全方面增加了身份認(rèn)證和訪(fǎng)問(wèn)控制策略,Hadoop的安全機(jī)制仍然非常薄弱,因?yàn)镵er-beros的認(rèn)證機(jī)制只應(yīng)用于客戶(hù)機(jī)(Clients )、密鑰分發(fā)中心(I}ey Distribution Center, I}DC )、服務(wù)器(Serv-er)之間,只是針對(duì)機(jī)器級(jí)別的安全認(rèn)證,并未對(duì)Ha-doop應(yīng)用平臺(tái)本身進(jìn)行認(rèn)證[}o}。而基于ACL的訪(fǎng)問(wèn)控制策略需要通過(guò)在啟用ACL之后,對(duì)hadoop-policy. xml中的屬性進(jìn)行配置,其中包括9條屬性,它們限制了用戶(hù)與組成員對(duì)Hadoop中資源的訪(fǎng)問(wèn)以及Datanode和Namenode或Jobtracke:和Tasktrackers等節(jié)點(diǎn)間的通信,但該機(jī)制依賴(lài)于管理員對(duì)其的配置[川,這種基于傳統(tǒng)的訪(fǎng)問(wèn)控制列表容易在服務(wù)器端被篡改而不易察覺(jué)。而且基于ACL的訪(fǎng)問(wèn)控制策略粒度過(guò)粗,不能在MapReduce過(guò)程中以細(xì)粒度的方式保護(hù)用戶(hù)隱私字段。況且針對(duì)不同的用戶(hù)和不同應(yīng)用,訪(fǎng)問(wèn)控制列表需要經(jīng)常作對(duì)應(yīng)的更改,這樣的操作過(guò)于繁瑣且不易維護(hù)。因此Hadoop自身的安全機(jī)制是不完善的。
2.1 不同應(yīng)用模式下CSP及Uers帶來(lái)的安全風(fēng)險(xiǎn)
云計(jì)算中Hadoop有多種應(yīng)用模式。在私有云中搭建Hadoop,即企業(yè)自己應(yīng)用Hadoop,使用該平臺(tái)的是企業(yè)內(nèi)部各個(gè)部門(mén)的員工,外部人員無(wú)法訪(fǎng)問(wèn)和使用這些資源。這時(shí)的CSP指的是Hadoop的創(chuàng)建和管理者,IaaS級(jí)和PaaS級(jí)CSP為相同的實(shí)體;在公有云平臺(tái)應(yīng)用Hadoop , C SP有2級(jí),IaaS級(jí)CSP,提供基礎(chǔ)設(shè)施;PaaS級(jí)C SP,負(fù)責(zé)Hadoop的搭建和管理。這時(shí)兩級(jí)CSP往往是不同的實(shí)體。
由于存儲(chǔ)在Hadoop上的數(shù)據(jù)是明文的,所以Hadoop中的安全隱患是多方面的,筆者關(guān)注的是CSP和用戶(hù)之間的安全問(wèn)題,因此威脅對(duì)象分別是CSP和User,如圖1所示。
圖 1 CSP和User之間的威脅
C SP對(duì)用戶(hù)數(shù)據(jù)的威脅指的是:CSP權(quán)限過(guò)大可在用戶(hù)不知情的情況下獲取用戶(hù)數(shù)據(jù)。用戶(hù)對(duì)CSP構(gòu)成的威脅指的是:Faked用戶(hù)獲取合法用戶(hù)數(shù)據(jù)或者惡意用戶(hù)對(duì)CSP發(fā)起不合法請(qǐng)求,獲取隱私數(shù)據(jù)。本文對(duì)位于Hadoop中不同狀態(tài)的數(shù)據(jù)可能受到的威脅點(diǎn)用三角表示,如圖2所示。其中1 ,5位置均指的是HDFS中,所以受到的威脅是相同的。
Malice IaaS級(jí)CSP可以通過(guò)物理磁盤(pán)在位置1,3 ,4 ,5對(duì)數(shù)據(jù)進(jìn)行獲取。Hadoop中主要的文件結(jié)構(gòu)有如下幾種:SequenceFile , RC File , Avro、文本格式、外部格式。其中有些文件格式是二進(jìn)制形式的,但像文本格式和外部格式并不都是二進(jìn)制格式,因此是可讀的。由于是明文存儲(chǔ),CSP便可以通過(guò)讀取數(shù)據(jù)塊內(nèi)容提取有價(jià)值的部分進(jìn)行分析。IaaS級(jí)CSP對(duì)數(shù)據(jù)具有絕對(duì)的控制權(quán),如果從物理磁盤(pán)竊取文件或數(shù)據(jù)塊,便獲得了其中的內(nèi)容?梢酝ㄟ^(guò)建立第三方審計(jì)系統(tǒng)來(lái)保障其安全,這部分不在本文的討論范圍內(nèi)。
Malice PaaS級(jí)CSP可以在用戶(hù)不知情的情況下通過(guò)超級(jí)用戶(hù)身份即特權(quán)管理員身份對(duì)文件權(quán)限進(jìn)行更改,以合法身份對(duì)數(shù)據(jù)進(jìn)行讀取和分析。因此可以在位置1 ,2,5進(jìn)行數(shù)據(jù)竊取。不過(guò)在1 ,5的位置獲取數(shù)據(jù)是通過(guò)向Namenode請(qǐng)求數(shù)據(jù)塊,從Datan-ode獲取數(shù)據(jù)。
Fucked Use:假冒合法用戶(hù)身份對(duì)數(shù)據(jù)進(jìn)行讀取,一旦獲取了合法用戶(hù)身份,便與合法用戶(hù)擁有相同的權(quán)限,可以在1 ,5的位置通過(guò)向Namenode請(qǐng)求數(shù)據(jù)塊,從Datanode獲取數(shù)據(jù),也可以在2的位置輸出需要的數(shù)據(jù)進(jìn)行分析。
Malice Use:在利用數(shù)據(jù)擁有者提供的數(shù)據(jù)進(jìn)行分析時(shí),竊取部分敏感字段進(jìn)行分析和輸出?梢栽2中提取數(shù)據(jù),在計(jì)算完后通過(guò)5獲取分析結(jié)果。
2. 2 威脅模型
上面提到的是提供Hadoop服務(wù)的C SP和使用Hadoop的Use:之間的安全風(fēng)險(xiǎn),接下來(lái)對(duì)使用Ha-doop的用戶(hù)Use:角色進(jìn)行細(xì)化,分析他們之間對(duì)數(shù)據(jù)隱私的竊取產(chǎn)生的安全問(wèn)題。在云中搭建Hadoop提供服務(wù)的應(yīng)用場(chǎng)景下,數(shù)據(jù)使用者收集數(shù)據(jù)擁有者的數(shù)據(jù),并將數(shù)據(jù)分塊存儲(chǔ)于HDFS中,數(shù)據(jù)計(jì)算者提供對(duì)數(shù)據(jù)分析的代碼,CSP提供數(shù)據(jù)存儲(chǔ)和分析平臺(tái)。因此涉及4類(lèi)主體,數(shù)據(jù)擁有者、數(shù)據(jù)使用者、數(shù)據(jù)計(jì)算者和云服務(wù)提供商CSP。這里的不可信實(shí)體包括數(shù)據(jù)計(jì)算者和C SP。筆者通過(guò)實(shí)際的例子給出Hadoop中獲取隱私信息的可能途徑。
依據(jù)Airavat系統(tǒng)中描述的威脅場(chǎng)景,給出對(duì)應(yīng)的安全威脅模型:
圖 2 數(shù)據(jù)非法獲取位置分析
一個(gè)在線(xiàn)零售商BigShop ,擁有大量的客戶(hù)交易數(shù)據(jù)庫(kù),F(xiàn)在假定所有記錄是以<客戶(hù)、訂單、日期>的形式存在數(shù)據(jù)庫(kù)中,每個(gè)客戶(hù)一份記錄。一個(gè)機(jī)器學(xué)習(xí)專(zhuān)家Researcher,付給BigShop一些錢(qián)用來(lái)對(duì)特定的交易模式進(jìn)行數(shù)據(jù)挖掘。BigShop加載數(shù)據(jù)到Hadoop框架中,Bob寫(xiě)MapReduce代碼分析它。這里按照對(duì)角色的劃分,BigShop屬于數(shù)據(jù)使用者和CSP,客戶(hù)為數(shù)據(jù)擁有者,Researche:為數(shù)據(jù)計(jì)算者。
假設(shè)Researche:想要得到特殊日子D的訂單數(shù)口。他寫(xiě)了一個(gè)Mappe:用來(lái)讀取每份記錄,如果記錄日期D,就輸出鍵/值對(duì)
這種情況下,對(duì)于BigShop的主要風(fēng)險(xiǎn)就是Re-searche:的代碼是不可信的,可能是有無(wú)意的漏洞或者是主動(dòng)惡意漏洞。由于Researche:的Mappe:程序直接訪(fǎng)問(wèn)BigShop專(zhuān)有的交易記錄,它可以存儲(chǔ)部分?jǐn)?shù)據(jù)到某個(gè)文件中,過(guò)后由Researche:取走;或者程序把數(shù)據(jù)發(fā)送到網(wǎng)絡(luò)上。
這樣的泄露可能使得BigShop在商業(yè)上處于不利的地位并且由于沒(méi)有經(jīng)過(guò)客戶(hù)的同意把交易數(shù)據(jù)公開(kāi)而遭受信譽(yù)問(wèn)題。輸出的計(jì)算結(jié)果可能也會(huì)泄露信息。例如,Researche:的Mappe:程序可能會(huì)在輸人的數(shù)據(jù)庫(kù)中標(biāo)記存在的(或者不存在)的一個(gè)特定客戶(hù),通過(guò)操控特定日期的訂單數(shù)口:如果該客戶(hù)的記錄在這個(gè)數(shù)據(jù)集中,Mappe:程序輸出一個(gè)一百萬(wàn)的訂單數(shù)口;否則,輸出0。很明顯,這個(gè)結(jié)果泄露了客戶(hù)的隱私。
上述提到的安全風(fēng)險(xiǎn)來(lái)自于數(shù)據(jù)計(jì)算者,這里的CSP是BigShop自身,數(shù)據(jù)由BigShop進(jìn)行維護(hù),并在其上進(jìn)行計(jì)算,因此不存在安全問(wèn)題。但是如果Big-Shop自身沒(méi)有相應(yīng)存儲(chǔ)和計(jì)算設(shè)施或并未搭建和使用Hadoop框架,則需要應(yīng)用外包服務(wù)模式,利用其它云服務(wù)商提供的Hadoop服務(wù),此時(shí)安全風(fēng)險(xiǎn)除了來(lái)自數(shù)據(jù)計(jì)算者,還有C SP對(duì)數(shù)據(jù)的竊取,以及云平臺(tái)由于出現(xiàn)漏洞受到黑客攻擊,例如黑客通過(guò)Root-kith "}方式強(qiáng)迫口標(biāo)操作系統(tǒng)安裝它的Hypervisor,并把口標(biāo)操作系統(tǒng)移人一個(gè)普通的虛擬機(jī)中運(yùn)行,由于在虛擬化環(huán)境中Hypervisor擁有最高特權(quán),因此Ro-otkit可以獲得整個(gè)物理機(jī)的控制權(quán),對(duì)數(shù)據(jù)安全構(gòu)成威脅。
因此上述威脅可以歸納為:
1)惡意的PaaS級(jí)CSP通過(guò)給自己設(shè)定權(quán)限對(duì)數(shù)據(jù)進(jìn)行竊取,或通過(guò)備份中間數(shù)據(jù)到其他位置進(jìn)行訪(fǎng)問(wèn),或不徹底刪除放人云中的數(shù)據(jù),留作他用。
2)在平臺(tái)安全機(jī)制失效的情況下,黑客通過(guò)某些途徑獲得root權(quán)限隨意讀取數(shù)據(jù),或偽造數(shù)據(jù)使用者身份讀取數(shù)據(jù)或進(jìn)行篡改。
3)數(shù)據(jù)計(jì)算者通過(guò)map過(guò)程輸出某些敏感信息,并使用MapReduee進(jìn)行統(tǒng)計(jì)。
3、安全策略
在大數(shù)據(jù)應(yīng)用模式下,對(duì)文件及文件系統(tǒng)的保護(hù)稱(chēng)為數(shù)據(jù)服務(wù)安全保護(hù),對(duì)存儲(chǔ)的鍵值內(nèi)容及計(jì)算輸出結(jié)果的保護(hù)稱(chēng)為隱私保護(hù)。從行為角度考慮服務(wù)安全性的同時(shí),同樣需要考慮數(shù)據(jù)隱私安全問(wèn)題。
對(duì)上面提到的安全問(wèn)題,本文提出以下安全策略:
首先,需要對(duì)CSP和Use:的身份及平臺(tái)進(jìn)行完整性驗(yàn)證。Kerberos的雙向認(rèn)證可以保證用戶(hù)和CSP雙方身份安全,這是在請(qǐng)求發(fā)起時(shí)所作的認(rèn)證。
其次,在保障了身份的可靠性后,還需要驗(yàn)證平臺(tái)的安全性,平臺(tái)安全性可以通過(guò)可信計(jì)算技術(shù),利用TPM搭建可信云計(jì)算環(huán)境,對(duì)平臺(tái)環(huán)境進(jìn)行度量,建立可信鏈,將可信鏈從物理層擴(kuò)展到虛擬化層,保障云平臺(tái)的安全性[} }a一‘6es。
最后,需要在數(shù)據(jù)使用過(guò)程中對(duì)行為請(qǐng)求進(jìn)行監(jiān)控,建立監(jiān)控機(jī)制可以保障CSP對(duì)數(shù)據(jù)的非法請(qǐng)求,同時(shí)可以監(jiān)控?cái)?shù)據(jù)計(jì)算者對(duì)數(shù)據(jù)的非法運(yùn)算和輸出?梢酝ㄟ^(guò)使用LSM ( Linux Security Module)設(shè)立相應(yīng)的訪(fǎng)問(wèn)控制策略,利用hook函數(shù)對(duì)內(nèi)核調(diào)用進(jìn)行控制[n},允許合法行為對(duì)數(shù)據(jù)的訪(fǎng)問(wèn),拒絕非法的不可信行為,保障數(shù)據(jù)流向合法請(qǐng)求主體。
4、結(jié)束語(yǔ)
本文首先提出大數(shù)據(jù)的應(yīng)用模式是在云計(jì)算環(huán)境下使用Hadoop計(jì)算框架對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。給出在不同云計(jì)算部署模式下,Hadoop不同階段操作過(guò)程中,不可信主體對(duì)數(shù)據(jù)服務(wù)和隱私安全構(gòu)成的威脅,并給出了對(duì)應(yīng)的威脅模型實(shí)例,得出在平臺(tái)環(huán)境可信的情況下,風(fēng)險(xiǎn)主要來(lái)自于CSP及數(shù)據(jù)計(jì)算者。CSP可以在不被用戶(hù)知曉的情況下更改文件權(quán)限獲取數(shù)據(jù)內(nèi)容,數(shù)據(jù)計(jì)算者可以通過(guò)計(jì)算程序輸出隱私字段等方式獲取相關(guān)數(shù)據(jù),因此需要保障數(shù)據(jù)服務(wù)及隱私安全。最后對(duì)相關(guān)安全問(wèn)題給出了對(duì)應(yīng)解決策略。下一步筆者將要對(duì)相應(yīng)安全策略進(jìn)行進(jìn)一步的研究。〕
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:大數(shù)據(jù)應(yīng)用模式及安全風(fēng)險(xiǎn)分析
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839516053.html