當(dāng)今社會,數(shù)據(jù)量正在以爆炸方式迅猛增長,數(shù)據(jù)表示形式千變?nèi)f化,標(biāo)志著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時代。云計算、三網(wǎng)融合、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的出現(xiàn),更加催生了大數(shù)據(jù)時代的產(chǎn)生。維基百科對大數(shù)據(jù)的定義是: 數(shù)據(jù)增長如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具進(jìn)行快速的數(shù)據(jù)獲取、存儲、搜索、共享、分析和可視化等操作,這些數(shù)據(jù)量是如此之大,已經(jīng)不是以傳統(tǒng)的 GB 和 TB 為單位來衡量,而是以 PB( 1PB =1024TB) 、EB ( 1EB = 1024PB) ,甚至是以 ZB ( 1ZB =1024EB) 、YB( 1YB = 1024ZB) 為計量單位,所以稱之為大數(shù)據(jù)。有調(diào)查指出,如今大規(guī)模的企業(yè)系統(tǒng)包括由上千臺服務(wù)器所構(gòu)成的完整數(shù)據(jù)中心。使用大數(shù)據(jù)日益成為企業(yè)超越競爭對手的有力武器。企業(yè)通過快速獲取、分析由供應(yīng)商和客戶產(chǎn)生的大量有關(guān)產(chǎn)品和服務(wù)的數(shù)據(jù),可以更有針對性地提升消費(fèi)者所關(guān)心的產(chǎn)品質(zhì)量和服務(wù)質(zhì)量,制定出更加符合市場和客戶需求的產(chǎn)品和服務(wù)策略,從而獲取更多的市場份額,增強(qiáng)企業(yè)的競爭實(shí)力。然而,對于大數(shù)據(jù)時代下的企業(yè)來說,其所需存儲、處理的數(shù)據(jù)量驚人,數(shù)據(jù)來源和數(shù)據(jù)結(jié)構(gòu)繁多復(fù)雜,為大數(shù)據(jù)的分析和應(yīng)用帶來很多挑戰(zhàn)。企業(yè)要想充分發(fā)揮大數(shù)據(jù)所賦予的機(jī)遇和優(yōu)勢,前提是必須擁有可靠、準(zhǔn)確、及時的高質(zhì)量的數(shù)據(jù),只有從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的、有用的信息,企業(yè)才能做出更加精準(zhǔn)、更加符合市場和客戶需求的決策,否則大數(shù)據(jù)的優(yōu)勢將化為泡影。為此,企業(yè)需要更加注重大數(shù)據(jù)時代下的數(shù)據(jù)質(zhì)量及其重要性。
一、大數(shù)據(jù)時代產(chǎn)生的必然
大數(shù)據(jù)是云計算技術(shù)的延伸,更是社會進(jìn)步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時代的到來引領(lǐng)了未來 IT 技術(shù)發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,越來越多的企業(yè)業(yè)務(wù)及社會活動實(shí)現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長。同時,隨著存儲設(shè)備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲和處理變得十分經(jīng)濟(jì),也使得大數(shù)據(jù)的存在成為可能。有調(diào)查顯示,企業(yè)信息系統(tǒng)中擁有數(shù)萬億字節(jié)的客戶信息、供應(yīng)商信息以及業(yè)務(wù)運(yùn)營信息,數(shù)據(jù)已經(jīng)成為業(yè)務(wù)活動的副產(chǎn)品。全球最大的零售商沃爾瑪公司,每天通過分布在世界各地的6000 多家商店向全球客戶銷售超過 2.67 億件的商品,分析交易數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng)規(guī)模已經(jīng)達(dá)到 4PB,并且仍在不斷擴(kuò)大。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來源之一。在物聯(lián)網(wǎng)時代,成萬上億計的網(wǎng)絡(luò)傳感器嵌入在數(shù)量不斷增長的智能電表、移動電話、汽車等物理設(shè)備中,不斷感知、生成并傳輸超大規(guī)模的有關(guān)地理位置、振動、溫度、濕度等新型數(shù)據(jù),其中 2010 年的移動電話使用量已經(jīng)超過 40 億,傳感器的應(yīng)用數(shù)量每年正在以 30%的速度增長。此外,全球數(shù)據(jù)存儲量也呈現(xiàn)飛速增長趨勢。2008 年全球數(shù)據(jù)量僅為0.49ZB; 在金融危機(jī)籠罩下的 2009 年,數(shù)據(jù)量也較2008 年增長了 63% ,達(dá)到 0.8ZB; 2010 年增至 1.2ZB;2011 年高達(dá) 1.82ZB; 2012 年則達(dá)到 2.7ZB,相比于2011 年的數(shù)據(jù)量增長了 48% 。若以如此快的速度增長,2015 年的全球數(shù)據(jù)量將會升至 8ZB,到 2020 年則高達(dá) 35.2ZB,是 2015 年數(shù)據(jù)量的 44 倍之多。
此外,移動互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0 技術(shù)和電子商務(wù)技術(shù)的飛速發(fā)展,也促進(jìn)了大數(shù)據(jù)時代的產(chǎn)生和發(fā)展。人們可以通過智能機(jī)、便攜機(jī)、個人電腦等終端設(shè)備,隨時隨地瀏覽網(wǎng)頁,上傳或下載、發(fā)布或共享圖片、視頻、音頻文本等多種媒體格式的文件,其中每秒鐘高清視頻所含的數(shù)據(jù)容量是單頁文本格式數(shù)據(jù)容量的 2000 倍,大量的多媒體內(nèi)容在指數(shù)增長的數(shù)據(jù)量中發(fā)揮著重要的作用。在以 Web 2.0 為技術(shù)支撐的社交網(wǎng)站中,大量網(wǎng)絡(luò)用戶的點(diǎn)擊量、瀏覽痕跡、日志、照片、視頻、音頻等多媒體信息都會被記錄下來,隨著時間的推移,如此龐大、復(fù)雜的數(shù)據(jù)為跟蹤用戶、分析用戶喜好等提供了基礎(chǔ),從而使社交網(wǎng)站可以有針對性地開發(fā)、投放滿足用戶需求的各種應(yīng)用、廣告及商品。同樣,網(wǎng)上書店則通過存儲顧客的搜索路徑、瀏覽記錄、購買記錄等大量數(shù)據(jù),分析顧客的購買傾向,設(shè)計算法來預(yù)測顧客感興趣的書籍類型。
通過上述典型的大數(shù)據(jù)的例子可以發(fā)現(xiàn),數(shù)字化已經(jīng)成為社會發(fā)展的必然趨勢。與生產(chǎn)過程必須依賴硬件設(shè)備和人力資本一樣,企業(yè)的業(yè)務(wù)活動、創(chuàng)新、成長也越來越離不開大量數(shù)據(jù)的支持。也就是說,企業(yè)的任何一項業(yè)務(wù)活動都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個人都是數(shù)據(jù)的產(chǎn)生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結(jié)構(gòu)繁雜多變,數(shù)據(jù)產(chǎn)生速度非常之快,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時代。
二、大數(shù)據(jù)的特點(diǎn)
數(shù)據(jù)無所不在,充斥于社會中的每一個部門、每一個經(jīng)濟(jì)體、每一個組織、每一個 IT 技術(shù)的使用者,數(shù)據(jù)的海量生產(chǎn)、共享和應(yīng)用已經(jīng)成為必然。之所以被稱為大數(shù)據(jù),是因為它具有傳統(tǒng)數(shù)據(jù)所不具備的獨(dú)特特點(diǎn)( 見表 1) 。
首先,數(shù)據(jù)量龐大。數(shù)據(jù)量大是大數(shù)據(jù)的首要特點(diǎn)之一,大數(shù)據(jù)時代的數(shù)據(jù)量是以 PB、EB、ZB 為存儲單位的。據(jù)麥肯錫全球研究院( MGI) 估計,2010 年,企業(yè)的磁盤中存儲了超過 7EB 字節(jié)的新數(shù)據(jù); 用戶在個人 PC 機(jī)和筆記本等設(shè)備上的新數(shù)據(jù)存儲量也超過了 6EB 字節(jié)。另有一份報告顯示,沃爾瑪公司每小時能夠從顧客交易信息中收集超過 2. 5PB 字節(jié)的數(shù)據(jù)。截至 2012 年,社會上每天會產(chǎn)生 2. 5EB 量的數(shù)據(jù),這個數(shù)據(jù)量是過去每 40 個月所產(chǎn)生數(shù)據(jù)量的兩倍。社會與企業(yè)被如此龐大的數(shù)據(jù)量所包圍,這也正是大數(shù)據(jù)時代下企業(yè)的重大變化之一,即用數(shù)據(jù)來表示企業(yè)的各種業(yè)務(wù)活動。
第二,數(shù)據(jù)增長、變化速度快。這既是大數(shù)據(jù)時代的特點(diǎn),同時也是企業(yè)處理大數(shù)據(jù)所面臨的難題與挑戰(zhàn)。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)產(chǎn)生、存儲和變化的速率十分驚人。目前因特網(wǎng)上每秒鐘產(chǎn)生的數(shù)據(jù)量比 20 年前整個因特網(wǎng)所存儲的數(shù)據(jù)量還要巨大,可見大數(shù)據(jù)產(chǎn)生速度之快。然而,數(shù)據(jù)量飛速增長的同時,對數(shù)據(jù)處理速度也提出了更高的要求。在這個用數(shù)據(jù)說話、競爭異常激烈的時代,數(shù)據(jù)產(chǎn)生速率甚至比數(shù)據(jù)產(chǎn)生數(shù)量要重要得多,事先擁有了數(shù)據(jù),就意味著事先擁有了市場話語權(quán),能夠讓企業(yè)率先做出符合企業(yè)和消費(fèi)者需求的戰(zhàn)略決策,使得企業(yè)更加敏捷,從而先于競爭對手快速占領(lǐng)市場,增強(qiáng)企業(yè)的競爭實(shí)力。如果企業(yè)不能快速、有效地處理如此龐大的數(shù)據(jù)量,就會被快速增長的數(shù)據(jù)量所淹沒,喪失了大數(shù)據(jù)的價值。
第三,數(shù)據(jù)的多樣性。多樣性也是大數(shù)據(jù)的重要特點(diǎn)之一。大數(shù)據(jù)以多種多樣的形式涌現(xiàn),如來自于傳感器的各種類型數(shù)據(jù)、移動電話的 GPS 定位數(shù)據(jù)、社交網(wǎng)絡(luò)中的語音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時代的發(fā)展,新的數(shù)據(jù)來源與數(shù)據(jù)形式也會不斷出現(xiàn)。在如此多樣化的數(shù)據(jù)結(jié)構(gòu)中,可獲得的數(shù)據(jù)常常是非結(jié)構(gòu)化的,因此,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫已經(jīng)很難存儲并處理多樣性的大數(shù)據(jù)。但是在如此大量、繁雜的信息中卻存在著值得人們?nèi)ネ诰虻臐撛谟杏眯畔,這也正是大數(shù)據(jù)多樣性價值的重要體現(xiàn)。
三、大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的重要性及挑戰(zhàn)
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競爭能力的機(jī)會,能夠給企業(yè)帶來巨大的潛在商業(yè)價值。例如在制造領(lǐng)域,嵌入在產(chǎn)品中的傳感器所傳輸?shù)拇髷?shù)據(jù)為企業(yè)開發(fā)新型的售后服務(wù)項目、開發(fā)下一代新產(chǎn)品提供了堅實(shí)的數(shù)據(jù)基礎(chǔ)。又如在醫(yī)療領(lǐng)域,通過分析患者的臨床和行為數(shù)據(jù),可以更深入地理解患者的病癥,進(jìn)一步為不同的患者人群提供最適合他們的護(hù)理規(guī)劃等等。
大數(shù)據(jù)是企業(yè)決策的基礎(chǔ),但是單純的數(shù)據(jù)量的積累不會對企業(yè)產(chǎn)生任何益處,只有建立適當(dāng)?shù)姆治瞿P停⑦\(yùn)用相應(yīng)的技術(shù)手段,對大量的數(shù)據(jù)進(jìn)行有效地深加工,發(fā)現(xiàn)隱含在大量數(shù)據(jù)中的信息并加以利用,進(jìn)而指導(dǎo)企業(yè)做出相關(guān)決策,才能將大數(shù)據(jù)的真正效用發(fā)揮到極致。如果說云計算為海量分布的數(shù)據(jù)提供了存儲、訪問的平臺,那么如何在這個平臺上實(shí)時挖掘數(shù)據(jù)價值,使其為個人、組織和國家服務(wù),將是云計算必然的發(fā)展方向,更是大數(shù)據(jù)技術(shù)的關(guān)鍵核心議題。然而要想充分發(fā)揮大數(shù)據(jù)給企業(yè)帶來的優(yōu)勢,實(shí)現(xiàn)大數(shù)據(jù)的價值增值,挑戰(zhàn)卻是巨大的。高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),強(qiáng)大、高端的數(shù)據(jù)分析技術(shù)是大數(shù)據(jù)發(fā)揮效能的重要手段。對大數(shù)據(jù)進(jìn)行有效分析的前提是必須要保證數(shù)據(jù)的質(zhì)量,專業(yè)的數(shù)據(jù)分析工具只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準(zhǔn)確的、有用的信息,企業(yè)基于這些高質(zhì)量分析結(jié)果所做出的各項決策才不至于偏離正常軌道; 否則,即使數(shù)據(jù)分析工具再先進(jìn),在充滿“垃圾”的大數(shù)據(jù)環(huán)境中也只能提取出毫無意義的“垃圾”信息。因此數(shù)據(jù)質(zhì)量在大數(shù)據(jù)環(huán)境下顯得尤其重要。
然而,在大數(shù)據(jù)時代下,企業(yè)要想保證大數(shù)據(jù)的高質(zhì)量卻并非易事,很小的、容易被忽視的數(shù)據(jù)質(zhì)量問題在大數(shù)據(jù)環(huán)境下會被不斷放大,甚至引發(fā)不可恢復(fù)的數(shù)據(jù)質(zhì)量災(zāi)難。因此,如何保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,以及如何有效地挖掘隱藏在大數(shù)據(jù)中的信息,成為企業(yè)日益關(guān)心的問題。以制造企業(yè)為例,企業(yè)可以從大量的客戶、產(chǎn)品和銷售信息中獲得更多有價值的信息,進(jìn)而制定滿足消費(fèi)者需求的銷售策略。然而這些信息的獲取和提煉都必須以高質(zhì)量的數(shù)據(jù)為前提,如果數(shù)據(jù)質(zhì)量低下,必然會影響提取出的信息的質(zhì)量,甚至是錯誤的、無效的信息。因此在大數(shù)據(jù)環(huán)境下,對數(shù)據(jù)質(zhì)量的要求更加苛刻。
總之,由于大數(shù)據(jù)具有復(fù)雜、多樣、多變等特點(diǎn),在大數(shù)據(jù)時代下,數(shù)據(jù)質(zhì)量很難保證。下文重點(diǎn)從流程、技術(shù)和管理三方面來分析大數(shù)據(jù)環(huán)境下保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及重要性。
(一) 流程視角
從流程的角度,也即從數(shù)據(jù)生命周期角度來看,可以將數(shù)據(jù)生產(chǎn)過程分為數(shù)據(jù)收集、數(shù)據(jù)存儲和數(shù)據(jù)使用三個階段,三個階段對保證大數(shù)據(jù)質(zhì)量分別提出了不同的挑戰(zhàn)。
首先在數(shù)據(jù)收集方面,大數(shù)據(jù)的多樣性決定了數(shù)據(jù)來源的復(fù)雜性。大數(shù)據(jù)的數(shù)據(jù)來源眾多,數(shù)據(jù)結(jié)構(gòu)隨著數(shù)據(jù)來源的不同而各異,企業(yè)要想保證從多個數(shù)據(jù)源獲取的結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)的質(zhì)量并有效地對數(shù)據(jù)進(jìn)行整合,是一項異常艱巨的任務(wù)。來自于大量不同數(shù)據(jù)源的數(shù)據(jù)之間存在著沖突、不一致或相互矛盾的現(xiàn)象,在數(shù)據(jù)量較小的情形下,通過編寫簡單的匹配程序,甚至是人工查找,即可實(shí)現(xiàn)多數(shù)據(jù)源中不一致數(shù)據(jù)的檢測和定位,然而這種方法在大數(shù)據(jù)情形下卻顯得力不從心。在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的一致性、元數(shù)據(jù)定義的統(tǒng)一性及數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為中國甚至全世界企業(yè)提出的挑戰(zhàn)。另外,由于大數(shù)據(jù)的變化速度較快,有些數(shù)據(jù)的“有效期”非常之短,如果企業(yè)沒有實(shí)時地收集所需的數(shù)據(jù),有可能收集到的就是“過期的”、無效的數(shù)據(jù),在一定程度上會影響大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)收集階段是整個數(shù)據(jù)生命周期的開始,這個階段的數(shù)據(jù)質(zhì)量對后續(xù)階段的數(shù)據(jù)質(zhì)量起著直接的決定性的影響。因此,企業(yè)應(yīng)該重視源頭上的大數(shù)據(jù)質(zhì)量問題,為大數(shù)據(jù)的分析和應(yīng)用提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。
其次在數(shù)據(jù)存儲階段,由于大數(shù)據(jù)的多樣性,單一的數(shù)據(jù)結(jié)構(gòu)( 如關(guān)系型數(shù)據(jù)庫中的二維表結(jié)構(gòu)) 已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)存儲的需要,企業(yè)應(yīng)該使用專門的數(shù)據(jù)庫技術(shù)和專用的數(shù)據(jù)存儲設(shè)備進(jìn)行大數(shù)據(jù)的存儲,保證數(shù)據(jù)存儲的有效性。據(jù)調(diào)查,目前國內(nèi)大部分企業(yè)的業(yè)務(wù)運(yùn)營數(shù)據(jù)仍以結(jié)構(gòu)化數(shù)據(jù)為主,相應(yīng)地主要采用傳統(tǒng)的數(shù)據(jù)存儲架構(gòu),如采用關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的存儲,對于非結(jié)構(gòu)化數(shù)據(jù),則是先將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后再進(jìn)行存儲、處理及分析。這種數(shù)據(jù)存儲處理方式不僅無法應(yīng)對大數(shù)據(jù)數(shù)量龐大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、變化速度快等特點(diǎn),而且一旦轉(zhuǎn)化方式不當(dāng),將會直接影響到數(shù)據(jù)的完整性、有效性與準(zhǔn)確性等。而北京市科學(xué)技術(shù)委員會委員陳力工曾指出這種結(jié)構(gòu)化的數(shù)據(jù)只占到互聯(lián)網(wǎng)整體流動數(shù)據(jù)的 10%,剩余 90%都為視頻、圖片、音頻等非結(jié)構(gòu)化的數(shù)據(jù),這就對傳統(tǒng)數(shù)據(jù)存儲架構(gòu)的可靠性及有效性構(gòu)成了挑戰(zhàn)。數(shù)據(jù)存儲是實(shí)現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障,如果數(shù)據(jù)不能被一致、完整、有效的存儲,數(shù)據(jù)質(zhì)量將無從談起。因此,企業(yè)要想充分挖掘大數(shù)據(jù)的核心價值,首先必須完成傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲處理方式向同時兼具結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲處理方式的轉(zhuǎn)變,不斷完善大數(shù)據(jù)環(huán)境下企業(yè)數(shù)據(jù)庫的建設(shè),為保證大數(shù)據(jù)質(zhì)量提供基礎(chǔ)保障。
同時,企業(yè)數(shù)據(jù)庫管理員( Database Administrator,DBA) 應(yīng)該根據(jù)大數(shù)據(jù)結(jié)構(gòu)的要求和特點(diǎn)合理地設(shè)計數(shù)據(jù)存儲和使用規(guī)則,以方便對數(shù)據(jù)的快速讀取。如果數(shù)據(jù)存儲不合理,不僅會浪費(fèi)系統(tǒng)的存儲空間,而且還會給后期的數(shù)據(jù)使用帶來極大的不便,甚至?xí)a(chǎn)生錯誤、無效的數(shù)據(jù),難以保證數(shù)據(jù)質(zhì)量。此外,DBA 在設(shè)計相應(yīng)規(guī)則時,還要考慮諸多罕見的情況,因為在傳統(tǒng)數(shù)據(jù)量較少的情況下沒有考慮到的情形在大數(shù)據(jù)情況下卻有可能會發(fā)生。如果沒有考慮特殊或罕見情況,或考慮得不夠全面,將會給大數(shù)據(jù)的數(shù)據(jù)質(zhì)量帶來嚴(yán)重的影響,甚至是危機(jī)。
最后,在數(shù)據(jù)使用階段,數(shù)據(jù)價值的發(fā)揮在于對數(shù)據(jù)的有效分析和應(yīng)用,大數(shù)據(jù)涉及的使用人員眾多,很多時候是同步地、不斷地對數(shù)據(jù)進(jìn)行提取、分析、更新和使用,任何一個環(huán)節(jié)出現(xiàn)問題,都將嚴(yán)重影響企業(yè)系統(tǒng)中的大數(shù)據(jù)質(zhì)量,影響最終決策的準(zhǔn)確性。舉例來說,由于大數(shù)據(jù)規(guī)模龐大、變化速度快,對數(shù)據(jù)的處理速度要求較高,如果數(shù)據(jù)處理不及時,有些變化速度快的數(shù)據(jù)就失去了其最有價值的階段,有些“過期”的數(shù)據(jù)甚至與實(shí)際數(shù)據(jù)不符,企業(yè)根據(jù)這些“過期”的無效數(shù)據(jù)所做出的決策必然也是無效的,甚至是錯誤的。從這個角度來講,數(shù)據(jù)及時性也是大數(shù)據(jù)質(zhì)量的一個重要方面,如果企業(yè)不能快速地進(jìn)行數(shù)據(jù)分析,不能從數(shù)據(jù)中及時地提取出有用的信息,就將會喪失預(yù)先占領(lǐng)市場的先機(jī)。
( 二) 技術(shù)視角
本文的技術(shù)視角主要是指從數(shù)據(jù)庫技術(shù)、數(shù)據(jù)質(zhì)量檢測識別技術(shù)、數(shù)據(jù)分析技術(shù)的角度來研究保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及其重要性。大數(shù)據(jù)及其相關(guān)分析技術(shù)的應(yīng)用能夠為企業(yè)提供更加準(zhǔn)確的預(yù)測信息、更好的決策基礎(chǔ)以及更精準(zhǔn)的干預(yù)政策,然而如果大數(shù)據(jù)的數(shù)據(jù)質(zhì)量不高,所有這些優(yōu)勢都將化為泡影。
在數(shù)據(jù)規(guī)模較小的情況下,關(guān)系型數(shù)據(jù)庫就能滿足企業(yè)數(shù)據(jù)存儲的需要,一般企業(yè)信息系統(tǒng)數(shù)據(jù)庫中的記錄通常會達(dá)到幾千條或上萬條,規(guī)模稍大的企業(yè),其數(shù)據(jù)記錄能達(dá)到幾十萬條,在這種情況下,檢測數(shù)據(jù)庫中錯誤、缺失、無效、延遲的數(shù)據(jù)非常容易,幾分鐘甚至幾秒鐘就能完成對所有記錄的掃描和檢測。然而在大數(shù)據(jù)時代,企業(yè)的數(shù)據(jù)量不僅巨大,而且數(shù)據(jù)結(jié)構(gòu)種類繁多,不僅僅有簡單的、結(jié)構(gòu)化的數(shù)據(jù),更多的則是復(fù)雜的、非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)之間的關(guān)系較為復(fù)雜,若要識別、檢測大數(shù)據(jù)中錯誤、缺失、無效、延遲的數(shù)據(jù),往往需要遍歷數(shù)百萬甚至數(shù)億條記錄或語句,傳統(tǒng)的技術(shù)和方法常常需要幾小時甚至幾天的時間才能完成對所有數(shù)據(jù)的掃描與檢測,因此,從這個角度來講,大數(shù)據(jù)環(huán)境為數(shù)據(jù)質(zhì)量的監(jiān)測和管理帶來了巨大的挑戰(zhàn)。這種情況下,傳統(tǒng)的數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘工具和數(shù)據(jù)清洗技術(shù)在處理速度和分析能力上已經(jīng)無法應(yīng)對大數(shù)據(jù)時代所帶來的挑戰(zhàn),處理小規(guī)模數(shù)據(jù)質(zhì)量問題的檢測工具已經(jīng)不能勝任大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量問題的檢測和識別任務(wù),這就要求企業(yè)應(yīng)根據(jù)實(shí)際業(yè)務(wù)的需要,在配備高端的數(shù)據(jù)存儲設(shè)備的同時,開發(fā)、設(shè)計或引進(jìn)先進(jìn)的、智能化的、專業(yè)的大數(shù)據(jù)分析技術(shù)和方法,以實(shí)現(xiàn)大數(shù)據(jù)中數(shù)據(jù)質(zhì)量問題的檢測與識別,以及對大數(shù)據(jù)的整合、分析、可視化等操作,充分地提取、挖掘大數(shù)據(jù)潛在的應(yīng)用價值。
大數(shù)據(jù)是 IT 領(lǐng)域又一次新的技術(shù)變革,國際數(shù)據(jù)公司( International Data Corporation,IDC) 指出,在大數(shù)據(jù)潮流中,新的數(shù)據(jù)類型與新的數(shù)據(jù)分析技術(shù)的缺失將是阻礙企業(yè)成為其行業(yè)領(lǐng)導(dǎo)者的重要方面。然而,由于大數(shù)據(jù)熱潮在國內(nèi)剛剛掀起,諸多企業(yè)仍然采用的是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)處理方式及適用于小規(guī)模數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),對先進(jìn)的大數(shù)據(jù)存儲處理技術(shù)和分析工具仍處于學(xué)習(xí)和了解階段。另外,國內(nèi)對于大數(shù)據(jù)相關(guān)技術(shù)的開發(fā)多關(guān)注于數(shù)據(jù)分布式存儲及并行計算方面,能夠滿足大數(shù)據(jù)特點(diǎn)及要求的數(shù)據(jù)質(zhì)量檢測和清洗的智能化工具十分稀缺。這些都為保障大數(shù)據(jù)質(zhì)量、充分發(fā)揮數(shù)據(jù)質(zhì)量在推動大數(shù)據(jù)應(yīng)用有效性方面的重要作用提出了挑戰(zhàn)。
( 三) 管理視角
管理視角主要探討企業(yè)高層管理者、專業(yè)管理和技術(shù)分析人員對保證大數(shù)據(jù)質(zhì)量的重要性。
首先,大數(shù)據(jù)的管理需要企業(yè)高層管理者的重視和支持。只有得到了企業(yè)高層管理者的高度重視,一系列跟大數(shù)據(jù)有關(guān)的應(yīng)用及發(fā)展規(guī)劃才能有望得到推動,保證大數(shù)據(jù)質(zhì)量的各項規(guī)章制度才能得到順利的貫徹和落實(shí)。如果企業(yè)高層管理者缺乏大數(shù)據(jù)意識以及對大數(shù)據(jù)價值的正確理解,通常會給大數(shù)據(jù)管理帶來阻礙。缺少高層管理者的支持,企業(yè)對大數(shù)據(jù)管理、分析和應(yīng)用的重視程度就會有所降低,大數(shù)據(jù)的質(zhì)量就無法得到全面、有效的保證,從而將會大大弱化大數(shù)據(jù)價值的發(fā)揮,不利于企業(yè)競爭能力的提升。因此,企業(yè)應(yīng)該在高層管理的領(lǐng)導(dǎo)和帶領(lǐng)下,加強(qiáng)大數(shù)據(jù)質(zhì)量意識,建立完善的數(shù)據(jù)質(zhì)量保證制度。然而,大數(shù)據(jù)在中國仍然處于“初級發(fā)展階段”,遠(yuǎn)未達(dá)到系統(tǒng)化使用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進(jìn)行深度分析和挖掘的程度,還沒有充分體會到大數(shù)據(jù)分析及應(yīng)用給企業(yè)帶來的巨大商業(yè)價值,因此企業(yè)高管對大數(shù)據(jù)的認(rèn)識還沒有真正提升到企業(yè)發(fā)展的戰(zhàn)略高度,大數(shù)據(jù)的質(zhì)量也因此并沒有得到充分地重視,這在很大程度上阻礙了大數(shù)據(jù)在國內(nèi)企業(yè)的發(fā)展。
其次,專業(yè)數(shù)據(jù)管理人員的配備是保證大數(shù)據(jù)質(zhì)量不可或缺的部分。由于大數(shù)據(jù)本身的復(fù)雜性增加了大數(shù)據(jù)管理的難度,既懂得數(shù)據(jù)分析技術(shù),同時又諳熟企業(yè)各項業(yè)務(wù)的新型復(fù)合型管理人員是當(dāng)下企業(yè)應(yīng)用大數(shù)據(jù)方案最急需的人才,而首席數(shù)據(jù)官( Chief Data Officer,CDO) 就是這類人才的典型代表。CDO 是有效管理企業(yè)大數(shù)據(jù)、保證大數(shù)據(jù)質(zhì)量的中堅力量。企業(yè)要想充分運(yùn)用大數(shù)據(jù)方案,任命 CDO 來專門負(fù)責(zé)大數(shù)據(jù)所有權(quán)管理、定義元數(shù)據(jù)標(biāo)準(zhǔn)、制定并實(shí)施大數(shù)據(jù)管理決策等一系列活動是十分必要的。一份針對全球500 家企業(yè)的調(diào)查結(jié)果顯示,指定高層管理人員專門負(fù)責(zé)數(shù)據(jù)管理的 50 家企業(yè)的績效要遠(yuǎn)遠(yuǎn)高于其他企業(yè)的績效。因此,大數(shù)據(jù)環(huán)境下,需要 CDO 這樣的新型管理人才,根據(jù)企業(yè)的業(yè)務(wù)需求選擇合適的數(shù)據(jù)庫以及數(shù)據(jù)抽取、轉(zhuǎn)換和分析等工具,進(jìn)行相關(guān)的數(shù)據(jù)挖掘、數(shù)據(jù)處理和分析,并根據(jù)分析結(jié)果對企業(yè)未來的業(yè)務(wù)規(guī)劃和發(fā)展戰(zhàn)略提供相應(yīng)的建議和意見。然而,對于國內(nèi)傳統(tǒng)的中小型企業(yè)來說,其擁有的數(shù)據(jù)規(guī)模較小,數(shù)據(jù)復(fù)雜程度較低,利用數(shù)據(jù)挖掘技術(shù)探究潛在市場機(jī)遇的情況并不多,因此它們對大數(shù)據(jù)的認(rèn)識明顯不足,不會意識到建立 CDO 職位的必要性和重要性。即使是在擁有大數(shù)據(jù)規(guī)模的大中型企業(yè),它們的數(shù)據(jù)管理和分析部門通常處于分散、被動、輔助的地位,沒有得到企業(yè)的充分高度重視,也同樣沒有把建立CDO 提升到企業(yè)戰(zhàn)略的高度,沒有意識到大數(shù)據(jù)環(huán)境下 CDO 對企業(yè)的重要作用,很多時候只是在企業(yè)內(nèi)部設(shè)立了首席信息官( Chief Information Officer,CIO) 一職來肩負(fù)最基本的數(shù)據(jù)管理職責(zé)。但是由于 CIO 是技術(shù)行家,缺乏全面、專業(yè)地對企業(yè)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析、整理和挖掘的能力,最終將會導(dǎo)致企業(yè)漸漸失去大數(shù)據(jù)所賦予的競爭優(yōu)勢。另外,CDO 的門檻很高,既要對企業(yè)各項業(yè)務(wù)的運(yùn)作流程十分熟悉,又要懂得IT、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)的應(yīng)用,同時還要具備極強(qiáng)的數(shù)據(jù)分析能力,集這些技能于一身的人才在國內(nèi)非常稀少,這種大數(shù)據(jù)應(yīng)用需求高漲與 CDO 人才缺失之間的矛盾將成為國內(nèi)大數(shù)據(jù)應(yīng)用面臨的最大挑戰(zhàn)之一。
CDO 的缺失是國內(nèi)數(shù)據(jù)管理方式落后的直接體現(xiàn),而落后的數(shù)據(jù)管理方式是影響大數(shù)據(jù)應(yīng)用、阻礙大數(shù)據(jù)質(zhì)量提升的重要因素之一。傳統(tǒng)的數(shù)據(jù)管理方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的要求。以往大部分企業(yè)在運(yùn)營過程中均由業(yè)務(wù)部門負(fù)責(zé)掌管數(shù)據(jù),IT 部門負(fù)責(zé)信息技術(shù)的應(yīng)用,這種分離式的運(yùn)營管理方式容易造成業(yè)務(wù)人員不了解分析不同數(shù)據(jù)所需的不同 IT 工具,而 IT 人員在運(yùn)用 IT 技術(shù)分析數(shù)據(jù)時不了解數(shù)據(jù)本身的內(nèi)涵,甚至?xí)龀鲥e誤的數(shù)據(jù)解釋,影響了企業(yè)決策的準(zhǔn)確性和有效性。為此,企業(yè)應(yīng)該對組織架構(gòu)體系及其資源配置進(jìn)行重組,讓數(shù)據(jù)管理與分析部門處于企業(yè)的上游位置,而設(shè)立 CDO 便是企業(yè)重組的成功標(biāo)志之一。大數(shù)據(jù)環(huán)境下,同時還應(yīng)配備專業(yè)、高端的數(shù)據(jù)庫設(shè)計和開發(fā)人員、程序員、數(shù)學(xué)和統(tǒng)計學(xué)家,在全面保證大數(shù)據(jù)質(zhì)量的同時,充分挖掘大數(shù)據(jù)潛在的商業(yè)價值。
此外,在大數(shù)據(jù)生產(chǎn)過程的任何一個環(huán)節(jié),企業(yè)都應(yīng)該配備相應(yīng)的專業(yè)數(shù)據(jù)管理人員,通過熟悉掌握數(shù)據(jù)的產(chǎn)生流程進(jìn)行數(shù)據(jù)質(zhì)量的監(jiān)測和控制,例如在數(shù)據(jù)獲取階段,應(yīng)指定專門人員負(fù)責(zé)記錄定義并記錄元數(shù)據(jù),以便于數(shù)據(jù)的解釋,保證企業(yè)全體人員對數(shù)據(jù)的一致、正確理解,保證大數(shù)據(jù)源頭的質(zhì)量。
四、結(jié)語
像互聯(lián)網(wǎng)、云計算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時代的到來勢必會再次讓信息技術(shù)領(lǐng)域煥然一新。大數(shù)據(jù)時代下,每個個體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項業(yè)務(wù)活動都可以用數(shù)據(jù)來表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績效、提升企業(yè)決策能力,成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。管理大數(shù)據(jù)如同管理企業(yè)員工一樣,員工人數(shù)越多,管理起來越復(fù)雜,大數(shù)據(jù)管理也是如此。在數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)簡單、數(shù)據(jù)來源少的情形下,數(shù)據(jù)管理相對簡單,數(shù)據(jù)質(zhì)量也相對容易保證; 但是在數(shù)據(jù)量大、變化速度快、結(jié)構(gòu)復(fù)雜、來源眾多的大數(shù)據(jù)情形下,保證數(shù)據(jù)質(zhì)量并非易事。再加上國內(nèi)大部分企業(yè)的大數(shù)據(jù)及數(shù)據(jù)質(zhì)量重要性意識還較淡薄,大數(shù)據(jù)方案的建設(shè)及應(yīng)用在我國尚不成熟,企業(yè)的數(shù)據(jù)存儲分析技術(shù)、數(shù)據(jù)管理方案等各項配套設(shè)施和制度還不完善,可見保證大數(shù)據(jù)的質(zhì)量任重而道遠(yuǎn)。因此,從數(shù)據(jù)收集、數(shù)據(jù)存儲到數(shù)據(jù)使用,企業(yè)必須制定詳細(xì)、縝密的數(shù)據(jù)質(zhì)量管理制度,在數(shù)據(jù)庫設(shè)計時要考慮大數(shù)據(jù)在各個方面可能發(fā)生的種種意外情形,利用專門的數(shù)據(jù)提取和分析工具,任命專業(yè)的數(shù)據(jù)管理人才加強(qiáng)對大數(shù)據(jù)的管理,提高員工的數(shù)據(jù)質(zhì)量意識,以保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,從而挖掘出更多準(zhǔn)確、有效、有價值的信息。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121816028.html