遵循以下六種最佳做法來對抗競爭,創(chuàng)造新的收入來源,才能夠更好地為客戶服務
重大內(nèi)幕:
大數(shù)據(jù)分析項目能夠是幫企業(yè)積極、主動的改變競爭規(guī)則,讓企業(yè)、組織更具洞察力,幫助企業(yè)、組織能夠?qū)垢偁帉κ,?chuàng)造新的收入來源,更好地服務于客戶。
大數(shù)據(jù)分析項目也可能導致項目的失敗,企業(yè)、組織投入大量的資金、時間(被浪費掉),更不用說不得不讓那些導致這些管理上令人沮喪的管理失誤的專業(yè)技術(shù)人員。
如何避免大數(shù)據(jù)失敗? 從最基本的業(yè)務管理角度來看,通常一些比較直接的的做法是:確保得到公司高層的管理層支持,確保所有所需的技術(shù)研發(fā)都有充足的資金保障,技術(shù)人員需要具備專業(yè)知識和,或經(jīng)過良好的培訓。如果你不先解決這些基本的問題,那么其他的事情看起來也就沒那么重要。
但是如果你已經(jīng)完成了基本的工作,那么在大數(shù)據(jù)分析中成功與失敗的區(qū)別就在于你如何處理大數(shù)據(jù)分析的技術(shù)問題和挑戰(zhàn)。這是你能做的,以保持在等式的成功。
1.仔細地選擇你的大數(shù)據(jù)分析工具,許多技術(shù)失敗都源于這樣一個事實:公司購買并執(zhí)行那些被證明是非常適合他們想要完成的產(chǎn)品。任何供應商都可以將“大數(shù)據(jù)”或“高級分析”這兩個詞放到他們的產(chǎn)品描述中,試圖利用這些術(shù)語的高水平宣傳。
但是產(chǎn)品在質(zhì)量和效率上有很大的不同,而且也有很大的不同。因此,即使你選擇了一個技術(shù)上很強大的產(chǎn)品,它也可能對你真正需要的東西不太好。
幾乎所有的大數(shù)據(jù)分析都有一些基本的功能,比如圍繞數(shù)據(jù)轉(zhuǎn)換和存儲架構(gòu)(例如:Hadoop和Apache Spark)。但在大數(shù)據(jù)分析中也有多個細分市場,你必須為你的技術(shù)戰(zhàn)略所涉及的利基市場提供產(chǎn)品。這些細分市場包括流程挖掘、預測分析、實時解決方案、人工智能和商業(yè)智能儀表板。
例如:Apache Spark是一個圍繞速度、易用性和復雜分析構(gòu)建的大數(shù)據(jù)處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發(fā),并于2010年成為Apache的開源項目之一。
Hadoop這項大數(shù)據(jù)處理技術(shù)大概已有十年歷史,而且被看做是首選的大數(shù)據(jù)集合處理的解決方案。MapReduce(分布式計算系統(tǒng),一種編程模型)是一路計算的優(yōu)秀解決方案,不過對于需要多路計算和算法的用例來說,并非十分高效。數(shù)據(jù)處理流程中的每一步都需要一個Map階段和一個Reduce階段,而且如果要利用這一解決方案,需要將所有用例都轉(zhuǎn)換成MapReduce模式。
在下一步開始之前,上一步的作業(yè)輸出數(shù)據(jù)必須要存儲到分布式文件系統(tǒng)中。因此,復制和磁盤存儲會導致這種方式速度變慢。另外Hadoop解決方案中通常會包含難以安裝和管理的集群。而且為了處理不同的大數(shù)據(jù)用例,還需要集成多種不同的工具(如用于機器學習的Mahout和流數(shù)據(jù)處理的Storm)。
如果想要完成比較復雜的工作,就必須將一系列的MapReduce作業(yè)串聯(lián)起來然后順序執(zhí)行這些作業(yè)。每一個作業(yè)都是高時延的,而且只有在前一個作業(yè)完成之后下一個作業(yè)才能開始啟動。
而Spark則允許程序開發(fā)者使用有向無環(huán)圖(DAG)開發(fā)復雜的多步數(shù)據(jù)管道。而且還支持跨有向無環(huán)圖的內(nèi)存數(shù)據(jù)共享,以便不同的作業(yè)可以共同處理同一個數(shù)據(jù)。
Spark運行在現(xiàn)有的Hadoop分布式文件系統(tǒng)基礎之上(HDFS)提供額外的增強功能。它支持將Spark應用部署到現(xiàn)存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。
我們應該將Spark看作是Hadoop MapReduce的一個替代品而不是Hadoop的替代品。其意圖并非是替代Hadoop,而是為了提供一個管理不同的大數(shù)據(jù)用例和需求的全面且統(tǒng)一的解決方案。
Spark通過在數(shù)據(jù)處理過程中成本更低的洗牌(Shuffle)方式,將MapReduce提升到一個更高的層次。利用內(nèi)存數(shù)據(jù)存儲和接近實時的處理能力,Spark比其他的大數(shù)據(jù)處理技術(shù)的性能要快很多倍。
Spark還支持大數(shù)據(jù)查詢的延遲計算,這可以幫助優(yōu)化大數(shù)據(jù)處理流程中的處理步驟。Spark還提供高級的API以提升開發(fā)者的生產(chǎn)力,除此之外還為大數(shù)據(jù)解決方案提供一致的體系架構(gòu)模型。
Spark將中間結(jié)果保存在內(nèi)存中而不是將其寫入磁盤,當需要多次處理同一數(shù)據(jù)集時,這一點特別實用。Spark的設計初衷就是既可以在內(nèi)存中又可以在磁盤上工作的執(zhí)行引擎。當內(nèi)存中的數(shù)據(jù)不適用時,Spark操作符就會執(zhí)行外部操作。Spark可以用于處理大于集群內(nèi)存容量總和的數(shù)據(jù)集。
Spark會嘗試在內(nèi)存中存儲盡可能多的數(shù)據(jù)然后將其寫入磁盤。它可以將某個數(shù)據(jù)集的一部分存入內(nèi)存而剩余部分存入磁盤。開發(fā)者需要根據(jù)數(shù)據(jù)和用例評估對內(nèi)存的需求。Spark的性能優(yōu)勢得益于這種內(nèi)存中的數(shù)據(jù)存儲。
Spark的其他特性包括:
支持比Map和Reduce更多的函數(shù)。
優(yōu)化任意操作算子圖(operator graphs)。
可以幫助優(yōu)化整體數(shù)據(jù)處理流程的大數(shù)據(jù)查詢的延遲計算。
提供簡明、一致的Scala,Java和Python API。
提供交互式Scala和Python Shell。目前暫不支持Java。
在決定購買任何大型數(shù)據(jù)分析產(chǎn)品或存儲平臺之前,您需要弄清楚真正的業(yè)務需要和問題是什么,選擇旨在有效解決這些特定問題的產(chǎn)品。
例如,您可以選擇使用人工智能分析非結(jié)構(gòu)化數(shù)據(jù)的認知大數(shù)據(jù)產(chǎn)品,因為編譯大數(shù)據(jù)集的復雜性。
但是你不會使用認知工具來進行結(jié)構(gòu)化和標準化的數(shù)據(jù),為此,您可以部署許多分析產(chǎn)品中的一種,這些產(chǎn)品可以實時生成質(zhì)量洞察,并具有更合理的價格。以色列Exposito說,全球電信公司——沃達豐的大數(shù)據(jù)是處于全球領(lǐng)先地位。
Exposito說,當你選擇生產(chǎn)環(huán)境的時候,用至少兩種產(chǎn)品來證明你的概念是明智的。該產(chǎn)品還應該能夠與您的相關(guān)企業(yè)平臺進行交互。
每個大數(shù)據(jù)分析工具都需要在后端系統(tǒng)中開發(fā)數(shù)據(jù)模型。這是項目中最重要的部分。因此,您需要確保系統(tǒng)集成商和業(yè)務主題專家在此工作中攜手合作。第一次作對,慢慢來就好啦。
重要的是要記住,正確的數(shù)據(jù)應該總是可用的,并轉(zhuǎn)換為業(yè)務語言,這樣用戶就可以完全理解輸出,從而可以使用它來驅(qū)動機會或過程改進。
2.大數(shù)據(jù)和高級分析是極為復雜的,但是業(yè)務用戶依賴于訪問和理解數(shù)據(jù)的產(chǎn)品是不復雜的。為業(yè)務分析團隊提供簡單、有效的工具,用于數(shù)據(jù)發(fā)現(xiàn)以及分析和可視化。
Sharon Graves說,事實上,找到合適的工具組合是很難的,因為它是公司的商業(yè)情報工具,是企業(yè)數(shù)據(jù)的福音傳道者。它必須是簡單的快速直觀化,但也有足夠的深度分析能力。Go Daddy(全球知名互聯(lián)網(wǎng)域名注冊商)能夠找到讓企業(yè)用戶輕松找到合適的數(shù)據(jù),然后自己生成可視化的產(chǎn)品。這就解放了分析團隊,讓他們執(zhí)行更高級的分析。
最重要的是,不要向非技術(shù)業(yè)務用戶提供程序級的工具。他們會變得沮喪,可能會求助于使用他們以前的工具,而這些工具并不是真正的工作(否則,你就不會有一個大的數(shù)據(jù)分析項目)。
3.將項目和數(shù)據(jù)與實際的業(yè)務結(jié)合起來需要另一個原因,即錯誤數(shù)據(jù)分析工作可能失敗的另一個原因是,它們最終是一個解決問題的解決方案,而不是真正存在的問題。信息服務提供商Experian的全球數(shù)據(jù)實驗室的首席科學家Shanji Xiong說,這就是為什么你必須把你的商業(yè)挑戰(zhàn)和你想要解決的問題放在正確的分析問題上。
關(guān)鍵是,在項目的早期,讓具有強大分析背景的專家與數(shù)據(jù)科學家合作來定義這個問題。
這是Experian自己的大數(shù)據(jù)分析計劃的一個例子。在開發(fā)分析解決身份欺詐的分析解決方案時,面臨的挑戰(zhàn)可能是評估個人識別信息(PII)的組合,如姓名、地址和社會安全號碼是否合法。或者,挑戰(zhàn)可能是評估使用一組身份申請貸款的客戶是否是身份的合法所有者;蛘哌@兩種挑戰(zhàn)都可能存在。
他說,第一個挑戰(zhàn)是一個“綜合身份識別”問題,它需要一個分析模型來評估消費者或PII水平所開發(fā)的綜合身份識別的風險。第二個挑戰(zhàn)是應用程序欺詐問題,需要在應用程序級別上開發(fā)評估欺詐風險的分數(shù)。Experian必須明白這些是不同的問題,盡管它們最初可能被認為是相同的問題陳述不同,然后創(chuàng)建正確的模型和分析來解決它們。
熊先生說,當一套PII被提交給兩家金融機構(gòu)申請貸款時,通常的要求是將同樣的分數(shù)用于合成風險,但這通常不是申請欺詐分數(shù)的必要特征。
正確的算法必須適用于正確的數(shù)據(jù),以提取商業(yè)智能并進行準確的預測。 在建模過程中收集和包含相關(guān)數(shù)據(jù)集幾乎總是比微調(diào)機器學習算法更重要,因此數(shù)據(jù)工作應該被視為首要任務。
4.構(gòu)建一個數(shù)據(jù)湖,并且不像這個術(shù)語所暗示的那樣節(jié)省帶寬,大數(shù)據(jù)包含大量的數(shù)據(jù)。在過去,很少有組織能夠存儲如此多的數(shù)據(jù),更不用說組織和分析它了。但是今天,高性能存儲技術(shù)和大規(guī)模并行處理在
云計算和基于本地的系統(tǒng)中都得到了廣泛的應用。
備注:數(shù)據(jù)湖:最初是由大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但數(shù)據(jù)量越大,越需要各種不同種類的存儲。最終,所有的企業(yè)數(shù)據(jù)都可以被認為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價的HDFS集群之上的。
然而,存儲本身是不夠的。您需要一種方法來處理不同類型的數(shù)據(jù),這些數(shù)據(jù)可以提供給您的大數(shù)據(jù)分析。這正是Apache Hadoop的天才之所在,它允許存儲和映射巨大的、完全不同的數(shù)據(jù)集。這樣的存儲庫通常被稱為數(shù)據(jù)湖。一個真正的湖泊通常由多個溪流滋養(yǎng),它包含許多植物、魚類和其他動物物種;一個數(shù)據(jù)湖通常由多個數(shù)據(jù)源提供,并且包含許多類型的數(shù)據(jù)。
但數(shù)據(jù)湖不應該成為數(shù)據(jù)的垃圾場。亞利桑那州立大學的研究計算主任Jay Etchings說,你需要考慮如何收集數(shù)據(jù),以一種有意義的方式擴展屬性。數(shù)據(jù)可以是完全不同的,但是如何使用MapReduce和Apache Spark這樣的工具來進行數(shù)據(jù)轉(zhuǎn)換,就應該使用可靠的數(shù)據(jù)架構(gòu)。
創(chuàng)建一個數(shù)據(jù)湖,其中的攝取、索引和規(guī)范化都是大數(shù)據(jù)策略中精心計劃的組件。Etchings說,如果沒有一個清晰明了的藍圖,大多數(shù)數(shù)據(jù)密集型的計劃注定要失敗。
同樣,擁有足夠的帶寬也是至關(guān)重要的;否則,數(shù)據(jù)將不會從不同的數(shù)據(jù)源轉(zhuǎn)移到數(shù)據(jù)湖和業(yè)務用戶,這些數(shù)據(jù)很快就會變得有用。Etchings表示,要實現(xiàn)擁有大量數(shù)據(jù)資源的承諾,不僅需要快速的磁盤,每秒鐘可以有數(shù)百萬個i/os(IOPS),而且還需要連接節(jié)點和處理引擎,這些節(jié)點和處理引擎可以在生成數(shù)據(jù)時方便地訪問數(shù)據(jù)。
速度對于實時分析來說尤其重要,從社交媒體趨勢到流量路由。所以,建立你的數(shù)據(jù)湖,以最快的互連速度。
5.對大數(shù)據(jù)的每個方面的設計安全性——計算基礎設施組件的高度異構(gòu)性——大大加快了組織從數(shù)據(jù)中收集有意義的見解的能力。但也有一個缺點:管理和安全的系統(tǒng)要復雜得多,Etchings說。由于大量的數(shù)據(jù)和大多數(shù)大數(shù)據(jù)分析系統(tǒng)的任務重要性,在保護系統(tǒng)和數(shù)據(jù)方面沒有采取足夠的預防措施,在很大程度上是在自找麻煩。
許多公司收集、存儲、分析和分享的數(shù)據(jù)都是客戶信息,其中一些是個人信息,也是可識別的。如果這些數(shù)據(jù)出現(xiàn)在錯誤的手中,結(jié)果是可以預測的:法律上的損失可能來自訴訟,可能是監(jiān)管罰款,品牌和聲譽受損,以及不滿意的客戶。
您的安全措施應該包括部署基本的企業(yè)工具:數(shù)據(jù)加密,無論何時實用、身份和訪問管理,以及網(wǎng)絡安全。但是,您的安全措施也應該包括政策執(zhí)行和培訓,以了解適當?shù)脑L問和使用數(shù)據(jù)。
6.將數(shù)據(jù)管理和質(zhì)量作為首要任務,確保良好的數(shù)據(jù)管理和質(zhì)量應該成為所有大數(shù)據(jù)分析項目的標志——否則失敗的可能性就會大得多。
您需要將控件放在適當?shù)奈恢,以確保數(shù)據(jù)及時、準確、及時地交付。作為“大數(shù)據(jù)”計劃的一部分,Go Daddy(公司)實現(xiàn)了提醒,如果數(shù)據(jù)更新失敗或正在運行,將通知管理人員。此外,Go Daddy還在關(guān)鍵指標上實現(xiàn)了數(shù)據(jù)質(zhì)量檢查,當這些指標與預期不符時,就會發(fā)出警報。
確保數(shù)據(jù)質(zhì)量和治理的一個重要部分是雇傭熟練的數(shù)據(jù)管理專業(yè)人員,包括數(shù)據(jù)管理部門的主管或其他管理人員來監(jiān)督這些領(lǐng)域。考慮到這些計劃的戰(zhàn)略重要性,企業(yè)對數(shù)據(jù)管理、管理、治理和策略擁有真正的需求。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領(lǐng)域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:如何避免大數(shù)據(jù)分析故障
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839320756.html