| 當前位置：拓步ERP資訊網(wǎng) >>管理咨詢 >>CIO技術(shù)專欄 >>CIO企業(yè)應(yīng)用

參與者講述如何創(chuàng)建一個大數(shù)據(jù)平臺？

發(fā)布日期：2016-7-19 12:05:52 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：親身參與，作為主力完成了一個信息大數(shù)據(jù)分析平臺。中間經(jīng)歷了很多問題，算是有些經(jīng)驗，因而作答。整體而言，大數(shù)據(jù)平臺從平臺部署和數(shù)據(jù)分析過程可分為如下幾步。 原標題：參與者講述如何創(chuàng)建一個大數(shù)據(jù)平臺？ 原作者：2016/7/19 來源：網(wǎng)絡(luò)大數(shù)據(jù) 作者：佚名
關(guān)鍵字：大數(shù)據(jù)平臺數(shù)據(jù)分析

徐曉鵬大數(shù)據(jù)實踐者

親身參與，作為主力完成了一個信息大數(shù)據(jù)分析平臺。中間經(jīng)歷了很多問題，算是有些經(jīng)驗，因而作答。

整體而言，大數(shù)據(jù)平臺從平臺部署和數(shù)據(jù)分析過程可分為如下幾步：

1、linux系統(tǒng)安裝

一般使用開源版的Redhat系統(tǒng)–CentOS作為底層平臺。為了提供穩(wěn)定的硬件基礎(chǔ)，在給硬盤做RAID和掛載數(shù)據(jù)存儲節(jié)點的時，需要按情況配置。例如，可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性，將數(shù)據(jù)存儲與操作系統(tǒng)分別放置在不同硬盤上，以確保操作系統(tǒng)的正常運行。

2、分布式計算平臺/組件安裝

目前國內(nèi)外的分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)。Hadoop的核心是HDFS，一個分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

先說下使用開源組件的優(yōu)點：

1)使用者眾多，很多bug可以在網(wǎng)上找的答案(這往往是開發(fā)中最耗時的地方)。

2)開源組件一般免費，學(xué)習(xí)和維護相對方便。

3)開源組件一般會持續(xù)更新，提供必要的更新服務(wù)『當然還需要手動做更新操作』。

4)因為代碼開源，若出bug可自由對源碼作修改維護。

再簡略講講各組件的功能。分布式集群的資源管理器一般用Yarn，『全名是YetAnotherResourceNegotiator』。常用的分布式數(shù)據(jù)數(shù)據(jù)『倉』庫有Hive、Hbase。Hive可以用SQL查詢『但效率略低』，Hbase可以快速『近實時』讀取行。外部數(shù)據(jù)庫導(dǎo)入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù)，Yarn和Hbase需要它的支持。Impala是對hive的一個補充，可以實現(xiàn)高效的SQL查詢。ElasticSearch是一個分布式的搜索引擎。針對分析，目前最火的是Spark『此處忽略其他，如基礎(chǔ)的MapReduce和Flink』。Spark在core上面有MLlib，SparkStreaming、SparkQL和GraphX等庫，可以滿足幾乎所有常見數(shù)據(jù)分析需求。

值得一提的是，上面提到的組件，如何將其有機結(jié)合起來，完成某個任務(wù)，不是一個簡單的工作，可能會非常耗時。

3、數(shù)據(jù)導(dǎo)入

前面提到，數(shù)據(jù)導(dǎo)入的工具是Sqoop。用它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導(dǎo)入到分布式平臺『一般主要導(dǎo)入到Hive，也可將數(shù)據(jù)導(dǎo)入到Hbase』。

4、數(shù)據(jù)分析

數(shù)據(jù)分析一般包括兩個階段：數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。

數(shù)據(jù)預(yù)處理是為后面的建模分析做準備，主要工作時從海量數(shù)據(jù)中提取可用特征，建立大寬表。這個過程可能會用到HiveSQL，SparkQL和Impala。

數(shù)據(jù)建模分析是針對預(yù)處理提取的特征/數(shù)據(jù)建模，得到想要的結(jié)果。如前面所提到的，這一塊最好用的是Spark。常用的機器學(xué)習(xí)算法，如樸素貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過濾等，都已經(jīng)在MLlib里面，調(diào)用比較方便。

5、結(jié)果可視化及輸出API

可視化一般式對結(jié)果或部分原始數(shù)據(jù)做展示。一般有兩種情況，行數(shù)據(jù)展示，和列查找展示。在這里，要基于大數(shù)據(jù)平臺做展示，會需要用到ElasticSearch和Hbase。Hbase提供快速『ms級別』的行查找。ElasticSearch可以實現(xiàn)列索引，提供快速列查找。

平臺搭建主要問題：

1、穩(wěn)定性Stability

理論上來說，穩(wěn)定性是分布式系統(tǒng)最大的優(yōu)勢，因為它可以通過多臺機器做數(shù)據(jù)及程序運行備份以確保系統(tǒng)穩(wěn)定。但也由于大數(shù)據(jù)平臺部署于多臺機器上，配置不合適，也可能成為最大的問題。曾經(jīng)遇到的一個問題是Hbase經(jīng)常掛掉，主要原因是采購的硬盤質(zhì)量較差。硬盤損壞有時會到導(dǎo)致Hbase同步出現(xiàn)問題，因而導(dǎo)致Hbase服務(wù)停止。由于硬盤質(zhì)量較差，隔三差五會出現(xiàn)服務(wù)停止現(xiàn)象，耗費大量時間。結(jié)論：大數(shù)據(jù)平臺相對于超算確實廉價，但是配置還是必須高于家用電腦的。

2、可擴展性Scalability

如何快速擴展已有大數(shù)據(jù)平臺，在其基礎(chǔ)上擴充新的機器是云計算等領(lǐng)域應(yīng)用的關(guān)鍵問題。在實際2B的應(yīng)用中，有時需要增減機器來滿足新的需求。如何在保留原有功能的情況下，快速擴充平臺是實際應(yīng)用中的常見問題。

上述是自己項目實踐的總結(jié)。整個平臺搭建過程耗時耗力，非一兩個人可以完成。一個小團隊要真正做到這些也需要耗費很長時間。

目前國內(nèi)和國際上已有多家公司提供大數(shù)據(jù)平臺搭建服務(wù)，國外有名的公司有Cloudera，Hortonworks，MapR等，國內(nèi)也有華為、明略數(shù)據(jù)、星環(huán)等。另外有些公司如明略數(shù)據(jù)等還提供一體化的解決方案，尋求這些公司合作對于入門級的大數(shù)據(jù)企業(yè)或沒有大數(shù)據(jù)分析能力的企業(yè)來說是最好的解決途徑。

對于一些本身體量較小或者目前數(shù)據(jù)量積累較少的公司，個人認為沒有必要搭建這一套系統(tǒng)，暫時先租用AWS和阿里云就夠了。對于數(shù)據(jù)量大，但數(shù)據(jù)分析需求較簡單的公司，可以直接買Tableau，Splunk，HPVertica，或者IBMDB2等軟件或服務(wù)即可。

以上是我從事大數(shù)據(jù)以來的一些認識。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標題：參與者講述如何創(chuàng)建一個大數(shù)據(jù)平臺？

本文網(wǎng)址：http://www.ezxoed.cn/html/consultation/10839319671.html

關(guān)鍵詞標簽： 參與者講述如何創(chuàng)建一個大數(shù)據(jù)平臺？,大數(shù)據(jù)平臺數(shù)據(jù)分析,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務(wù)軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學(xué)習(xí)和研究的目的進行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：沒有了！

下一篇：數(shù)據(jù)庫復(fù)制技術(shù)在大數(shù)據(jù)BI上的應(yīng)用

相關(guān)文章

管理咨詢

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務(wù)軟件標準版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓(xùn)..

拓步ERP財務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP顧問咨詢

ERP原理知識

ERP實施培訓(xùn)

CIO技術(shù)專欄

CIO企業(yè)應(yīng)用

CIO網(wǎng)絡(luò)通信

CIO信息安全

CIO基礎(chǔ)設(shè)施

CIO云計算

即時聯(lián)系

服務(wù)熱線

快捷互動