| 當前位置：拓步ERP資訊網(wǎng) >>服務支持 >>ERP技術(shù)支持 >>技術(shù)支持知識庫

基于Hadoop大數(shù)據(jù)分析應用場景與實戰(zhàn)

發(fā)布日期：2017-10-9 10:45:32 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：為了滿足日益增長的業(yè)務變化，京東的京麥團隊在京東大數(shù)據(jù)平臺的基礎上，采用了Hadoop等熱門的開源大數(shù)據(jù)計算引擎，打造了一款為京東運營和產(chǎn)品提供決策性的數(shù)據(jù)類產(chǎn)品-北斗平臺。 原標題：基于Hadoop大數(shù)據(jù)分析應用場景與實戰(zhàn) 原作者：2017/10/6來源：36大數(shù)據(jù)作者：佚名
關(guān)鍵字：Hadoop大數(shù)據(jù)

為了滿足日益增長的業(yè)務變化，京東的京麥團隊在京東大數(shù)據(jù)平臺的基礎上，采用了Hadoop等熱門的開源大數(shù)據(jù)計算引擎，打造了一款為京東運營和產(chǎn)品提供決策性的數(shù)據(jù)類產(chǎn)品-北斗平臺。

一、Hadoop的應用業(yè)務分析

大數(shù)據(jù)是不能用傳統(tǒng)的計算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個單一的技術(shù)或工具，而是涉及的業(yè)務和技術(shù)的許多領域。

目前主流的三大分布式計算系統(tǒng)分別為：Hadoop、Spark和Strom：

Hadoop當前大數(shù)據(jù)管理標準之一，運用在當前很多商業(yè)應用系統(tǒng)�？梢暂p松地集成結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)集。

Spark采用了內(nèi)存計算。從多迭代批處理出發(fā)，允許將數(shù)據(jù)載入內(nèi)存作反復查詢，此外還融合數(shù)據(jù)倉庫，流處理和圖形計算等多種計算范式。Spark構(gòu)建在HDFS上，能與Hadoop很好的結(jié)合。它的RDD是一個很大的特點。

Storm用于處理高速、大型數(shù)據(jù)流的分布式實時計算系統(tǒng)。為Hadoop添加了可靠的實時數(shù)據(jù)處理功能

Hadoop是使用Java編寫，允許分布在集群，使用簡單的編程模型的計算機大型數(shù)據(jù)集處理的Apache的開源框架。 Hadoop框架應用工程提供跨計算機集群的分布式存儲和計算的環(huán)境。 Hadoop是專為從單一服務器到上千臺機器擴展，每個機器都可以提供本地計算和存儲。

Hadoop適用于海量數(shù)據(jù)、離線數(shù)據(jù)和負責數(shù)據(jù)，應用場景如下：

場景1：數(shù)據(jù)分析，如京東海量日志分析，京東商品推薦，京東用戶行為分析

場景2：離線計算，(異構(gòu)計算+分布式計算)天文計算

場景3：海量數(shù)據(jù)存儲，如京東的存儲集群

基于京麥業(yè)務三個實用場景

京麥用戶分析

京麥流量分析

京麥訂單分析

都屬于離線數(shù)據(jù)，決定采用Hadoop作為京麥數(shù)據(jù)類產(chǎn)品的數(shù)據(jù)計算引擎，后續(xù)會根據(jù)業(yè)務的發(fā)展，會增加Storm等流式計算的計算引擎，下圖是京麥的北斗系統(tǒng)架構(gòu)圖：

(圖一)京東北斗系統(tǒng)

二、淺談Hadoop的基本原理

Hadoop分布式處理框架核心設計

HDFS ：(Hadoop Distributed File System)分布式文件系統(tǒng)

MapReduce：是一種計算模型及軟件架構(gòu)

2.1 HDFS

HDFS(Hadoop File System)，是Hadoop的分布式文件存儲系統(tǒng)。

將大文件分解為多個Block，每個Block保存多個副本。提供容錯機制，副本丟失或者宕機時自動恢復。默認每個Block保存3個副本，64M為1個Block。將Block按照key-value映射到內(nèi)存當中。

(圖二)數(shù)據(jù)寫入HDFS

(圖三)HDFS讀取數(shù)據(jù)

2.2 MapReduce

MapReduce是一個編程模型，封裝了并行計算、容錯、數(shù)據(jù)分布、負載均衡等細節(jié)問題。MapReduce實現(xiàn)最開始是映射map，將操作映射到集合中的每個文檔，然后按照產(chǎn)生的鍵進行分組，并將產(chǎn)生的鍵值組成列表放到對應的鍵中。化簡(reduce)則是把列表中的值化簡成一個單值，這個值被返回，然后再次進行鍵分組，直到每個鍵的列表只有一個值為止。這樣做的好處是可以在任務被分解后，可以通過大量機器進行并行計算，減少整個操作的時間。但如果你要我再通俗點介紹，那么，說白了，Mapreduce的原理就是一個分治算法。

算法：

MapReduce計劃分三個階段執(zhí)行，即映射階段，shuffle階段，并減少階段。

映射階段：映射或映射器的工作是處理輸入數(shù)據(jù)。一般輸入數(shù)據(jù)是在文件或目錄的形式，并且被存儲在Hadoop的文件系統(tǒng)(HDFS)。輸入文件被傳遞到由線映射器功能線路。映射器處理該數(shù)據(jù)，并創(chuàng)建數(shù)據(jù)的若干小塊。

減少階段：這個階段是：Shuffle階段和Reduce階段的組合。減速器的工作是處理該來自映射器中的數(shù)據(jù)。處理之后，它產(chǎn)生一組新的輸出，這將被存儲在HDFS。

(圖四)MapReduce

2.3 HIVE

hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供完整的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行，這套SQL 簡稱HQL。使不熟悉mapreduce 的用戶很方便的利用SQL 語言查詢，匯總，分析數(shù)據(jù)。而mapreduce開發(fā)人員可以把己寫的mapper 和reducer 作為插件來支持Hive 做更復雜的數(shù)據(jù)分析。

(圖五)HIVE體系架構(gòu)圖

由上圖可知，hadoop和mapreduce是hive架構(gòu)的根基。Hive架構(gòu)包括如下組件：CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。

三、Hadoop走過來的那些坑

進行HIVE操作的時候，HQL寫的不當，容易造成數(shù)據(jù)傾斜，大致分為這么幾類：空值數(shù)據(jù)傾斜、不同數(shù)據(jù)類型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜和Join的數(shù)據(jù)偏斜。只有理解了Hadoop的原理，熟練使用HQL，就會避免數(shù)據(jù)傾斜，提高查詢效率。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領域，是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標題：基于Hadoop大數(shù)據(jù)分析應用場景與實戰(zhàn)

本文網(wǎng)址：http://www.ezxoed.cn/html/support/11121521064.html

關(guān)鍵詞標簽： 基于Hadoop大數(shù)據(jù)分析應用場景與實戰(zhàn),Hadoop 大數(shù)據(jù),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學習和研究的目的進行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。（請勿發(fā)郵件，由于垃圾郵件眾多，有可能會被當作垃圾郵件處理掉，同時現(xiàn)在很用郵件處理事務了，郵件處理時效期為3天，如急件請直接QQ聯(lián)系。）

上一篇：沒有了！

下一篇：三維模型定義（MBD）成功案例

相關(guān)文章

服務支持

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務軟件標準版V8.1..

金蝶KIS財務軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務系列迷你版（財務管..

拓步ERP條碼系列業(yè)務標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應用

	ERP解決方案按ERP應用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應用 CIO網(wǎng)絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費下載

ERP在線咨詢

即時聯(lián)系

服務熱線

快捷互動

猜您喜歡