| 當前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>企業(yè)管理知識庫

實時計算，流數(shù)據(jù)處理系統(tǒng)簡析

發(fā)布日期：2014-07-20 12:43:58 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：互聯(lián)網(wǎng)領(lǐng)域的實時計算一般都是針對海量數(shù)據(jù)進行的，除了像非實時計算的需求（如計算結(jié)果準確）以外，實時計算最重要的一個需求是能夠?qū)崟r響應(yīng)計算結(jié)果，一般要求為秒級。實時計算的今天，業(yè)界都沒有一個準確的定義，什么叫實時計算？什么不是？今天這篇文章詳細介紹了實時計算，流數(shù)據(jù)處理系統(tǒng)簡介與簡單分析。 原標題：實時計算，流數(shù)據(jù)處理系統(tǒng)簡析 原作者：發(fā)表時間：2014/7/20 va_key 來源：至頂網(wǎng)

　　一、實時計算的概念

　　實時計算一般都是針對海量數(shù)據(jù)進行的，一般要求為秒級。實時計算主要分為兩塊:數(shù)據(jù)的實時入庫、數(shù)據(jù)的實時計算。

　　主要應(yīng)用的場景：

　　1.數(shù)據(jù)源是實時的不間斷的，要求用戶的響應(yīng)時間也是實時的（比如對于大型網(wǎng)站的流式數(shù)據(jù)：網(wǎng)站的訪問PV/UV、用戶訪問了什么內(nèi)容、搜索了什么內(nèi)容等，實時的數(shù)據(jù)計算和分析可以動態(tài)實時地刷新用戶訪問數(shù)據(jù)，展示網(wǎng)站實時流量的變化情況，分析每天各小時的流量和用戶分布情況）

　　2.數(shù)據(jù)量大且無法或沒必要預算，但要求對用戶的響應(yīng)時間是實時的。比如說：昨天來自每個省份不同性別的訪問量分布，昨天來自每個省份不同性別不同年齡不同職業(yè)不同名族的訪問量分布。

　　二、實時計算的相關(guān)技術(shù)

　　主要分為三個階段（大多是日志流）:

　　數(shù)據(jù)的產(chǎn)生與收集階段、傳輸與分析處理階段、存儲對外提供服務(wù)階段

圖 1 實時計算的三個階段

　　下面具體針對上面三個階段詳細介紹下

　　1.數(shù)據(jù)實時采集：

　　需求：功能上保證可以完整的收集到所有日志數(shù)據(jù)，為實時應(yīng)用提供實時數(shù)據(jù)；響應(yīng)時間上要保證實時性、低延遲在1秒左右；配置簡單，部署容易；系統(tǒng)穩(wěn)定可靠等。

　　目前的產(chǎn)品：Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume，淘寶開源的TimeTunnel、Hadoop的Chukwa等，均可以滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。他們都是開源項目。

　　2.數(shù)據(jù)實時計算

　　在流數(shù)據(jù)不斷變化的運動過程中實時地進行分析，捕捉到可能對用戶有用的信息，并把結(jié)果發(fā)送出去。

圖 2 實時計算數(shù)據(jù)流向

　　3.實時查詢服務(wù)

　　半內(nèi)存：使用Redis、Memcache、MongoDB、BerkeleyDB等內(nèi)存數(shù)據(jù)庫提供數(shù)據(jù)實時查詢服務(wù)，由這些系統(tǒng)進行持久化操作。

　　全磁盤：使用HBase等以分布式文件系統(tǒng)（HDFS）為基礎(chǔ)的NoSQL數(shù)據(jù)庫，對于key-value引擎，關(guān)鍵是設(shè)計好key的分布。

　　全內(nèi)存：直接提供數(shù)據(jù)讀取服務(wù)，定期dump到磁盤或數(shù)據(jù)庫進行持久化。

　　三、實時計算目前的主流產(chǎn)品

　　1.Yahoo的S4：S4是一個通用的、分布式的、可擴展的、分區(qū)容錯的、可插拔的流式系統(tǒng)，Yahoo開發(fā)S4系統(tǒng)，主要是為了解決：搜索廣告的展現(xiàn)、處理用戶的點擊反饋。

　　2.Twitter的Storm：是一個分布式的、容錯的實時計算系統(tǒng)�？捎糜谔幚硐⒑透聰�(shù)據(jù)庫（流處理），在數(shù)據(jù)流上進行持續(xù)查詢，并以流的形式返回結(jié)果到客戶端（持續(xù)計算），并行化一個類似實時查詢的熱點查詢（分布式的RPC）。

　　3.Facebook 的Puma：Facebook使用puma和HBase相結(jié)合來處理實時數(shù)據(jù)，另外Facebook發(fā)表一篇利用HBase/Hadoop進行實時數(shù)據(jù)處理的論文（ApacheHadoop Goes Realtime at Facebook），通過一些實時性改造，讓批處理計算平臺也具備實時計算的能力。

圖 3 實時計算主流產(chǎn)品

圖 4 S4和Storm的詳細對比

　　其他的產(chǎn)品：

　　早期的：IBM的Stream Base、 Borealis、Hstreaming、Esper

　　四、淘寶的實時計算、流式處理

　　1.銀河流數(shù)據(jù)處理平臺：通用的流數(shù)據(jù)實時計算系統(tǒng)，以實時數(shù)據(jù)產(chǎn)出的低延遲、高吞吐和復用性為初衷和目標，采用actor模型構(gòu)建分布式流數(shù)據(jù)計算框架（底層基于akka），功能易擴展、部分容錯、數(shù)據(jù)和狀態(tài)可監(jiān)控。銀河具有處理實時流數(shù)據(jù)（如TimeTunnel收集的實時數(shù)據(jù)）和靜態(tài)數(shù)據(jù)（如本地文件、HDFS文件）的能力，能夠提供靈活的實時數(shù)據(jù)輸出，并提供自定義的數(shù)據(jù)輸出接口以便擴展實時計算能力。銀河目前主要是為魔方提供實時的交易、瀏覽和搜索日志等數(shù)據(jù)的實時計算和分析。

　　2.基于Storm的流式處理，統(tǒng)計計算、持續(xù)計算、實時消息處理。

　　在淘寶，Storm被廣泛用來進行實時日志處理，出現(xiàn)在實時統(tǒng)計、實時風控、實時推薦等場景中。一般來說，我們從類kafka的metaQ或者基于HBase的timetunnel中讀取實時日志消息，經(jīng)過一系列處理，最終將處理結(jié)果寫入到一個分布式存儲中，提供給應(yīng)用程序訪問。我們每天的實時消息量從幾百萬到幾十億不等，數(shù)據(jù)總量達到TB級。對于我們來說，Storm往往會配合分布式存儲服務(wù)一起使用。在我們正在進行的個性化搜索實時分析項目中，就使用了timetunnel +HBase + Storm + UPS的架構(gòu)，每天處理幾十億的用戶日志信息，從用戶行為發(fā)生到完成分析延遲在秒級。

　　3.利用HBase實現(xiàn)的Online應(yīng)用

　　4.對于電子商務(wù)網(wǎng)站上的店鋪：

　�。�1）實時展示一個店鋪的到訪顧客流水信息，包括訪問時間、訪客姓名、訪客地理位置、訪客IP、訪客正在訪問的頁面等信息；

　�。�2）顯示某個到訪顧客的所有歷史來訪記錄，同時實時跟蹤顯示某個訪客在一個店鋪正在訪問的頁面等信息；

　�。�3）支持根據(jù)訪客地理位置、訪問頁面、訪問時間等多種維度下的實時查詢與分析。

圖 5 電子商務(wù)中的實時計算流數(shù)據(jù)分析

　　五、Storm詳細介紹

　　整個數(shù)據(jù)處理流程包括四部分：

　　第一部分是數(shù)據(jù)接入該部分從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù)。

　　第二部分是最重要的Storm 實時處理部分，數(shù)據(jù)從接入層接入，經(jīng)過實時處理后傳入數(shù)據(jù)落地層；

　　第三部分為數(shù)據(jù)落地層，該部分指定了數(shù)據(jù)的落地方式；

　　第四部分元數(shù)據(jù)管理器。

圖 6 Storm整體架構(gòu)

　　數(shù)據(jù)接入層

　　該部分有多種數(shù)據(jù)收集方式，包括使用消息隊列（MetaQ），直接通過網(wǎng)絡(luò)Socket傳輸數(shù)據(jù)，前端業(yè)務(wù)系統(tǒng)專有數(shù)據(jù)采集API，對Log問價定時監(jiān)控。(注：有時候我們的數(shù)據(jù)源是已經(jīng)保存下來的log文件，那Spout就必須監(jiān)控Log文件的變化，及時將變化部分的數(shù)據(jù)提取寫入Storm中，這很難做到完全實時性。)

　　Storm實時處理層

圖 7 Storm和Hadoop的對比

　　Storm關(guān)注的是數(shù)據(jù)多次處理一次寫入，而Hadoop關(guān)注的是數(shù)據(jù)一次寫入，多次處理使用（查詢）。Storm系統(tǒng)運行起來后是持續(xù)不斷的，而Hadoop往往只是在業(yè)務(wù)需要時調(diào)用數(shù)據(jù)。兩者關(guān)注及應(yīng)用的方向不一樣。

　　1.Nimbus：負責資源分配和任務(wù)調(diào)度。

　　2.Supervisor：負責接受nimbus分配的任務(wù)，啟動和停止屬于自己管理的worker進程。

　　3.Worker：運行具體處理組件邏輯的進程。

　　4.Task：worker中每一個spout/bolt的線程稱為一個task. 在Storm0.8之后，task不再與物理線程對應(yīng)，同一個spout/bolt的task可能會共享一個物理線程，該線程稱為executor。

　　具體業(yè)務(wù)需求：條件過濾、中間值計算、求topN、推薦系統(tǒng)、分布式RPC、熱度統(tǒng)計

圖 8 Storm實時處理

　　數(shù)據(jù)落地層：

　　MetaQ

　　如圖架構(gòu)所示，Storm與MetaQ是有一條虛線相連的，部分數(shù)據(jù)在經(jīng)過實時處理之后需要寫入MetaQ之中，因為后端業(yè)務(wù)系統(tǒng)需要從MetaQ中獲取數(shù)據(jù)。這嚴格來說不算是數(shù)據(jù)落地，因為數(shù)據(jù)沒有實實在在寫入磁盤中持久化。

　　Mysql

　　數(shù)據(jù)量不是非常大的情況下可以使用Mysql作為數(shù)據(jù)落地的存儲對象。Mysql對數(shù)據(jù)后續(xù)處理也是比較方便的，且網(wǎng)絡(luò)上對Mysql的操作也是比較多的，在開發(fā)上代價比較小，適合中小量數(shù)據(jù)存儲。

　　HDFS

　　HDFS及基于Hadoop的分布式文件系統(tǒng)。許多日志分析系統(tǒng)都是基于HDFS搭建出來的，所以開發(fā)Storm與HDFS的數(shù)據(jù)落地接口將很有必要。例如將大批量數(shù)據(jù)實時處理之后存入Hive中，提供給后端業(yè)務(wù)系統(tǒng)進行處理，例如日志分析，數(shù)據(jù)挖掘等等。

　　Lustre

　　Lustre作為數(shù)據(jù)落地的應(yīng)用場景是，數(shù)據(jù)量很大，且處理后目的是作為歸檔處理。這種情形，Lustre能夠為數(shù)據(jù)提供一個比較大（相當大）的數(shù)據(jù)目錄，用于數(shù)據(jù)歸檔保存。

　　元數(shù)據(jù)管理器

　　元數(shù)據(jù)管理器的設(shè)計目的是，整個系統(tǒng)需要一個統(tǒng)一協(xié)調(diào)的組件，指導前端業(yè)務(wù)系統(tǒng)的數(shù)據(jù)寫入，通知實時處理部分數(shù)據(jù)類型及其他數(shù)據(jù)描述，及指導數(shù)據(jù)如何落地。元數(shù)據(jù)管理器貫通整個系統(tǒng)，是比較重要的組成部分。元數(shù)據(jù)設(shè)計可以使用mysql存儲元數(shù)據(jù)信息，結(jié)合緩存機制開源軟件設(shè)計而成。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標題：實時計算，流數(shù)據(jù)處理系統(tǒng)簡析

本文網(wǎng)址：http://www.ezxoed.cn/html/support/11121815542.html

關(guān)鍵詞標簽： 實時計算，流數(shù)據(jù)處理系統(tǒng)簡析,實時計算流數(shù)據(jù) 電子商務(wù) Storm,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務(wù)軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學習和研究的目的進行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：細數(shù)SDN五大價值給企業(yè)帶來哪些效益？

下一篇：中小企業(yè)如何做好IT規(guī)劃

相關(guān)文章

服務(wù)支持

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務(wù)軟件標準版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務(wù)管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

最新服務(wù)支持

談3D可視化系統(tǒng)在工業(yè)4.0三項集成的應(yīng)用

互聯(lián)網(wǎng)+智能家裝TOP50新鮮出..

淺談業(yè)務(wù)流程治理

解析工業(yè)4.0系列專欄—— 德國..

工業(yè)物聯(lián)網(wǎng)應(yīng)用場景及系統(tǒng)構(gòu)建

數(shù)據(jù)中心四大災(zāi)備技術(shù)解析

2015網(wǎng)絡(luò)、數(shù)據(jù)中心和云該期待..

如何利用云服務(wù)創(chuàng)建強大的備份策略

《中國制造2025》的總體思路圖

未來數(shù)據(jù)中心UPS需求趨勢

點擊

聯(lián)系ERP系統(tǒng)咨詢顧問
點擊

聯(lián)系ERP系統(tǒng)售前顧問-1
點擊

聯(lián)系ERP系統(tǒng)售前顧問-2


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費下載

ERP在線咨詢

即時聯(lián)系

服務(wù)熱線

快捷互動

猜您喜歡