| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識庫

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-基于Hadoop的微博信息挖掘

基于Hadoop的微博信息挖掘

發(fā)布日期：2013-01-04 9:52:26 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：設(shè)計了基于Hadoop的微博信息挖掘系統(tǒng)。該系統(tǒng)針對單一節(jié)點(diǎn)在分析微博海量數(shù)據(jù)的性能瓶頸問題，利用分布式和虛擬化技術(shù)的優(yōu)勢，將微博信息獲取和相關(guān)數(shù)據(jù)分析進(jìn)行有機(jī)整合，實(shí)現(xiàn)了一個基于Hadoop的微博信息挖掘平臺。為驗(yàn)證該平臺運(yùn)行的有效性，論文采用獲取熱點(diǎn)話題做實(shí)驗(yàn)，展示了系統(tǒng)對微博信息的挖掘結(jié)果。實(shí)驗(yàn)結(jié)果表明，該系統(tǒng)能有效獲取微博相關(guān)信息，高效的處理海量微博數(shù)據(jù)，得到有價值的數(shù)據(jù)信息。 原標(biāo)題：基于Hadoop的微博信息挖掘 原作者：發(fā)表時間：2013/1/4 林大云來源：萬方數(shù)據(jù)

一、引言

微博即微型博客（micro-blogs），是一種允許用戶及時更新并可以公開發(fā)布簡短文本（通常在140字左右）的博客形式。微博的快速發(fā)展使得任何人都可以成為微博用戶，成為一個區(qū)分于傳統(tǒng)媒體的“自媒體”。這種用戶驅(qū)動的信息創(chuàng)造模式產(chǎn)生信息的速度快，信息量在逐級的傳播中變得海量。對微博信息進(jìn)行挖掘和分析，關(guān)注其中的社會熱點(diǎn)話題，可探尋其規(guī)律并預(yù)測動向，分析熱點(diǎn)事件的輿論趨勢，特別是微博信息傳播的實(shí)時性可以應(yīng)用于突發(fā)性社會事件和自然事件的監(jiān)測和預(yù)警。

二、國內(nèi)外研究現(xiàn)狀

通過對微博信息的挖掘，可以獲取相關(guān)的商業(yè)信息，人際關(guān)系信息，熱點(diǎn)新聞，趨勢信息等內(nèi)容，以及對歷史事件進(jìn)行相關(guān)的分析總結(jié)。

進(jìn)行微博信息挖掘，需要處理海量的用戶信息和微博內(nèi)容。把Hadoop應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域，國內(nèi)外學(xué)者也有所探索，文獻(xiàn)[2]提出了一種基于數(shù)據(jù)分割技術(shù)和遺傳算法的混合算法DS-PGA，該算法結(jié)合了數(shù)據(jù)分割技術(shù)的分布式處理和遺傳算法的全局搜索最優(yōu)解的優(yōu)點(diǎn)，使得改進(jìn)后的算法更適合在分布式計算環(huán)境中執(zhí)行。文獻(xiàn)[3]針對云計算環(huán)境下的關(guān)聯(lián)規(guī)則挖掘算法展開研究，對Apriori算法進(jìn)行了改進(jìn)，給出了改進(jìn)的算法在Hadoop中的Map/Reduce編程模型上的執(zhí)行流程；通過一個簡單的頻繁項(xiàng)集挖掘?qū)嵗故玖烁倪M(jìn)的算法的執(zhí)行效率及實(shí)用性。

從國內(nèi)外研究現(xiàn)狀可以看出，對微博信息的挖掘還處于起步階段，本文將結(jié)合微博數(shù)據(jù)挖掘的實(shí)際需求，利用分布式和虛擬化技術(shù)，設(shè)計并實(shí)現(xiàn)基于Hadoop的微博信息挖掘系統(tǒng)，展示挖掘的相關(guān)信息。

三、基于Hadoop微博信息挖掘系統(tǒng)設(shè)計

Hadoop主要由HDFS、MapReduce和Hbase組成。它是一個分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的特性使得Hadoop可以用于處理海量數(shù)據(jù)的分析和挖掘處理。

微博信息挖掘系統(tǒng)設(shè)計分為四個模塊：數(shù)據(jù)獲取，數(shù)據(jù)存儲，數(shù)據(jù)挖掘和數(shù)據(jù)展示，系統(tǒng)架構(gòu)設(shè)計如圖1所示，本節(jié)將討論各個模塊需是實(shí)現(xiàn)的功能及其技術(shù)路線。

基于Hadoop的微博信息挖掘系統(tǒng)框架結(jié)構(gòu)

圖1 基于Hadoop的微博信息挖掘系統(tǒng)框架結(jié)構(gòu)

（一）數(shù)據(jù)獲取

數(shù)據(jù)獲取指從微博平臺中獲取微博信息，包含用戶信息，微博內(nèi)容等，獲取方式包含兩種：API方式和Web爬蟲方式。API方式指通過調(diào)用各微博服務(wù)提供商提供的接口獲取微博信息，而Web爬蟲方式指通過訪問微博平臺的WEB頁面，解析頁面相關(guān)內(nèi)容，獲取所需信息。

系統(tǒng)通過Web爬蟲的方式獲取用戶的微博ID，然后再使用微博服務(wù)提供商提供的API進(jìn)一步獲取用戶的詳細(xì)信息和微博內(nèi)容，這種做的優(yōu)點(diǎn)是通過Web爬蟲的方式過濾掉了非認(rèn)證用戶，同時盡可能的減少了API調(diào)用次數(shù)，將有限的API調(diào)用資源用于獲取用戶的微博內(nèi)容。

數(shù)據(jù)獲取模塊的架構(gòu)設(shè)計如下：

數(shù)據(jù)獲取模塊的架構(gòu)設(shè)計

圖2 數(shù)據(jù)獲取模塊的架構(gòu)設(shè)計

（二）數(shù)據(jù)存儲

由于需要處理海量數(shù)據(jù)，數(shù)據(jù)存儲將采用Hadoop的HDFS。存儲系統(tǒng)采用二個開源框架搭建（Hadoop、Hive），其中Hadoop提供分布式系統(tǒng)基礎(chǔ)框架，Hive提供基于SQL語句的數(shù)據(jù)查詢。

（三）數(shù)據(jù)挖掘

為了充分利用Hadoop的分布式特性，基于Hadoop的數(shù)據(jù)挖掘算法應(yīng)該具有并行性�；跀�(shù)據(jù)劃分的方法是普遍采用一種并行處理的方法：首先將數(shù)據(jù)集合劃分為適當(dāng)?shù)淖訅K，然后在各個子塊上用傳統(tǒng)的挖掘算法(如Aprior算法)進(jìn)行處理，最后將各個子塊上的結(jié)果進(jìn)行合并。

數(shù)據(jù)挖掘一般處理過程包括：數(shù)據(jù)清理->數(shù)據(jù)集成->數(shù)據(jù)選擇->數(shù)據(jù)變換->數(shù)據(jù)挖掘->模式評估->知識表示。在做數(shù)據(jù)挖掘之前很重要的一步就是數(shù)據(jù)轉(zhuǎn)換，即將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式，例如經(jīng)過數(shù)據(jù)倉庫匯總或聚集。這里采用Hive來完成這項(xiàng)工作。Hive是一個建立在Hadoop之上的類似數(shù)據(jù)倉庫的結(jié)構(gòu)，它提供了可以非常簡單的數(shù)據(jù)ETL(extract-transform-lOAd)的工具，也提供了往Hive框架中裝入數(shù)據(jù)的機(jī)制，而且提供了對存儲在HDFS中的大數(shù)據(jù)集的查詢和分析功能。Hive定義了簡單的類SQL查詢語言，稱為HQL，它允許熟悉SQL的用戶查詢數(shù)據(jù)。同時，HQL允許熟悉MapReduce開發(fā)者的開發(fā)自定義的Mapper和Reducer來處理內(nèi)建的Mapper和Reducer無法完成的復(fù)雜的分析工作。

（四）數(shù)據(jù)展示

數(shù)據(jù)展示是指將數(shù)據(jù)挖掘的結(jié)果用WEB頁面的方式進(jìn)行展示。數(shù)據(jù)定期進(jìn)行挖掘操作，挖掘的結(jié)果將單獨(dú)存放在MYSQL數(shù)據(jù)庫中，數(shù)據(jù)展示模塊直接與MYSQL數(shù)據(jù)庫進(jìn)行交互。這樣部署的優(yōu)勢在于將數(shù)據(jù)存儲和數(shù)據(jù)挖掘模塊分開，降低模塊之間的耦合度。

四、熱點(diǎn)話題的獲取

熱點(diǎn)話題是指在特定的時間段內(nèi)出現(xiàn)頻率較高或傳播范圍較廣的主題特征詞。獲取熱點(diǎn)話題可以關(guān)注微博討論熱點(diǎn)，從中獲知有價值的相關(guān)信息。熱點(diǎn)話題的獲取包括分詞處理，熱點(diǎn)詞元獲取和話題提取三個步驟，分別描述如下：

（一）分詞處理

分詞指的是將一個漢字語句切分成一單獨(dú)的詞語。由于微博可能有上百字的內(nèi)容，為了獲得話題，需要對內(nèi)容進(jìn)行分詞。常用的分詞工具較多，這里選取IK Analyzer 3.0作為熱點(diǎn)話題獲取的分詞工具，IK Analyzer是一個開源的，基于java語言開發(fā)的輕量級的中文分詞工具包。IK Analyzer支持自定義停詞表和詞庫，可以具有更大的擴(kuò)展能力。

（二）熱點(diǎn)詞元獲取

公式（1）中，W_ij表示在文檔d_j中，關(guān)鍵字所占的比重。由其W_ij對應(yīng)的TF_ij值和IDF_i值計算得出。這兩部分的計算公式如公式（2）和公式（3）所示。在公式（2）和公式（3）中，F(xiàn)_ij表示關(guān)鍵字K_i 在文檔dj中的出現(xiàn)頻率，文檔d_j中包含T個關(guān)鍵字，N表示文檔總數(shù)， N_j表示包含關(guān)鍵字K_i的文檔總數(shù)。

公式（1）中，表示在文檔中，關(guān)鍵字所占的比重。由其對應(yīng)的值和值計算得出。這兩部分的計算公式如公式（2）和公式（3）所示。在公式（2）和公式（3）中，表示關(guān)鍵字在文檔中的出現(xiàn)頻率，文檔中包含個關(guān)鍵字，表示文檔總數(shù)，表示包含關(guān)鍵字的文檔總數(shù)。

在熱點(diǎn)話題提取算法的應(yīng)用場景下，整個數(shù)據(jù)集中大量微博中出現(xiàn)的主題特征詞也應(yīng)該被識別出來，而TF-IDF算法可能會忽略這些熱點(diǎn)詞。所以在短文本主題特征詞提取的場景下，TF-IDF并不適合提取主題特征詞，微博信息挖掘系統(tǒng)設(shè)計的主題特征詞提取算法如下所示：

公式（4）中的表示詞元在當(dāng)天的所有微博中的詞頻總數(shù)，和分別表示微博j的轉(zhuǎn)發(fā)數(shù)和評論數(shù)。需要指出的是，熱點(diǎn)詞元的獲取的時間是以一天為基本單位的，在對微博內(nèi)容分詞時，通過添加停詞庫，已去除了干擾主題詞提取的詞匯。在獲得當(dāng)天微博中所有詞元的詞頻后，對詞頻進(jìn)行排序，然后獲取TOP200的詞元，作為當(dāng)天的熱點(diǎn)詞元庫，然后分別對每條微博做主題特征詞提取，如公式（6）所示。每條微博取5個詞元做主題特征詞。

（三）話題提取

在獲取了每條微博的5個主題特征詞后，需要提取當(dāng)天的熱點(diǎn)話題，在話題提取時，不關(guān)注內(nèi)容過短（長度小于15）的微博，因?yàn)檫@些微博過短，沒有形成語句來描述一個事件，更多是類似“我在吃三明治”之類的無意義的嘀咕。

這里采用分布式Apriori算法來進(jìn)行主題特征詞的關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘。Apriori算法的基本思想是：首先找出所有的頻集，這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則，這些規(guī)則必須滿足最小支持度和最小可信度。然后使用前面找到的頻集產(chǎn)生期望的規(guī)則，產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則，其中每一條規(guī)則的右部只有一項(xiàng)，這里采用的是中規(guī)則的定義。在Hadoop中應(yīng)用Apriori算法時，需要對Apriori算法進(jìn)行改進(jìn)，使之能夠充分利用MapReduce框架的優(yōu)勢進(jìn)行計算。這里采用文獻(xiàn)[4]提出的基于云計算的Apriori算法來做主題詞的關(guān)聯(lián)分析。

五、實(shí)驗(yàn)結(jié)果及分析

挖掘系統(tǒng)采用云計算和虛擬化技術(shù)，搭建了一個小規(guī)模的Hadoop集群，集群共計有6個節(jié)點(diǎn)，集群配置情況如下：master節(jié)點(diǎn)雙核CPU、4G內(nèi)存；slave節(jié)點(diǎn)雙核CPU、2G內(nèi)存。CPU型號為Intel Xeon E5606。

（一）熱點(diǎn)獲取

這里選取2011年12月30的獲取的微博數(shù)據(jù)，微博數(shù)為151684條。通過熱點(diǎn)話題的獲取后，取得前10話題如表1所示：

表1 熱點(diǎn)事件列表

熱點(diǎn)事件列表

從挖掘的結(jié)果看，挖掘的熱點(diǎn)事件基本反映了微博的熱點(diǎn)內(nèi)容，例如年末的“年終獎”、“春晚”等。

（二）事件跟蹤

對熱點(diǎn)事件，可以通過跟蹤其熱點(diǎn)情況，及時了解事件的趨勢。這里以日本大地震為例，選取時間段2011年3月1日至2011年4月15日共計3375210條微博，其中討論“日本”、“地震”的相關(guān)微博有120169條，通過統(tǒng)計和挖掘，得到事件的發(fā)展趨勢圖如下所示：

日本地震熱點(diǎn)趨勢圖

圖3 日本地震熱點(diǎn)趨勢圖

六、結(jié)束語

本文設(shè)計了基于Hadoop的微博信息挖掘系統(tǒng)，并設(shè)計了熱點(diǎn)事件的挖掘算法，通過在Hadoop分布式平臺上驗(yàn)證，獲取了期望的挖掘結(jié)果，證明了平臺和算法的可行性。對Hadoop應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域提供了較好的參考意義。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：基于Hadoop的微博信息挖掘

本文網(wǎng)址：http://www.ezxoed.cn/html/support/1112156729.html

關(guān)鍵詞標(biāo)簽： 基于Hadoop的微博信息挖掘,微博 Hadoop 海量數(shù)據(jù) 數(shù)據(jù)挖掘,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財務(wù)軟件,免費(fèi)倉庫管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇： Hadoop的核心技術(shù)研究或概述

下一篇：物聯(lián)網(wǎng)關(guān)鍵技術(shù)與業(yè)務(wù)應(yīng)用

相關(guān)文章

服務(wù)支持

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標(biāo)..

金蝶KIS財務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓(xùn)..

拓步ERP財務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標(biāo)準(zhǔn)版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

最新服務(wù)支持

談3D可視化系統(tǒng)在工業(yè)4.0三項(xiàng)集成的應(yīng)用

互聯(lián)網(wǎng)+智能家裝TOP50新鮮出..

淺談業(yè)務(wù)流程治理

解析工業(yè)4.0系列專欄—— 德國..

工業(yè)物聯(lián)網(wǎng)應(yīng)用場景及系統(tǒng)構(gòu)建

數(shù)據(jù)中心四大災(zāi)備技術(shù)解析

2015網(wǎng)絡(luò)、數(shù)據(jù)中心和云該期待..

如何利用云服務(wù)創(chuàng)建強(qiáng)大的備份策略

《中國制造2025》的總體思路圖

未來數(shù)據(jù)中心UPS需求趨勢

點(diǎn)擊

聯(lián)系ERP系統(tǒng)咨詢顧問
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問-1
點(diǎn)擊

聯(lián)系ERP系統(tǒng)售前顧問-2


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評審驗(yàn)收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識庫

常見問題資料庫

在線學(xué)習(xí)資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢

即時聯(lián)系

服務(wù)熱線

快捷互動

猜您喜歡