| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>管理咨詢 >>CIO技術(shù)專欄 >>CIO基礎(chǔ)設(shè)施

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-移動(dòng)應(yīng)用集成：框架、技術(shù)與挑戰(zhàn)

移動(dòng)應(yīng)用集成：框架、技術(shù)與挑戰(zhàn)

發(fā)布日期：2014-04-15 9:37:13 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：隨著移動(dòng)互聯(lián)網(wǎng)的廣泛普及和飛速發(fā)展，出現(xiàn)了大量的移動(dòng)應(yīng)用，其種類和數(shù)量還在不斷增加。手機(jī)制造商、電信運(yùn)營(yíng)商和互聯(lián)網(wǎng)服務(wù)提供商等紛紛推出自己的移動(dòng)應(yīng)用商店，移動(dòng)應(yīng)用已經(jīng)成為互聯(lián)網(wǎng)發(fā)展的一種新模式。移動(dòng)應(yīng)用的相關(guān)信息分布在應(yīng)用商店、專業(yè)論壇及社交網(wǎng)絡(luò)中，由于其信息的多樣性、異構(gòu)性、動(dòng)態(tài)性，給移動(dòng)應(yīng)用集成帶來了巨大挑戰(zhàn)。移動(dòng)應(yīng)用集成的主要任務(wù)是研究如何把海量的移動(dòng)應(yīng)用及其相關(guān)信息有效地集成起來，為用戶提供高質(zhì)量的搜索、發(fā)現(xiàn)和推薦服務(wù)。移動(dòng)應(yīng)用集成還是一個(gè)比較新的研究領(lǐng)域，文中提出了一個(gè)移動(dòng)應(yīng)用集成的基本框架，對(duì)移動(dòng)應(yīng)用集成中的關(guān)鍵技術(shù)進(jìn)行了分析總結(jié)，在此基礎(chǔ)上對(duì)未來的研究方向及挑戰(zhàn)進(jìn)行了闡述。 原標(biāo)題：移動(dòng)應(yīng)用集成：框架、技術(shù)與挑戰(zhàn) 原作者：發(fā)表時(shí)間：2014/4/15 馬友忠孟小峰姜大昕來源：萬方數(shù)據(jù)

1.引言

隨著智能手機(jī)和其他移動(dòng)設(shè)備的普及，移動(dòng)互聯(lián)網(wǎng)快速發(fā)展，海量的移動(dòng)應(yīng)用(Mobile Application，App)成了移動(dòng)互聯(lián)網(wǎng)的主要入口。根據(jù)瑞士信貸集團(tuán)估計(jì)，到2016年，全球?qū)?huì)有100億部聯(lián)網(wǎng)的移動(dòng)設(shè)備，智能手機(jī)的網(wǎng)絡(luò)流量將會(huì)是今天的50倍，而更多的移動(dòng)設(shè)備也意味著更多的移動(dòng)應(yīng)用。蘋果公司于2008年7月首次推出移動(dòng)應(yīng)用商店AppStore，獲得了巨大成功。2012年10月，應(yīng)用數(shù)量已經(jīng)超過70萬，至2013年5月，官方應(yīng)用商店AppStore的應(yīng)用下載量即將突破500億次。同時(shí)，全球移動(dòng)應(yīng)用規(guī)模也在急劇擴(kuò)大，手機(jī)制造商、電信運(yùn)營(yíng)商和互聯(lián)網(wǎng)服務(wù)提供商等紛紛推出自己的移動(dòng)應(yīng)用商店，移動(dòng)應(yīng)用已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)發(fā)展的一種新模式。表1給出了幾個(gè)比較有代表性的移動(dòng)應(yīng)用商店的基本情況。預(yù)計(jì)6月份，Google Play商店的應(yīng)用數(shù)量將超過100萬。目前全球移動(dòng)應(yīng)用數(shù)量的規(guī)模在百萬級(jí)別，與現(xiàn)有的Web網(wǎng)站和Web網(wǎng)頁數(shù)量規(guī)模相比雖然還比較小，但是其現(xiàn)在的數(shù)量規(guī)模已經(jīng)與2000年左右的網(wǎng)站和網(wǎng)頁數(shù)量規(guī)模相當(dāng)，并且還在不斷增加之中。長(zhǎng)尾理論提出者、《連線》的Chris Anderson曾提出“Web已死，互聯(lián)網(wǎng)萬歲”，表示隨著iPhone/iPad日漸成為主流計(jì)算終端，人們?cè)絹碓搅?xí)慣于通過移動(dòng)應(yīng)用軟件獲取信息。移動(dòng)應(yīng)用將逐漸超過瀏覽器，成為移動(dòng)互聯(lián)網(wǎng)的主要入口。

表1 移動(dòng)應(yīng)用規(guī)模

面對(duì)數(shù)百萬的移動(dòng)應(yīng)用(未來還將繼續(xù)增加)，用戶正面臨著一個(gè)日益嚴(yán)重的挑戰(zhàn)：如何才能快速找到自己想要的、適合自己的應(yīng)用?而眾多的移動(dòng)應(yīng)用開發(fā)者也面臨著一個(gè)問題：如何把自己開發(fā)的應(yīng)用推薦給用戶?用戶與應(yīng)用開發(fā)者之間的供需矛盾日益突出。目前解決這一矛盾的方法主要有3種：

(1)移動(dòng)應(yīng)用商店。在移動(dòng)應(yīng)用發(fā)展的早期，移動(dòng)應(yīng)用主要出現(xiàn)在應(yīng)用商店中，如表1中所列出的幾個(gè)主要的應(yīng)用商店。為了便于用戶瀏覽、查找自己所需的移動(dòng)應(yīng)用，各應(yīng)用商店都對(duì)數(shù)據(jù)進(jìn)行了一些處理，包括分類、添加標(biāo)簽等。但是通過分析發(fā)現(xiàn)，目前的分類粒度比較粗，一般包含兩個(gè)層次類別，大類數(shù)量在20個(gè)左右，由于應(yīng)用的總體數(shù)量比較大，所以單個(gè)類別下的移動(dòng)應(yīng)用仍然比較多，用戶要想快速定位到自己需要的移動(dòng)應(yīng)用依然很困難；另外不同應(yīng)用商店的分類方式及類別名稱不統(tǒng)一，各商店之間應(yīng)用類別名稱僅有50%左右是一致的；各移動(dòng)應(yīng)用商店所提供的搜索功能大都是基于關(guān)鍵字匹配的簡(jiǎn)單搜索，搜索結(jié)果比較差，無法滿足用戶需求。

(2)第三方移動(dòng)應(yīng)用集成。為了解決移動(dòng)應(yīng)用商店存在的問題，出現(xiàn)了第三方移動(dòng)應(yīng)用集成服務(wù)提供商，其主要工作方式是從不同的應(yīng)用商店中抓取移動(dòng)應(yīng)用信息，并對(duì)抓取到的應(yīng)用信息進(jìn)行進(jìn)一步的處理，如重新分類、去重、添加標(biāo)簽等，在此基礎(chǔ)上提供應(yīng)用瀏覽、搜索功能。

(3)移動(dòng)應(yīng)用搜索與推薦。移動(dòng)應(yīng)用搜索與推薦是幫助用戶快速找到自己所需應(yīng)用的一種有效途徑，目前已經(jīng)有一些相應(yīng)的解決方案。騰訊于2012年6月發(fā)布了海納應(yīng)用搜索，這是一款基于移動(dòng)應(yīng)用功能屬性搜索的引擎。據(jù)騰訊介紹，海納應(yīng)用搜索是專門為用戶提供移動(dòng)應(yīng)用搜索服務(wù)的智能搜索引擎，專注于App搜索以及根據(jù)搜索行為的應(yīng)用推薦，主要滿足用戶自然語言的搜索需求。Quixey是一個(gè)完全自動(dòng)化的移動(dòng)應(yīng)用“功能搜索”引擎，它以文本分析、語義分析技術(shù)為主，提供移動(dòng)應(yīng)用的準(zhǔn)確搜索。Quixey不是簡(jiǎn)單地根據(jù)用戶的描述來進(jìn)行搜索，可以通過Quixey定義的函數(shù)為用戶提供移動(dòng)應(yīng)用搜索和發(fā)現(xiàn)服務(wù)。Quixey從移動(dòng)應(yīng)用商店、論壇、博客、社會(huì)化媒體網(wǎng)站和匿名消息來源抓取移動(dòng)應(yīng)用的相關(guān)信息，并對(duì)這些信息進(jìn)行進(jìn)一步的抽取、分析、集成，從而提供高質(zhì)量的功能搜索服務(wù)。

上述3種方式在一定程度上能夠幫助用戶快速找到自己所需的移動(dòng)應(yīng)用，但還有很大改善和提升的空間。移動(dòng)應(yīng)用集成是解決這一問題的有效途徑。移動(dòng)應(yīng)用集成的主要任務(wù)是研究如何把海量的移動(dòng)應(yīng)用及其相關(guān)信息有效地集成起來，為用戶提供高質(zhì)量的搜索、發(fā)現(xiàn)和推薦服務(wù)。研究?jī)?nèi)容主要包括移動(dòng)應(yīng)用數(shù)據(jù)抽取、功能建模、移動(dòng)應(yīng)用匹配、移動(dòng)應(yīng)用搜索與推薦等。

本文主要對(duì)移動(dòng)應(yīng)用集成中若干關(guān)鍵研究問題的研究現(xiàn)狀進(jìn)行分析總結(jié)，并指出未來的主要研究方向。本文第2節(jié)介紹移動(dòng)應(yīng)用集成與傳統(tǒng)Web數(shù)據(jù)集成的異同，提出移動(dòng)應(yīng)用集成基本框架；第3節(jié)對(duì)移動(dòng)應(yīng)用數(shù)據(jù)抽取相關(guān)工作進(jìn)行分析；第4節(jié)和第5節(jié)分別介紹移動(dòng)應(yīng)用匹配和移動(dòng)應(yīng)用推薦技術(shù)；第6節(jié)指出若干挑戰(zhàn)性研究問題；最后對(duì)本文內(nèi)容進(jìn)行總結(jié)。

　　2.移動(dòng)應(yīng)用集成框架

目前關(guān)于移動(dòng)應(yīng)用集成的研究尚處于起步階段，其中在移動(dòng)應(yīng)用數(shù)據(jù)抽取方面大都是基于傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)，偏重于結(jié)構(gòu)化信息的抽取，對(duì)于移動(dòng)應(yīng)用功能信息抽取技術(shù)的研究還比較少；在移動(dòng)應(yīng)用搜索與推薦方面有一些初步研究。本節(jié)首先對(duì)Web數(shù)據(jù)集成進(jìn)行簡(jiǎn)單介紹，對(duì)移動(dòng)應(yīng)用集成和Web數(shù)據(jù)集成技術(shù)進(jìn)行對(duì)比分析，在此基礎(chǔ)上給出移動(dòng)應(yīng)用集成的基本框架。

　　2.1 Web數(shù)據(jù)集成

關(guān)于Web數(shù)據(jù)集成，大量學(xué)者已經(jīng)作了系統(tǒng)深人的研究，其中劉偉等人對(duì)Deep Web數(shù)據(jù)集成進(jìn)行了綜述，提出了Deep Web數(shù)據(jù)集成框架，把集成過程分成了3個(gè)模塊：查詢接口生成模塊、查詢處理模塊和查詢結(jié)果處理模塊。其中查詢接口生成模塊包括Web數(shù)據(jù)庫發(fā)現(xiàn)、查詢接口模式抽取、Web數(shù)據(jù)庫分類和查詢接口生成4個(gè)子模塊；查詢處理模塊主要包括Web數(shù)據(jù)庫選擇、查詢轉(zhuǎn)換、查詢提交3個(gè)子模塊；查詢結(jié)果處理模塊主要包括結(jié)果抽取、結(jié)果注釋和結(jié)果合并3個(gè)子模塊。文獻(xiàn)分別對(duì)查詢接口模式抽取、查詢接口的集成進(jìn)行了研究；文獻(xiàn)對(duì)Web數(shù)據(jù)庫的選擇、查詢轉(zhuǎn)換相關(guān)技術(shù)進(jìn)行了分析；文獻(xiàn)重點(diǎn)研究了基于視覺的查詢結(jié)果抽取方法。

查詢結(jié)果的處理是Web數(shù)據(jù)集成的核心任務(wù)。查詢結(jié)果處理的主要任務(wù)是把來自于多個(gè)Web數(shù)據(jù)庫的異構(gòu)的數(shù)據(jù)以一個(gè)統(tǒng)一的形式展示給用戶，目前的主要研究工作集中在如何快速準(zhǔn)確地從查詢結(jié)果頁面抽取出結(jié)構(gòu)化的查詢結(jié)果。目前的Web數(shù)據(jù)抽取主要包括以下幾種技術(shù)：頁面抽取語言、基于DOM樹的技術(shù)、抽取規(guī)則推導(dǎo)技術(shù)、基于視覺的抽取等。

　　2.2 移動(dòng)應(yīng)用集成與Web數(shù)據(jù)集成的異同

移動(dòng)應(yīng)用集成與傳統(tǒng)的Web數(shù)據(jù)集成有一些共同點(diǎn)，如屬性信息抽取、數(shù)據(jù)融合等，兩者都需要從相應(yīng)的Web頁面中抽取出結(jié)構(gòu)化的屬性信息，對(duì)于不同數(shù)據(jù)源的數(shù)據(jù)需要進(jìn)行消重、融合等。然而，與Web數(shù)據(jù)集成相比，移動(dòng)應(yīng)用集成也有其特殊之處，二者的主要區(qū)別見表2。

表2 Web數(shù)據(jù)集成與移動(dòng)應(yīng)用集成的對(duì)比

　　2.3 移動(dòng)應(yīng)用集成基本框架

我們針對(duì)移動(dòng)應(yīng)用的特點(diǎn)，并結(jié)合現(xiàn)有的數(shù)據(jù)集成技術(shù)，提出了移動(dòng)應(yīng)用集成框架，如圖1所示。

圖1 移動(dòng)應(yīng)用集成框架

移動(dòng)應(yīng)用集成主要包括4個(gè)層次：數(shù)據(jù)源、信息抽取、數(shù)據(jù)模型和應(yīng)用。其中數(shù)據(jù)源主要包括眾多的移動(dòng)應(yīng)用商店，以及與移動(dòng)應(yīng)用相關(guān)的各種網(wǎng)絡(luò)數(shù)據(jù)源如用戶數(shù)據(jù)、社交網(wǎng)絡(luò)、用戶評(píng)論、論壇信息等。移動(dòng)應(yīng)用商店主要包括移動(dòng)應(yīng)用的基本屬性信息，該部分信息需要利用相應(yīng)的數(shù)據(jù)抽取技術(shù)，從多個(gè)不同的應(yīng)用商店中抽取出具有統(tǒng)一格式的結(jié)構(gòu)化信息，并根據(jù)實(shí)際情況進(jìn)行數(shù)據(jù)消重、數(shù)據(jù)融合等處理。

移動(dòng)應(yīng)用本身的信息是靜態(tài)信息，而用戶數(shù)據(jù)主要是指用戶在使用應(yīng)用程序的過程中所產(chǎn)生的一系列相關(guān)數(shù)據(jù)，如用戶的安裝、更新、刪除歷史，用戶使用時(shí)間記錄，用戶在應(yīng)用程序中的資料信息等。通過這些信息可以分析用戶的使用習(xí)慣，了解用戶的潛在需求，從而為用戶提供更好的推薦服務(wù)。但是目前該部分信息因隱私問題，不太容易得到。

隨著Web2.0技術(shù)的發(fā)展，很多用戶都習(xí)慣于在網(wǎng)絡(luò)中分享自己的相關(guān)信息，如用戶可以在Facebook中與好友分享自己所使用的移動(dòng)應(yīng)用程序列表、自己的使用體驗(yàn)、評(píng)價(jià)等；還有一些針對(duì)移動(dòng)應(yīng)用的專業(yè)論壇，可以供用戶之間交流移動(dòng)應(yīng)用的使用信息、對(duì)應(yīng)用的評(píng)價(jià)等，如比較有名的是威鋒網(wǎng)。從這些信息中可以全方位了解移動(dòng)應(yīng)用，分析移動(dòng)應(yīng)用的質(zhì)量、用戶喜愛程度等，對(duì)于提高服務(wù)質(zhì)量具有重要作用。

信息抽取主要是從眾多數(shù)據(jù)源中把與移動(dòng)應(yīng)用相關(guān)的信息抽取出來，主要包括屬性信息抽取、數(shù)據(jù)融合、功能信息抽取和網(wǎng)絡(luò)數(shù)據(jù)抽取等。其中屬性信息抽取主要是把移動(dòng)應(yīng)用相關(guān)的結(jié)構(gòu)化信息抽取出來，如應(yīng)用名稱、類別、適合機(jī)型、價(jià)格等；數(shù)據(jù)融合主要解決不同數(shù)據(jù)源中數(shù)據(jù)的沖突問題；移動(dòng)應(yīng)用集成中的屬性信息抽取技術(shù)和數(shù)據(jù)融合技術(shù)與傳統(tǒng)的Web數(shù)據(jù)集成基本相同。功能信息抽取，主要負(fù)責(zé)從移動(dòng)應(yīng)用的描述信息以及與移動(dòng)應(yīng)用相關(guān)的評(píng)論信息中抽取出應(yīng)用的主要功能，該部分是Web數(shù)據(jù)集成中所沒有考慮或者是沒有必要考慮的內(nèi)容。網(wǎng)絡(luò)數(shù)據(jù)抽取主要指從與移動(dòng)應(yīng)用相關(guān)的各種數(shù)據(jù)源中把所需要的信息抽取出來，如用戶評(píng)論信息、移動(dòng)應(yīng)用的使用排名、用戶的評(píng)分信息等，該部分主要難點(diǎn)在于相關(guān)信息的識(shí)別以及數(shù)據(jù)的動(dòng)態(tài)特性。

模型層主要是把移動(dòng)應(yīng)用的基本屬性信息、能做什么、做得怎么樣、如何使用、用戶評(píng)價(jià)等各種不同的信息以一種合理的方式進(jìn)行建模，并建立高效的索引，以實(shí)現(xiàn)快速和高質(zhì)量的搜索服務(wù)以及其他應(yīng)用需求。

應(yīng)用層主要是在已經(jīng)處理好的移動(dòng)應(yīng)用程序數(shù)據(jù)庫的基礎(chǔ)上提供相應(yīng)的服務(wù)，如移動(dòng)應(yīng)用搜索、移動(dòng)應(yīng)用推薦、移動(dòng)應(yīng)用匹配等。

　　3.移動(dòng)應(yīng)用數(shù)據(jù)抽取

移動(dòng)應(yīng)用數(shù)據(jù)抽取是移動(dòng)應(yīng)用集成的核心任務(wù)之一，同時(shí)也是其他任務(wù)的基礎(chǔ)。在數(shù)據(jù)抽取方面已經(jīng)有大量的研究工作，按照不同的標(biāo)準(zhǔn)可以分類不同的類別。按數(shù)據(jù)來源不同，可以分為基于非結(jié)構(gòu)化數(shù)據(jù)(文本)的抽取和基于半結(jié)構(gòu)化數(shù)據(jù)(Web數(shù)據(jù))的抽��；按照自動(dòng)程度不同，可以分為手動(dòng)、半自動(dòng)和全自動(dòng)的數(shù)據(jù)抽取。在移動(dòng)應(yīng)用集成中，屬性信息抽取和功能信息抽取是數(shù)據(jù)抽取模塊的主要目標(biāo)。屬性信息抽取主要是從移動(dòng)應(yīng)用所在的Web網(wǎng)頁中把移動(dòng)應(yīng)用的名字、類別、描述等信息抽取出來，功能數(shù)據(jù)抽取主要是從移動(dòng)應(yīng)用的描述信息、論壇信息及用戶評(píng)論信息中把能夠代表移動(dòng)應(yīng)用功能的主要短語、句子等抽取出來。

目前在Web數(shù)據(jù)抽取方面已經(jīng)有了大量的研究工作，其中劉偉、孟小峰等人W在《Deep Web數(shù)據(jù)集成研究綜述》中對(duì)Web數(shù)據(jù)抽取技術(shù)進(jìn)行了歸納總結(jié)，并按照使用技術(shù)的不同進(jìn)行了分類，主要包括基于DOM樹的技術(shù)、基于模式的技術(shù)、頁面抽取語言川和抽取規(guī)則推導(dǎo)技術(shù)等。不過文獻(xiàn)分析的主要是7年以前的技術(shù)，我們不再進(jìn)行詳細(xì)介紹，本節(jié)主要對(duì)近幾年提出的一些新的、代表性數(shù)據(jù)抽取技術(shù)進(jìn)行分析。

D-EEM是一種基于DOM樹的Deep Web實(shí)體抽取機(jī)制(DOM-tree based entity extraction mechanism for Deep Web)。 D-EEM采用基于DOM樹的自動(dòng)實(shí)體抽取策略，將實(shí)體抽取過程分為數(shù)據(jù)區(qū)域定位和實(shí)體區(qū)域定位兩個(gè)階段，從而可以在比較精確的范圍內(nèi)進(jìn)行實(shí)體區(qū)域的定位，大大提高了實(shí)體抽取的效率；另外，為了提高實(shí)體抽取的準(zhǔn)確性，在抽取過程中還考慮了DOM樹內(nèi)文本內(nèi)容節(jié)點(diǎn)和元素節(jié)點(diǎn)的特征。田健偉等人、為了能夠完整地提取Deep Web數(shù)據(jù)庫中的記錄，提出了一種基于層次樹的數(shù)據(jù)獲取技術(shù)。該技術(shù)把Web數(shù)據(jù)庫建模成一棵層次樹，這樣Deep Web數(shù)據(jù)的獲取問題就可以轉(zhuǎn)化成樹的遍歷問題。其次通過屬性排序和基于屬性值相關(guān)度的啟發(fā)規(guī)則指導(dǎo)遍歷過程提高遍歷效率。實(shí)驗(yàn)結(jié)果表明該方法具有很好的覆蓋率和較高的提取效率。OXPath對(duì)XPath進(jìn)行了擴(kuò)展，能夠在交互式的網(wǎng)站中支持頁面導(dǎo)航和結(jié)果數(shù)據(jù)的抽取。其最大的特點(diǎn)是能夠模擬用戶的行為，動(dòng)態(tài)獲取頁面的CSS屬性信息，并且每次只需處理當(dāng)前的頁面，所以需要的內(nèi)存空間比較小。

Liu等人困認(rèn)為傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)雖然能夠取得較好的抽取效果，但是大多都依賴于Web頁面編程語言，一旦頁面語言發(fā)生了改變，抽取技術(shù)也得做相應(yīng)的改變。為了克服這方面的限制，Liu等人系統(tǒng)分析了多種結(jié)果頁面的視覺特征，并使用結(jié)果頁的視覺特征來進(jìn)行數(shù)據(jù)記錄和數(shù)據(jù)項(xiàng)的抽取工作，此方法最大的特點(diǎn)是抽取過程與頁面語言種類無關(guān)，適合在多語種環(huán)境中的使用。

Ferrara等人從一個(gè)新的角度對(duì)Web數(shù)據(jù)抽取技術(shù)和應(yīng)用進(jìn)行了綜述。以往的綜述論文主要是從數(shù)據(jù)抽取技術(shù)和算法的角度進(jìn)行分類和描述，而Ferrara等人首次從應(yīng)用的角度對(duì)Web數(shù)據(jù)抽取技術(shù)進(jìn)行了分類，深人分析了不同應(yīng)用領(lǐng)域中Web數(shù)據(jù)抽取技術(shù)的相同點(diǎn)和不同點(diǎn)。作者主要從企業(yè)應(yīng)用和社交網(wǎng)絡(luò)應(yīng)用兩個(gè)大的領(lǐng)域進(jìn)行了分析，并指出了不同應(yīng)用領(lǐng)域中數(shù)據(jù)抽取技術(shù)存在的挑戰(zhàn)性問題。

馬安香等人針對(duì)重復(fù)語義標(biāo)注和嵌套屬性的問題，提出了一種基于結(jié)果模式的Deep Web數(shù)據(jù)抽取機(jī)制。該機(jī)制將數(shù)據(jù)抽取工作分為結(jié)果模式生成和數(shù)據(jù)抽取兩個(gè)階段，在結(jié)果模式生成階段進(jìn)行屬性語義標(biāo)注，從而解決了重復(fù)語義標(biāo)注問題；在結(jié)果模式的基礎(chǔ)上提出了一種新的數(shù)據(jù)抽取方法，很好地解決了嵌套屬性問題。

由于移動(dòng)應(yīng)用數(shù)據(jù)往往表達(dá)隨意，具有不規(guī)范性，為了改善移動(dòng)應(yīng)用匹配、推薦的效果，需要從這些不規(guī)范的、短小的移動(dòng)應(yīng)用數(shù)據(jù)中抽取出其主題或關(guān)鍵詞。Zhao等人主要研究如何從Twitter信息中抽取出主題關(guān)鍵短語。Twitter信息一般都比較短，并且噪音比較多，為了提高抽取質(zhì)量，作者利用關(guān)鍵詞排序、關(guān)鍵短語生成和關(guān)鍵短語排序3個(gè)階段來實(shí)現(xiàn)。在關(guān)鍵詞排序中，基于主題敏感傳播算法，對(duì)主題PageRank算法進(jìn)行了改進(jìn)；在關(guān)鍵詞排序和關(guān)鍵短語生成的基礎(chǔ)上，設(shè)計(jì)了一個(gè)概率短語評(píng)分函數(shù)，最后利用該評(píng)分函數(shù)對(duì)短語進(jìn)行排序，取最前面的若干個(gè)短語作為關(guān)鍵短語。Yu等人提出了一種從商品評(píng)論中進(jìn)行主題抽取的方法。作者首先通過預(yù)處理，抽取出名詞或名詞短語，并把這些名詞和名詞短語作為候選主題；然后計(jì)算這些主題的相對(duì)詞頻，如果相對(duì)詞頻低于某個(gè)闌值，則過濾掉，不進(jìn)行后面的處理；最后針對(duì)每個(gè)候選主題計(jì)算其改進(jìn)的TF-IDF值，如果改進(jìn)的TF-IDF值大于某個(gè)闌值，則該主題就可以作為最后的結(jié)果。另外在進(jìn)行主題抽取的過程中，為了過濾掉冗余的主題，作者提出了一個(gè)主題支持度，如果主題w‘的頻率小于某個(gè)包含wi的短語(wi，wj)的頻率，則wi就可以過濾掉，只把wiwj作為一個(gè)候選主題。

　　4.移動(dòng)應(yīng)用匹配

據(jù)我們調(diào)研，目前還沒有關(guān)于移動(dòng)應(yīng)用集成相關(guān)技術(shù)的系統(tǒng)性研究工作，隨著移動(dòng)應(yīng)用的普及及數(shù)量的不斷增加，對(duì)于移動(dòng)應(yīng)用集成的研究具有前瞻性和必要性。移動(dòng)應(yīng)用集成中有很多關(guān)鍵性問題需要研究，如信息抽取技術(shù)、數(shù)據(jù)融合、實(shí)體識(shí)別、自動(dòng)推薦、應(yīng)用匹配等。而移動(dòng)應(yīng)用匹配在移動(dòng)應(yīng)用集成中具有重要意義，是信息集成、推薦和搜索的基礎(chǔ)。所以，目前我們主要針對(duì)移動(dòng)應(yīng)用匹配問題進(jìn)行研究。

　　4.1 移動(dòng)應(yīng)用屬性特點(diǎn)

在移動(dòng)應(yīng)用匹配過程中，我們主要是基于移動(dòng)應(yīng)用屬性來計(jì)算其相似度。通過觀察我們發(fā)現(xiàn)移動(dòng)應(yīng)用的名稱、描述信息都具有一些特點(diǎn)。

移動(dòng)應(yīng)用名稱：功能相似的移動(dòng)應(yīng)用名稱往往包含相同的詞，或者包含同義詞，有些名稱中包含一些復(fù)合詞如autolock， shake2mutecall，有些名稱中的詞不是一個(gè)有效的英語單詞，僅僅是一個(gè)標(biāo)識(shí)如Okotag，Barcode Scanner。

描述信息的短文本特性：描述信息與傳統(tǒng)的文本文檔不同，一般都比較短，由若干個(gè)句子組成，可以視為短文本。因此，描述信息中單詞的共現(xiàn)概率比較低，即使是功能相似的移動(dòng)應(yīng)用，可能都不包含共同的詞匯或者相同的詞比較少。由此得到的文本特征矩陣就比較稀疏，所以傳統(tǒng)的向量空間模型無法很好地根據(jù)移動(dòng)應(yīng)用的描述信息計(jì)算其相似度；另外，據(jù)我們觀察發(fā)現(xiàn)，由于移動(dòng)應(yīng)用的描述信息一般都是由開發(fā)者提供的，所以描述信息的撰寫非常不規(guī)范，往往包含很多非功能性描述或者說是噪音數(shù)據(jù)，如廣告信息、用戶操作指南、平臺(tái)要求等，這些非功能性描述對(duì)于計(jì)算移動(dòng)應(yīng)用的相似度具有很大的負(fù)面影響。因此，為了提高移動(dòng)應(yīng)用相似度計(jì)算的準(zhǔn)確性，我們必須解決稀疏性和噪音問題。

本節(jié)后面的內(nèi)容主要對(duì)短文本分析的相關(guān)技術(shù)和兩種移動(dòng)應(yīng)用匹配方法進(jìn)行分析。

　　4.2 短文本分析

目前已經(jīng)有很多學(xué)者針對(duì)短文本進(jìn)行了大量的研究工作，如短文本的主題發(fā)現(xiàn)、短文本的情感分析、短文本相似度計(jì)算、分類、聚類等。其中短文本相似度計(jì)算和短文本分類技術(shù)對(duì)移動(dòng)應(yīng)用匹配有重要的指導(dǎo)意義，所以本文對(duì)最近關(guān)于短文本相似度計(jì)算和短文本分類技術(shù)方面的研究進(jìn)行分析總結(jié)。

　　4.2.1 短文本相似度計(jì)算

短文本相似度計(jì)算的主要任務(wù)是用來判斷不同的短文本描述之間的相似程度，短文本的相似度越高，說明短文本表達(dá)的意思或觀點(diǎn)越相似。短文本相似度計(jì)算是短文本分析的基礎(chǔ)工作，是分類、聚類和主題發(fā)現(xiàn)的重要技術(shù)之一。

文獻(xiàn)主要提出了一種基于概率主題生成模型的短文本相似度計(jì)算方法。核心思想是，對(duì)于兩個(gè)待比較的短文本而言，把它們分成兩部分，一部分是相同的單詞，另一部分是不同的單詞；然后在一個(gè)給定的短文本集合中，基于LDA模型，利用GibbsSampling方法找出隱含主題及主題的概率分布；接下來在發(fā)現(xiàn)的主題分布上計(jì)算不同單詞的相似度；最后把兩者相結(jié)合計(jì)算總體相似度。該方法能夠在一定程度上解決短文本的稀疏性問題，但是其中也存在一些挑戰(zhàn)，如隱含主題的個(gè)數(shù)如何確定，相似度的間值如何判斷等；文獻(xiàn)主要針對(duì)短文本的稀疏性特點(diǎn)，提出了一種擴(kuò)充短文本信息的方法。對(duì)于每一個(gè)短文本，構(gòu)造一個(gè)查詢，提交給搜索引擎，然后利用搜索引擎返回的結(jié)果來代表短本，這樣就可以大大擴(kuò)充短文本的信息，同時(shí)作者提出了一種相似度核函數(shù)，用來計(jì)算短文本之間的相似度，具有較好的準(zhǔn)確性和可擴(kuò)展性；文獻(xiàn)主要是解決句子之間的相似度計(jì)算問題，傳統(tǒng)的計(jì)算方法不具有較好的擴(kuò)展性，作者提出了一種基于語義網(wǎng)絡(luò)和統(tǒng)計(jì)分析相結(jié)合的方法，具有較好的自適應(yīng)性；文獻(xiàn)把短文本的語義信息和統(tǒng)計(jì)信息相結(jié)合，提出了一種新的短文本模型方法。主要有3個(gè)步驟：首先基于語義詞典如WordNet計(jì)算出初始的詞相似度矩陣；然后以此為基礎(chǔ)，對(duì)詞相似度和短文本相似度進(jìn)行迭代計(jì)算，直至收斂；最后利用得到的詞相似度矩陣對(duì)原來的文檔一詞頻矩陣進(jìn)行修正，映射到新的向量空間中，并在新的向量空間中進(jìn)行短文本相似度的計(jì)算，實(shí)驗(yàn)表明取得了較好的效果；文獻(xiàn)對(duì)現(xiàn)有的句子相似度的計(jì)算方法進(jìn)行了分析，包括語法相似度、語義相似度和語用相似度，并提出一種新的基于關(guān)鍵詞提取的句子相似度計(jì)算方法。通過觀察，并不是所有的詞對(duì)表達(dá)句子的意義都起作用，所以作者根據(jù)單詞的詞性、句子語法結(jié)構(gòu)等提取出關(guān)鍵詞，并給每個(gè)詞賦予不同的權(quán)重，在此基礎(chǔ)上進(jìn)行相似度的計(jì)算；文獻(xiàn)從信息檢索的角度，對(duì)短文本的表示和相似性度量進(jìn)行了分析，并對(duì)各種不同的度量方法進(jìn)行了對(duì)比，包括基于字典的相似度度量、基于詞干化和語言模型的相似性度量，并對(duì)各種不同的方法進(jìn)行了實(shí)驗(yàn)，分析了各種方法的優(yōu)勢(shì)和不足。

　　4.2.2 短文本分類

由于微博、在線論壇每時(shí)每刻都產(chǎn)生大量的數(shù)據(jù)，這些豐富的數(shù)據(jù)一方面給人們帶來了更大的選擇空間，但是面對(duì)海量信息，人們?nèi)绾芜M(jìn)行有選擇的閱讀卻遇到了前所未有的巨大挑戰(zhàn)。因此對(duì)于海量短文本的重新組織分析就顯得非常有必要，分類分析是信息挖掘中最重要和最基本的技術(shù)之一。

目前短文本的分類算法主要基于有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)必須對(duì)訓(xùn)練樣本進(jìn)行手工標(biāo)注，并且為了確保分類的可擴(kuò)展性，往往需要標(biāo)注大量的樣本作為訓(xùn)練集。然而大量樣本的標(biāo)注費(fèi)時(shí)費(fèi)力，特別是在短文本當(dāng)中，由于其海量性、不規(guī)范性，短文本中的標(biāo)注問題更為突出。

文獻(xiàn)主要針對(duì)短文本的稀疏性和描述信號(hào)弱的特點(diǎn)，提出了一種基于特征擴(kuò)展的中文短文本分類方法。該方法主要利用關(guān)聯(lián)規(guī)則挖掘算法挖掘訓(xùn)練集特征項(xiàng)和測(cè)試集特征項(xiàng)之間的共現(xiàn)關(guān)系，然后利用得到的關(guān)聯(lián)規(guī)則對(duì)測(cè)試文檔集中的詞語進(jìn)行特征擴(kuò)展，在此基礎(chǔ)上進(jìn)行短文本分類；文獻(xiàn)針對(duì)短文本的稀疏性特點(diǎn)，提出了另外一種新的解決方法，針對(duì)每一個(gè)特定領(lǐng)域的分類問題，首先選擇一個(gè)足夠大規(guī)模的外部數(shù)據(jù)源，并從中發(fā)現(xiàn)其中的隱含主題，最后利用這些隱含主題和小規(guī)模的標(biāo)注訓(xùn)練集進(jìn)行分類；文獻(xiàn)中指出獨(dú)立主成分分析(ICA)在很多情況下能夠改善文本分類的效果，但是由于短文本的稀疏性，它們之間相同的詞很少，所以直接在短文本上進(jìn)行獨(dú)立主成分分析效果不佳�；诖�，作者利用潛在語義分析(LSA)對(duì)短文本進(jìn)行數(shù)據(jù)預(yù)處理，然后在此基礎(chǔ)上再利用主成分分析，取得了不錯(cuò)的效果；文獻(xiàn)主要解決的是Twitter消息的分類問題，作者通過一定的算法，把每個(gè)Twitter消息映射到最相似的Wikipedia頁面上，然后利用此頁面來代表Twitter消息，并進(jìn)行分類，實(shí)驗(yàn)表明該方法比單純的基于字符串編輯距離或LSA的效果好；以往的分類研究中每一個(gè)短文本只賦予一個(gè)類別，而實(shí)際上，一個(gè)文本有可能包含多個(gè)不同的主題，文獻(xiàn)主要研究了短文本的多值分類問題；為了能夠?qū)Ａ縏witter消息進(jìn)行重新組織，便于用戶選擇和瀏覽，文獻(xiàn)針對(duì)Twitter消息的特點(diǎn)提出了一個(gè)新的分類方案。作者首先通過觀察和分析，利用貪婪算法選擇了8個(gè)特征，并將這8個(gè)特征和傳統(tǒng)的詞袋子方法進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果表明作者提出的方法具有較高的準(zhǔn)確性。

　　4.3 基于WordNet的移動(dòng)應(yīng)用匹配

該方法主要是基于移動(dòng)應(yīng)用的描述信息計(jì)算相似度，把每一個(gè)App看成是一個(gè)由描述信息表示的文檔，利用傳統(tǒng)的向量空間模型(VSM）；進(jìn)行計(jì)算。為了解決文檔一詞頻矩陣的稀疏性問題，可利用語義詞典WordNet來擴(kuò)充App的描述信息。具體實(shí)現(xiàn)過程如下：

a1 ，a2 ，...，am分別表示m個(gè)App的描述信息，描述信息經(jīng)過分詞、去除停用詞和詞干化等處理以后，共得到由N個(gè)不同的詞組成的集合T={t1，t2，...，tn}，丨T丨=N；最后得到文檔詞頻矩陣W。

文檔詞頻矩陣W

　　其中，每一行代表一個(gè)App，每一列代表一個(gè)單詞，每一元素wij，表示第i個(gè)App描述中的權(quán)重，計(jì)算方法如下：

第i個(gè)APP計(jì)算方法

　　然后基于WordNet，計(jì)算詞與詞之間的語義相似度，得到詞語的相似度矩陣Q。

相似度矩陣Q

公式4

通過上述運(yùn)算，文檔一詞頻矩陣的非零元素增多，稀疏度降低。App之間的相似度在轉(zhuǎn)換后的向量空間中利用式(5)進(jìn)行計(jì)算。

公式5

我們?nèi)斯?gòu)建了一個(gè)小規(guī)模的測(cè)試數(shù)據(jù)集，對(duì)100個(gè)App進(jìn)行了人工判斷，發(fā)現(xiàn)其中共有89對(duì)相似的App，對(duì)此分別利用VSM模型和基于WordNet的VSM模型進(jìn)行計(jì)算。實(shí)驗(yàn)結(jié)果用準(zhǔn)確率、召回率、F-1進(jìn)行衡量。

從圖2可以看出，利用語義詞典WordNet可以增加App之間的相似度，從而提高了召回率，但是準(zhǔn)確率卻大大下降。通過分析，準(zhǔn)確率下降的主要原因是由于App描述信息中存在噪音數(shù)據(jù)。因此單純利用語義詞典無法很好地解決App的相似度計(jì)算問題，必須想辦法消除App描述中的噪音信息。

圖2 基于WordNet的移動(dòng)應(yīng)用匹配

　　4.4 基于特征詞提取的移動(dòng)應(yīng)用匹配

為了改善移動(dòng)應(yīng)用匹配的效果，需要識(shí)別出App描述信息中的特征詞，這些特征詞能夠體現(xiàn)App的功能，從而把描述信息中的非功能性信息或者噪音數(shù)據(jù)過濾掉。通過深人觀察分析，我們選擇5個(gè)特征作為判斷一個(gè)詞是否是特征詞的依據(jù)，分別是termPOS， locInDes， isNameTerm， locRelative-ToName，termFreq，具體說明如表3所示。

表3 特征詞列表

我們把特征詞的判斷問題看成是一個(gè)分類問題，主要通過以下幾個(gè)步驟實(shí)現(xiàn)：(1)針對(duì)l00個(gè)App的描述信息進(jìn)行手工標(biāo)注，一共標(biāo)注了2625個(gè)單詞，如果某個(gè)單詞在一個(gè)App中是特征詞，則標(biāo)注為1，否則標(biāo)注為0；(2)計(jì)算出每個(gè)單詞的所有的特征值；(3)以這些標(biāo)注數(shù)據(jù)作為訓(xùn)練集，得到一個(gè)分類模型；(4)利用該分類模型去判斷其他的詞是否是特征詞。

特征詞分類實(shí)驗(yàn)設(shè)置：在2625個(gè)標(biāo)注數(shù)據(jù)中選擇2525個(gè)作為訓(xùn)練集，100個(gè)作為測(cè)試集，分別采用樸素貝葉斯(Naive Bayesian)和支持向量機(jī)(SVM)方法進(jìn)行實(shí)驗(yàn)，分類結(jié)果如表4所示。

表4 分類正確率

從表4我們可以看出，樸素貝葉斯分類的正確率比較低，另外去除locInDes之后利用SVM分類，正確率最高，也就是說locInDes對(duì)于特征詞的判斷具有一定的負(fù)面作用，但對(duì)于最終的App相似度計(jì)算結(jié)果的影響還不確定，所以我們采用SVM方法分別在所有特征和去除locInDes以后的子集上進(jìn)行了實(shí)驗(yàn)。最后以所有的特征詞為向量空間來計(jì)算App的相似度，實(shí)驗(yàn)結(jié)果表明，取得了較好的效果。

從圖3可以看出，經(jīng)過特征詞提取以后，準(zhǔn)確率和召回率均有所提高，并且在不考慮locInDes的情況下效果更好，說明單詞在描述中的位置對(duì)單詞是否是特征詞沒有太大貢獻(xiàn)，并且對(duì)相似度計(jì)算具有負(fù)面影響。

圖3 基于特征詞提取的移動(dòng)應(yīng)用匹配

上述兩種方法都是基于App的描述信息進(jìn)行計(jì)算的，以后將把App的名稱、類別及其他相關(guān)信息也考慮進(jìn)去，效果可能會(huì)更好。

　　5.移動(dòng)應(yīng)用推薦與搜索

隨著移動(dòng)應(yīng)用數(shù)量的不斷增加，如何幫助用戶快速找到想要的應(yīng)用成了一個(gè)亟待解決的問題，部分學(xué)者對(duì)移動(dòng)應(yīng)用的推薦技術(shù)進(jìn)行了研究。Shi等人首先分析了傳統(tǒng)推薦模型存在的不足之處，如以記憶為基礎(chǔ)(Memory-based Models)的協(xié)同過濾模型(包括以用戶為基礎(chǔ)的協(xié)同過濾和以項(xiàng)目為基礎(chǔ)的協(xié)同過濾)對(duì)經(jīng)常出現(xiàn)或比較流行的項(xiàng)目推薦效果比較好，但是對(duì)于使用不是很頻繁的項(xiàng)目推薦效果比較差；隱語義模型( Latent Factor Models)的推薦準(zhǔn)確率比較低。針對(duì)上述兩種推薦模型存在的不足之處，作者提出了一種新的推薦模型—基于主成分分析的模型(PCA-based model)。該模型首先利用主成分分析技術(shù)從數(shù)據(jù)中找到主要的特征，然后在主要特征的基礎(chǔ)上再利用協(xié)同過濾模型進(jìn)行推薦。其主要優(yōu)點(diǎn)是對(duì)于不是很流行的移動(dòng)應(yīng)用具有較好的推薦準(zhǔn)確率。Woerndl等人針對(duì)移動(dòng)應(yīng)用提出了一種基于情景感知的混合推薦系統(tǒng)。該推薦系統(tǒng)以傳統(tǒng)的協(xié)同過濾技術(shù)為基礎(chǔ)，把情景因素考慮進(jìn)來，從用戶、項(xiàng)目和情景3個(gè)維度進(jìn)行計(jì)算，大大提高了推薦準(zhǔn)確率。但是目前考慮的情景還比較少，主要是依據(jù)其他用戶在某個(gè)位置的移動(dòng)應(yīng)用安裝和使用情況進(jìn)行推薦，以后將考慮更多的情景因素。Karatzoglou等人結(jié)合情景信息，也提出了一個(gè)新的移動(dòng)應(yīng)用推薦模型Djinn模型，該模型主要考慮是把隱式反饋數(shù)據(jù)考慮進(jìn)來，利用張量分解技術(shù)對(duì)Djinn模型進(jìn)行優(yōu)化，實(shí)驗(yàn)結(jié)果表明Djinn模型的平均準(zhǔn)確率(MAP)要比不考慮情景信息的模型高出28%。Yin等人認(rèn)為移動(dòng)應(yīng)用的推薦和其他領(lǐng)域的推薦有一個(gè)不同之處在于：除了推薦用戶感興趣的移動(dòng)應(yīng)用外，還需要針對(duì)用戶已經(jīng)有的移動(dòng)應(yīng)用推薦可以替代的、新的移動(dòng)應(yīng)用。Yin等人認(rèn)為已有的移動(dòng)應(yīng)用擁有一個(gè)實(shí)際滿意度值A(chǔ)V(Actual Satisfactory Value)，新的移動(dòng)應(yīng)用擁有一個(gè)吸引度值TV(Tempting Value)，用戶是否更換舊的應(yīng)用，取決于AV和TV的大小。作者以用戶的使用日志為基礎(chǔ)數(shù)據(jù)，把AV和TV作為兩個(gè)隱含參數(shù)，提出了一個(gè)AT模型，計(jì)算出每個(gè)應(yīng)用的AV和TV值，并設(shè)計(jì)了AT排序函數(shù)。實(shí)驗(yàn)表明，AT模型的推薦效果遠(yuǎn)好于傳統(tǒng)的協(xié)同過濾技術(shù)和以內(nèi)容為基礎(chǔ)的過濾技術(shù)，如果能將AT模型和其他模型相結(jié)合，效果會(huì)更好。Yan等人認(rèn)為以往的移動(dòng)應(yīng)用推薦系統(tǒng)大都利用用戶的下載歷史和用戶評(píng)價(jià)，實(shí)際上用戶下載了一個(gè)應(yīng)用，并不能真正代表用戶，而用戶的評(píng)價(jià)往往又比較稀疏，推薦效果不佳。因此他們把用戶的使用日志數(shù)據(jù)和基于項(xiàng)目的協(xié)同過濾技術(shù)相結(jié)合，提出了一種個(gè)性化的移動(dòng)應(yīng)用推薦技術(shù)AppJoy。 Zhu等人對(duì)移動(dòng)應(yīng)用的分類問題進(jìn)行了研究。為了提高分類的準(zhǔn)確性，作者對(duì)移動(dòng)應(yīng)用的特征信息進(jìn)行了擴(kuò)展：一是利用搜索引擎來擴(kuò)展文本特征；二是從用戶的使用記錄中提取情景特征，最后把這些特征綜合起來，利用最大熵模型訓(xùn)練出了一個(gè)移動(dòng)應(yīng)用分類器。實(shí)驗(yàn)結(jié)果表明其分類準(zhǔn)確率要高于基于詞向量的應(yīng)用分類器(Word Vector based App Classifier)和基于隱含主題的應(yīng)用分類器。

隨著移動(dòng)應(yīng)用數(shù)量的不增加，移動(dòng)應(yīng)用搜索將越來越重要。移動(dòng)應(yīng)用搜索與傳統(tǒng)的Web搜索有相似之處，但也有特殊之處。移動(dòng)應(yīng)用搜索對(duì)搜索結(jié)果的質(zhì)量要求更高，需要返回最能夠滿足用戶需求的少數(shù)應(yīng)用，而不需要返回大量的結(jié)果；另外在移動(dòng)應(yīng)用搜索中，傳統(tǒng)的以關(guān)鍵詞為基礎(chǔ)的搜索技術(shù)無法滿足新的查詢需求，因?yàn)橛脩敉荒軌驕?zhǔn)確給出應(yīng)用的名稱，只能大概給出應(yīng)用的功能、特點(diǎn)，在這種情況下，如何能夠準(zhǔn)確分析出用戶的查詢意圖并提供滿意的結(jié)果將變得非常具有挑戰(zhàn)性；移動(dòng)應(yīng)用搜索結(jié)果的排名也有特殊之處，除了考慮搜索結(jié)果與用戶查詢之間的相關(guān)性之外，還需要考慮應(yīng)用的質(zhì)量、受歡迎程度等其他因素。因此，功能搜索或者是語義搜索將是解決移動(dòng)應(yīng)用搜索的一個(gè)有效途徑。但是目前還沒有比較好的解決方案。

　　6.移動(dòng)應(yīng)用集成面臨的挑戰(zhàn)

目前，關(guān)于移動(dòng)應(yīng)用集成技術(shù)的研究還處于剛剛起步階段，并且由于移動(dòng)應(yīng)用本身的特點(diǎn)，在移動(dòng)應(yīng)用集成中存在一系列挑戰(zhàn)，主要包括多源信息集成、功能信息抽取和建模、移動(dòng)應(yīng)用匹配和移動(dòng)應(yīng)用排名等。

　　6.1 多源信息集成

移動(dòng)應(yīng)用集成的數(shù)據(jù)對(duì)象除了移動(dòng)應(yīng)用的基本屬性之外，還包括與移動(dòng)應(yīng)用相關(guān)的其他動(dòng)態(tài)信息：用戶信息、用戶評(píng)論、社交網(wǎng)絡(luò)中的分享信息等。這些信息對(duì)改善移動(dòng)應(yīng)用的搜索和推薦效果具有重要作用。然而這些信息往往存在于不同的數(shù)據(jù)源中，如移動(dòng)應(yīng)用的基本屬性信息大都存在于各大應(yīng)用商店或者部分移動(dòng)應(yīng)用集成網(wǎng)站，而相關(guān)的用戶評(píng)論、社交網(wǎng)絡(luò)分享信息等則存在于其他網(wǎng)站中，不同的數(shù)據(jù)源具有不同的頁面結(jié)構(gòu)，如何設(shè)計(jì)具有自適應(yīng)能力的抽取方法是一個(gè)巨大的挑戰(zhàn)。其次移動(dòng)應(yīng)用相關(guān)的數(shù)據(jù)源大都具有Web2.0的特征，所以數(shù)據(jù)源中頁面的結(jié)構(gòu)經(jīng)常會(huì)發(fā)生變化，如何使得數(shù)據(jù)抽取方法在頁面結(jié)構(gòu)發(fā)生變化時(shí)仍能夠繼續(xù)工作也是一個(gè)重要的研究?jī)?nèi)容。關(guān)于多源信息的集成，部分學(xué)者已經(jīng)做了研究。Spiegel等人和Szomszo：等人為了改善電影推薦效果，嘗試將IMDB和Netflix的數(shù)據(jù)進(jìn)行集成。IMDB是一個(gè)在線的電影信息共享網(wǎng)站，它允許用戶對(duì)影片添加標(biāo)簽，來描述影片的演員信息、情節(jié)、故事地點(diǎn)等。NetFlix是一個(gè)在線視頻租賃網(wǎng)站，用戶可以對(duì)看過的視頻打分。Spiegel等人和SZOITISZO：等人將IMDB的標(biāo)簽信息和Netflix的打分信息進(jìn)行集成，大大提高了推薦的效果。

　　6.2 功能信息抽取與建模

功能信息抽取也是一個(gè)極具挑戰(zhàn)性的問題，對(duì)移動(dòng)應(yīng)用的搜索效果具有重要影響。傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)可以從半結(jié)構(gòu)化數(shù)據(jù)中抽取出與應(yīng)用相關(guān)的屬性信息，如名稱、類別、描述、價(jià)格等；但是移動(dòng)應(yīng)用的功能性信息更為重要，比如應(yīng)用能實(shí)現(xiàn)哪些功能?做得怎么樣?如何使用等?這些功能性信息是功能搜索的基礎(chǔ)，對(duì)提高功能搜索的質(zhì)量至關(guān)重要。然而，功能性信息往往隱藏在移動(dòng)應(yīng)用的描述信息、用戶評(píng)論等非結(jié)構(gòu)化信息中，傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)無法從非結(jié)構(gòu)化信息中抽取相應(yīng)的結(jié)構(gòu)化信息。雖然已經(jīng)有一些自然語言處理的相關(guān)技術(shù)可以從非結(jié)構(gòu)化信息中進(jìn)行信息提取，但是還不能直接應(yīng)用于此，主要原因在于移動(dòng)應(yīng)用的描述信息以及相關(guān)用戶評(píng)論等具有自己的特點(diǎn)，如文本短小、語法不規(guī)則等。

移動(dòng)應(yīng)用集成的主要目的之一就是提供高質(zhì)量的搜索服務(wù)，使用戶能夠得到真正滿足實(shí)際需求的結(jié)果。移動(dòng)應(yīng)用搜索和傳統(tǒng)搜索的最大區(qū)別在于：傳統(tǒng)搜索主要是以關(guān)鍵詞匹配為主，而關(guān)鍵詞匹配在移動(dòng)應(yīng)用搜索中效果非常不好，目前幾大移動(dòng)應(yīng)用商店提供的搜索功能都不能令人滿意。目前已有很多公司涉足App搜索市場(chǎng)，如提供功能搜索的App搜索引擎Quixey，百度也推出了App搜索平臺(tái)。但是目前各公司所采用的App搜索技術(shù)并沒有對(duì)外公布，學(xué)術(shù)界關(guān)于App搜索還沒有相關(guān)的研究。人們?cè)谒阉鲬?yīng)用時(shí)往往不知道其準(zhǔn)確名字，希望搜索出能夠完成某種任務(wù)、具備某種功能的軟件，如觀看NBA比賽、視頻編輯、尋找最近的超市等，針對(duì)這些查詢，傳統(tǒng)搜索無法提供很好的結(jié)果。功能建模是解決這一問題的核心。

功能建模的主要目的是提供高質(zhì)量的搜索服務(wù)，能夠?qū)崿F(xiàn)基于功能的搜索。在數(shù)據(jù)抽取階段，通過各種抽取技術(shù)，得到了移動(dòng)應(yīng)用的基本屬性信息、功能信息、評(píng)論信息以及用戶數(shù)據(jù)，功能建模主要是以功能為核心，設(shè)計(jì)一種合適的數(shù)據(jù)模型，把上述各種信息進(jìn)行有效的表示、組織與存儲(chǔ)，數(shù)據(jù)空間技術(shù)和語義網(wǎng)技術(shù)是功能建�？梢越梃b和參考的兩個(gè)技術(shù)；同時(shí)，為了提高搜索的效率，必須根據(jù)新的數(shù)據(jù)模型的特點(diǎn)設(shè)計(jì)高效的索引策略。

　　6.3 移動(dòng)應(yīng)用匹配

移動(dòng)應(yīng)用匹配主要是用來判斷兩個(gè)應(yīng)用程序在功能上是否相似，是實(shí)現(xiàn)移動(dòng)應(yīng)用遷移、移動(dòng)應(yīng)用推薦的基礎(chǔ)，是一個(gè)重要的研究?jī)?nèi)容，有很多的應(yīng)用場(chǎng)景。

移動(dòng)應(yīng)用匹配與實(shí)體識(shí)別具有一定的相似性。實(shí)體識(shí)別主要用來判斷兩個(gè)不同的數(shù)據(jù)記錄是否代表同一個(gè)實(shí)體，目前已經(jīng)有大量的相關(guān)研究工作。按照所使用的技術(shù)不同可以分為以下幾類：概率匹配模型、監(jiān)督和半監(jiān)督學(xué)習(xí)方法、主動(dòng)學(xué)習(xí)技術(shù)、基于距離的技術(shù)、基于規(guī)則的方法和無監(jiān)督學(xué)習(xí)的方法。實(shí)體識(shí)別主要是基于實(shí)體的屬性信息進(jìn)行相似度比較，而移動(dòng)應(yīng)用匹配過程中，除了考慮屬性信息的相似度之外，應(yīng)用程序的功能相似度更為重要，所以傳統(tǒng)的實(shí)體識(shí)別技術(shù)并不能直接應(yīng)用于移動(dòng)應(yīng)用匹配。

首先，屬性選擇是移動(dòng)應(yīng)用匹配的首要任務(wù)。每個(gè)應(yīng)用都有很多屬性信息，如名稱、類別、機(jī)型、價(jià)格、功能描述等，然而并不是所有的屬性都對(duì)應(yīng)用匹配起正面作用，所以需要從眾多的屬性中選出能反映應(yīng)用功能相似性的屬性；

其次，短文本的相似度計(jì)算也是一個(gè)極具挑戰(zhàn)性的研究?jī)?nèi)容。目前已經(jīng)有一些研究者對(duì)網(wǎng)絡(luò)短文本進(jìn)行了一些研究，包括基于語義的方法、基于概率主題模型的方法、基于特征擴(kuò)展的方法等Czar。但是這些方法并沒有考慮移動(dòng)應(yīng)用描述信息的特定表達(dá)方式，所以無法取得較好的計(jì)算效果。

另外，在進(jìn)行移動(dòng)應(yīng)用匹配的過程中，除了考慮應(yīng)用本身的功能相似性之外，往往還需要考慮用戶的使用習(xí)慣、個(gè)人愛好等信息；同時(shí)還需要考慮應(yīng)用與用戶已有的應(yīng)用之間的相互協(xié)作關(guān)系，應(yīng)用彼此之間的相互影響等。從而為用戶提供更加智能和完善的服務(wù)。

　　6.4 移動(dòng)應(yīng)用排名

在移動(dòng)應(yīng)用集成系統(tǒng)中，最終的目的是為用戶提供移動(dòng)應(yīng)用的搜索和推薦服務(wù)，因此移動(dòng)應(yīng)用的排名也是一個(gè)重要的研究問題。應(yīng)用的排名除了考慮與查詢關(guān)鍵詞的匹配程度之外，還需要考慮其他相關(guān)信息，如用戶的偏好、用戶查詢意圖等，需要將這些信息綜合考慮，設(shè)計(jì)一個(gè)合理有效的排名函數(shù)。同時(shí)由于網(wǎng)絡(luò)信息具有時(shí)變性，現(xiàn)在被用戶喜愛的應(yīng)用，隨著時(shí)間的推移可能變得不那么受人喜愛，應(yīng)用的排名可能也會(huì)隨時(shí)間發(fā)生變化，所以如何對(duì)這些信息進(jìn)行動(dòng)態(tài)的更新維護(hù)，也是一個(gè)頗具挑戰(zhàn)性的問題。

　　6.5 移動(dòng)應(yīng)用內(nèi)數(shù)據(jù)集成與搜索

目前本文中所關(guān)注的集成對(duì)象主要是移動(dòng)應(yīng)用的屬性信息以及其他相關(guān)信息，如用戶評(píng)論、社交網(wǎng)絡(luò)分享信息等，這些可以認(rèn)為是移動(dòng)應(yīng)用的外在信息。然而，對(duì)于用戶來講，移動(dòng)應(yīng)用內(nèi)部所包含的內(nèi)容更豐富、價(jià)值更大。如果能夠把眾多移動(dòng)應(yīng)用內(nèi)部的信息有效地集成起來，為用戶提供統(tǒng)一的搜索服務(wù)，對(duì)用戶將具有重要的意義。與傳統(tǒng)的網(wǎng)頁數(shù)據(jù)相比，移動(dòng)應(yīng)用內(nèi)部信息的集成與搜索具有一些新的挑戰(zhàn)。信息獲取比較困難：移動(dòng)應(yīng)用內(nèi)的信息往往被包上了外殼，無法使用傳統(tǒng)的搜索爬蟲技術(shù)直接抓取；數(shù)據(jù)格式的異構(gòu)性：不同的移動(dòng)應(yīng)用，其內(nèi)部的數(shù)據(jù)格式往往不一樣，并且存在大量的噪音數(shù)據(jù)，其數(shù)據(jù)抽取方式與網(wǎng)頁數(shù)據(jù)抽取相比更為復(fù)雜。

　　7.結(jié)束語

目前移動(dòng)互聯(lián)網(wǎng)的流量快速增加，未來必將超過傳統(tǒng)互聯(lián)網(wǎng)，而移動(dòng)應(yīng)用逐漸成為移動(dòng)互聯(lián)網(wǎng)的主要接人方式。為了爭(zhēng)奪用戶，電信運(yùn)營(yíng)商、手機(jī)制造商、互聯(lián)網(wǎng)服務(wù)提供商以及各個(gè)不同的企業(yè)紛紛推出自己的移動(dòng)應(yīng)用，移動(dòng)應(yīng)用數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。然而隨著移動(dòng)應(yīng)用數(shù)量的不斷增加，給移動(dòng)應(yīng)用的搜索和推薦帶來了很大的困難。移動(dòng)應(yīng)用集成是改善移動(dòng)應(yīng)用搜索和推薦效果的一個(gè)有效途徑。目前關(guān)于移動(dòng)應(yīng)用集成，學(xué)術(shù)界還沒有開展系統(tǒng)深人的研究。本文提出了移動(dòng)應(yīng)用集成的基本框架，對(duì)其中的關(guān)鍵技術(shù)如數(shù)據(jù)抽取、移動(dòng)應(yīng)用匹配、移動(dòng)應(yīng)用推薦等進(jìn)行了分析，對(duì)現(xiàn)有的工作進(jìn)行了歸納總結(jié)；最后指出了移動(dòng)應(yīng)用集成中的若干挑戰(zhàn)性問題。未來移動(dòng)應(yīng)用的數(shù)量將持續(xù)增加，成為人們獲取信息的主要途徑，然而其數(shù)量的增加也必將帶來一系列挑戰(zhàn)，有很多問題值得研究。我們對(duì)移動(dòng)應(yīng)用的集成、匹配、推薦等技術(shù)進(jìn)行了分析，希望能為相關(guān)研究人員提供參考。

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：移動(dòng)應(yīng)用集成：框架、技術(shù)與挑戰(zhàn)

本文網(wǎng)址：http://www.ezxoed.cn/html/consultation/10839613327.html

關(guān)鍵詞標(biāo)簽： 移動(dòng)應(yīng)用集成：框架、技術(shù)與挑戰(zhàn),移動(dòng)應(yīng)用移動(dòng)應(yīng)用集成移動(dòng)互聯(lián)網(wǎng) 數(shù)據(jù)抽取,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉庫管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：淺談企業(yè)新一代數(shù)據(jù)中心建設(shè)

下一篇：面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)

相關(guān)文章

管理咨詢

拓步ERP系統(tǒng)軟件平臺(tái)11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺(tái)11.5標(biāo)..

金蝶KIS財(cái)務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財(cái)務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡(jiǎn)體中..

金蝶KIS商貿(mào)高級(jí)版V4.0|破..

金蝶KIS財(cái)務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財(cái)務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺(tái)客戶端安裝培訓(xùn)..

拓步ERP財(cái)務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺(tái)數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺(tái)通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺(tái)采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)報(bào)表系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)財(cái)務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺(tái)應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財(cái)務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺(tái)系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺(tái)系列標(biāo)準(zhǔn)版

拓步ERP財(cái)務(wù)系列迷你版（財(cái)務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺(tái)系列企業(yè)版

拓步ERP平臺(tái)系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識(shí)庫

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP顧問咨詢

ERP原理知識(shí)

ERP實(shí)施培訓(xùn)

CIO技術(shù)專欄

CIO企業(yè)應(yīng)用

CIO網(wǎng)絡(luò)通信

CIO信息安全

CIO基礎(chǔ)設(shè)施

CIO云計(jì)算

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)

猜您喜歡