1.引言
隨著智能手機(jī)和其他移動(dòng)設(shè)備的普及,移動(dòng)互聯(lián)網(wǎng)快速發(fā)展,海量的移動(dòng)應(yīng)用(Mobile Application,App)成了移動(dòng)互聯(lián)網(wǎng)的主要入口。根據(jù)瑞士信貸集團(tuán)估計(jì),到2016年,全球?qū)?huì)有100億部聯(lián)網(wǎng)的移動(dòng)設(shè)備,智能手機(jī)的網(wǎng)絡(luò)流量將會(huì)是今天的50倍,而更多的移動(dòng)設(shè)備也意味著更多的移動(dòng)應(yīng)用。蘋果公司于2008年7月首次推出移動(dòng)應(yīng)用商店AppStore,獲得了巨大成功。2012年10月,應(yīng)用數(shù)量已經(jīng)超過70萬,至2013年5月,官方應(yīng)用商店AppStore的應(yīng)用下載量即將突破500億次。同時(shí),全球移動(dòng)應(yīng)用規(guī)模也在急劇擴(kuò)大,手機(jī)制造商、電信運(yùn)營(yíng)商和互聯(lián)網(wǎng)服務(wù)提供商等紛紛推出自己的移動(dòng)應(yīng)用商店,移動(dòng)應(yīng)用已經(jīng)成為移動(dòng)互聯(lián)網(wǎng)發(fā)展的一種新模式。表1給出了幾個(gè)比較有代表性的移動(dòng)應(yīng)用商店的基本情況。預(yù)計(jì)6月份,Google Play商店的應(yīng)用數(shù)量將超過100萬。目前全球移動(dòng)應(yīng)用數(shù)量的規(guī)模在百萬級(jí)別,與現(xiàn)有的Web網(wǎng)站和Web網(wǎng)頁數(shù)量規(guī)模相比雖然還比較小,但是其現(xiàn)在的數(shù)量規(guī)模已經(jīng)與2000年左右的網(wǎng)站和網(wǎng)頁數(shù)量規(guī)模相當(dāng),并且還在不斷增加之中。長(zhǎng)尾理論提出者、《連線》的Chris Anderson曾提出“Web已死,互聯(lián)網(wǎng)萬歲”,表示隨著iPhone/iPad日漸成為主流計(jì)算終端,人們?cè)絹碓搅?xí)慣于通過移動(dòng)應(yīng)用軟件獲取信息。移動(dòng)應(yīng)用將逐漸超過瀏覽器,成為移動(dòng)互聯(lián)網(wǎng)的主要入口。
表1 移動(dòng)應(yīng)用規(guī)模
面對(duì)數(shù)百萬的移動(dòng)應(yīng)用(未來還將繼續(xù)增加),用戶正面臨著一個(gè)日益嚴(yán)重的挑戰(zhàn):如何才能快速找到自己想要的、適合自己的應(yīng)用?而眾多的移動(dòng)應(yīng)用開發(fā)者也面臨著一個(gè)問題:如何把自己開發(fā)的應(yīng)用推薦給用戶?用戶與應(yīng)用開發(fā)者之間的供需矛盾日益突出。目前解決這一矛盾的方法主要有3種:
(1)移動(dòng)應(yīng)用商店。在移動(dòng)應(yīng)用發(fā)展的早期,移動(dòng)應(yīng)用主要出現(xiàn)在應(yīng)用商店中,如表1中所列出的幾個(gè)主要的應(yīng)用商店。為了便于用戶瀏覽、查找自己所需的移動(dòng)應(yīng)用,各應(yīng)用商店都對(duì)數(shù)據(jù)進(jìn)行了一些處理,包括分類、添加標(biāo)簽等。但是通過分析發(fā)現(xiàn),目前的分類粒度比較粗,一般包含兩個(gè)層次類別,大類數(shù)量在20個(gè)左右,由于應(yīng)用的總體數(shù)量比較大,所以單個(gè)類別下的移動(dòng)應(yīng)用仍然比較多,用戶要想快速定位到自己需要的移動(dòng)應(yīng)用依然很困難;另外不同應(yīng)用商店的分類方式及類別名稱不統(tǒng)一,各商店之間應(yīng)用類別名稱僅有50%左右是一致的;各移動(dòng)應(yīng)用商店所提供的搜索功能大都是基于關(guān)鍵字匹配的簡(jiǎn)單搜索,搜索結(jié)果比較差,無法滿足用戶需求。
(2)第三方移動(dòng)應(yīng)用集成。為了解決移動(dòng)應(yīng)用商店存在的問題,出現(xiàn)了第三方移動(dòng)應(yīng)用集成服務(wù)提供商,其主要工作方式是從不同的應(yīng)用商店中抓取移動(dòng)應(yīng)用信息,并對(duì)抓取到的應(yīng)用信息進(jìn)行進(jìn)一步的處理,如重新分類、去重、添加標(biāo)簽等,在此基礎(chǔ)上提供應(yīng)用瀏覽、搜索功能。
(3)移動(dòng)應(yīng)用搜索與推薦。移動(dòng)應(yīng)用搜索與推薦是幫助用戶快速找到自己所需應(yīng)用的一種有效途徑,目前已經(jīng)有一些相應(yīng)的解決方案。騰訊于2012年6月發(fā)布了海納應(yīng)用搜索,這是一款基于移動(dòng)應(yīng)用功能屬性搜索的引擎。據(jù)騰訊介紹,海納應(yīng)用搜索是專門為用戶提供移動(dòng)應(yīng)用搜索服務(wù)的智能搜索引擎,專注于App搜索以及根據(jù)搜索行為的應(yīng)用推薦,主要滿足用戶自然語言的搜索需求。Quixey是一個(gè)完全自動(dòng)化的移動(dòng)應(yīng)用“功能搜索”引擎,它以文本分析、語義分析技術(shù)為主,提供移動(dòng)應(yīng)用的準(zhǔn)確搜索。Quixey不是簡(jiǎn)單地根據(jù)用戶的描述來進(jìn)行搜索,可以通過Quixey定義的函數(shù)為用戶提供移動(dòng)應(yīng)用搜索和發(fā)現(xiàn)服務(wù)。Quixey從移動(dòng)應(yīng)用商店、論壇、博客、社會(huì)化媒體網(wǎng)站和匿名消息來源抓取移動(dòng)應(yīng)用的相關(guān)信息,并對(duì)這些信息進(jìn)行進(jìn)一步的抽取、分析、集成,從而提供高質(zhì)量的功能搜索服務(wù)。
上述3種方式在一定程度上能夠幫助用戶快速找到自己所需的移動(dòng)應(yīng)用,但還有很大改善和提升的空間。移動(dòng)應(yīng)用集成是解決這一問題的有效途徑。移動(dòng)應(yīng)用集成的主要任務(wù)是研究如何把海量的移動(dòng)應(yīng)用及其相關(guān)信息有效地集成起來,為用戶提供高質(zhì)量的搜索、發(fā)現(xiàn)和推薦服務(wù)。研究?jī)?nèi)容主要包括移動(dòng)應(yīng)用數(shù)據(jù)抽取、功能建模、移動(dòng)應(yīng)用匹配、移動(dòng)應(yīng)用搜索與推薦等。
本文主要對(duì)移動(dòng)應(yīng)用集成中若干關(guān)鍵研究問題的研究現(xiàn)狀進(jìn)行分析總結(jié),并指出未來的主要研究方向。本文第2節(jié)介紹移動(dòng)應(yīng)用集成與傳統(tǒng)Web數(shù)據(jù)集成的異同,提出移動(dòng)應(yīng)用集成基本框架;第3節(jié)對(duì)移動(dòng)應(yīng)用數(shù)據(jù)抽取相關(guān)工作進(jìn)行分析;第4節(jié)和第5節(jié)分別介紹移動(dòng)應(yīng)用匹配和移動(dòng)應(yīng)用推薦技術(shù);第6節(jié)指出若干挑戰(zhàn)性研究問題;最后對(duì)本文內(nèi)容進(jìn)行總結(jié)。
2.移動(dòng)應(yīng)用集成框架
目前關(guān)于移動(dòng)應(yīng)用集成的研究尚處于起步階段,其中在移動(dòng)應(yīng)用數(shù)據(jù)抽取方面大都是基于傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù),偏重于結(jié)構(gòu)化信息的抽取,對(duì)于移動(dòng)應(yīng)用功能信息抽取技術(shù)的研究還比較少;在移動(dòng)應(yīng)用搜索與推薦方面有一些初步研究。本節(jié)首先對(duì)Web數(shù)據(jù)集成進(jìn)行簡(jiǎn)單介紹,對(duì)移動(dòng)應(yīng)用集成和Web數(shù)據(jù)集成技術(shù)進(jìn)行對(duì)比分析,在此基礎(chǔ)上給出移動(dòng)應(yīng)用集成的基本框架。
2.1 Web數(shù)據(jù)集成
關(guān)于Web數(shù)據(jù)集成,大量學(xué)者已經(jīng)作了系統(tǒng)深人的研究,其中劉偉等人對(duì)Deep Web數(shù)據(jù)集成進(jìn)行了綜述,提出了Deep Web數(shù)據(jù)集成框架,把集成過程分成了3個(gè)模塊:查詢接口生成模塊、查詢處理模塊和查詢結(jié)果處理模塊。其中查詢接口生成模塊包括Web數(shù)據(jù)庫發(fā)現(xiàn)、查詢接口模式抽取、Web數(shù)據(jù)庫分類和查詢接口生成4個(gè)子模塊;查詢處理模塊主要包括Web數(shù)據(jù)庫選擇、查詢轉(zhuǎn)換、查詢提交3個(gè)子模塊;查詢結(jié)果處理模塊主要包括結(jié)果抽取、結(jié)果注釋和結(jié)果合并3個(gè)子模塊。文獻(xiàn)分別對(duì)查詢接口模式抽取、查詢接口的集成進(jìn)行了研究;文獻(xiàn)對(duì)Web數(shù)據(jù)庫的選擇、查詢轉(zhuǎn)換相關(guān)技術(shù)進(jìn)行了分析;文獻(xiàn)重點(diǎn)研究了基于視覺的查詢結(jié)果抽取方法。
查詢結(jié)果的處理是Web數(shù)據(jù)集成的核心任務(wù)。查詢結(jié)果處理的主要任務(wù)是把來自于多個(gè)Web數(shù)據(jù)庫的異構(gòu)的數(shù)據(jù)以一個(gè)統(tǒng)一的形式展示給用戶,目前的主要研究工作集中在如何快速準(zhǔn)確地從查詢結(jié)果頁面抽取出結(jié)構(gòu)化的查詢結(jié)果。目前的Web數(shù)據(jù)抽取主要包括以下幾種技術(shù):頁面抽取語言、基于DOM樹的技術(shù)、抽取規(guī)則推導(dǎo)技術(shù)、基于視覺的抽取等。
2.2 移動(dòng)應(yīng)用集成與Web數(shù)據(jù)集成的異同
移動(dòng)應(yīng)用集成與傳統(tǒng)的Web數(shù)據(jù)集成有一些共同點(diǎn),如屬性信息抽取、數(shù)據(jù)融合等,兩者都需要從相應(yīng)的Web頁面中抽取出結(jié)構(gòu)化的屬性信息,對(duì)于不同數(shù)據(jù)源的數(shù)據(jù)需要進(jìn)行消重、融合等。然而,與Web數(shù)據(jù)集成相比,移動(dòng)應(yīng)用集成也有其特殊之處,二者的主要區(qū)別見表2。
表2 Web數(shù)據(jù)集成與移動(dòng)應(yīng)用集成的對(duì)比
2.3 移動(dòng)應(yīng)用集成基本框架
我們針對(duì)移動(dòng)應(yīng)用的特點(diǎn),并結(jié)合現(xiàn)有的數(shù)據(jù)集成技術(shù),提出了移動(dòng)應(yīng)用集成框架,如圖1所示。
圖1 移動(dòng)應(yīng)用集成框架
移動(dòng)應(yīng)用集成主要包括4個(gè)層次:數(shù)據(jù)源、信息抽取、數(shù)據(jù)模型和應(yīng)用。其中數(shù)據(jù)源主要包括眾多的移動(dòng)應(yīng)用商店,以及與移動(dòng)應(yīng)用相關(guān)的各種網(wǎng)絡(luò)數(shù)據(jù)源如用戶數(shù)據(jù)、社交網(wǎng)絡(luò)、用戶評(píng)論、論壇信息等。移動(dòng)應(yīng)用商店主要包括移動(dòng)應(yīng)用的基本屬性信息,該部分信息需要利用相應(yīng)的數(shù)據(jù)抽取技術(shù),從多個(gè)不同的應(yīng)用商店中抽取出具有統(tǒng)一格式的結(jié)構(gòu)化信息,并根據(jù)實(shí)際情況進(jìn)行數(shù)據(jù)消重、數(shù)據(jù)融合等處理。
移動(dòng)應(yīng)用本身的信息是靜態(tài)信息,而用戶數(shù)據(jù)主要是指用戶在使用應(yīng)用程序的過程中所產(chǎn)生的一系列相關(guān)數(shù)據(jù),如用戶的安裝、更新、刪除歷史,用戶使用時(shí)間記錄,用戶在應(yīng)用程序中的資料信息等。通過這些信息可以分析用戶的使用習(xí)慣,了解用戶的潛在需求,從而為用戶提供更好的推薦服務(wù)。但是目前該部分信息因隱私問題,不太容易得到。
隨著Web2.0技術(shù)的發(fā)展,很多用戶都習(xí)慣于在網(wǎng)絡(luò)中分享自己的相關(guān)信息,如用戶可以在Facebook中與好友分享自己所使用的移動(dòng)應(yīng)用程序列表、自己的使用體驗(yàn)、評(píng)價(jià)等;還有一些針對(duì)移動(dòng)應(yīng)用的專業(yè)論壇,可以供用戶之間交流移動(dòng)應(yīng)用的使用信息、對(duì)應(yīng)用的評(píng)價(jià)等,如比較有名的是威鋒網(wǎng)。從這些信息中可以全方位了解移動(dòng)應(yīng)用,分析移動(dòng)應(yīng)用的質(zhì)量、用戶喜愛程度等,對(duì)于提高服務(wù)質(zhì)量具有重要作用。
信息抽取主要是從眾多數(shù)據(jù)源中把與移動(dòng)應(yīng)用相關(guān)的信息抽取出來,主要包括屬性信息抽取、數(shù)據(jù)融合、功能信息抽取和網(wǎng)絡(luò)數(shù)據(jù)抽取等。其中屬性信息抽取主要是把移動(dòng)應(yīng)用相關(guān)的結(jié)構(gòu)化信息抽取出來,如應(yīng)用名稱、類別、適合機(jī)型、價(jià)格等;數(shù)據(jù)融合主要解決不同數(shù)據(jù)源中數(shù)據(jù)的沖突問題;移動(dòng)應(yīng)用集成中的屬性信息抽取技術(shù)和數(shù)據(jù)融合技術(shù)與傳統(tǒng)的Web數(shù)據(jù)集成基本相同。功能信息抽取,主要負(fù)責(zé)從移動(dòng)應(yīng)用的描述信息以及與移動(dòng)應(yīng)用相關(guān)的評(píng)論信息中抽取出應(yīng)用的主要功能,該部分是Web數(shù)據(jù)集成中所沒有考慮或者是沒有必要考慮的內(nèi)容。網(wǎng)絡(luò)數(shù)據(jù)抽取主要指從與移動(dòng)應(yīng)用相關(guān)的各種數(shù)據(jù)源中把所需要的信息抽取出來,如用戶評(píng)論信息、移動(dòng)應(yīng)用的使用排名、用戶的評(píng)分信息等,該部分主要難點(diǎn)在于相關(guān)信息的識(shí)別以及數(shù)據(jù)的動(dòng)態(tài)特性。
模型層主要是把移動(dòng)應(yīng)用的基本屬性信息、能做什么、做得怎么樣、如何使用、用戶評(píng)價(jià)等各種不同的信息以一種合理的方式進(jìn)行建模,并建立高效的索引,以實(shí)現(xiàn)快速和高質(zhì)量的搜索服務(wù)以及其他應(yīng)用需求。
應(yīng)用層主要是在已經(jīng)處理好的移動(dòng)應(yīng)用程序數(shù)據(jù)庫的基礎(chǔ)上提供相應(yīng)的服務(wù),如移動(dòng)應(yīng)用搜索、移動(dòng)應(yīng)用推薦、移動(dòng)應(yīng)用匹配等。
3.移動(dòng)應(yīng)用數(shù)據(jù)抽取
移動(dòng)應(yīng)用數(shù)據(jù)抽取是移動(dòng)應(yīng)用集成的核心任務(wù)之一,同時(shí)也是其他任務(wù)的基礎(chǔ)。在數(shù)據(jù)抽取方面已經(jīng)有大量的研究工作,按照不同的標(biāo)準(zhǔn)可以分類不同的類別。按數(shù)據(jù)來源不同,可以分為基于非結(jié)構(gòu)化數(shù)據(jù)(文本)的抽取和基于半結(jié)構(gòu)化數(shù)據(jù)(Web數(shù)據(jù))的抽;按照自動(dòng)程度不同,可以分為手動(dòng)、半自動(dòng)和全自動(dòng)的數(shù)據(jù)抽取。在移動(dòng)應(yīng)用集成中,屬性信息抽取和功能信息抽取是數(shù)據(jù)抽取模塊的主要目標(biāo)。屬性信息抽取主要是從移動(dòng)應(yīng)用所在的Web網(wǎng)頁中把移動(dòng)應(yīng)用的名字、類別、描述等信息抽取出來,功能數(shù)據(jù)抽取主要是從移動(dòng)應(yīng)用的描述信息、論壇信息及用戶評(píng)論信息中把能夠代表移動(dòng)應(yīng)用功能的主要短語、句子等抽取出來。
目前在Web數(shù)據(jù)抽取方面已經(jīng)有了大量的研究工作,其中劉偉、孟小峰等人W在《Deep Web數(shù)據(jù)集成研究綜述》中對(duì)Web數(shù)據(jù)抽取技術(shù)進(jìn)行了歸納總結(jié),并按照使用技術(shù)的不同進(jìn)行了分類,主要包括基于DOM樹的技術(shù)、基于模式的技術(shù)、頁面抽取語言川和抽取規(guī)則推導(dǎo)技術(shù)等。不過文獻(xiàn)分析的主要是7年以前的技術(shù),我們不再進(jìn)行詳細(xì)介紹,本節(jié)主要對(duì)近幾年提出的一些新的、代表性數(shù)據(jù)抽取技術(shù)進(jìn)行分析。
D-EEM是一種基于DOM樹的Deep Web實(shí)體抽取機(jī)制(DOM-tree based entity extraction mechanism for Deep Web)。 D-EEM采用基于DOM樹的自動(dòng)實(shí)體抽取策略,將實(shí)體抽取過程分為數(shù)據(jù)區(qū)域定位和實(shí)體區(qū)域定位兩個(gè)階段,從而可以在比較精確的范圍內(nèi)進(jìn)行實(shí)體區(qū)域的定位,大大提高了實(shí)體抽取的效率;另外,為了提高實(shí)體抽取的準(zhǔn)確性,在抽取過程中還考慮了DOM樹內(nèi)文本內(nèi)容節(jié)點(diǎn)和元素節(jié)點(diǎn)的特征。田健偉等人、為了能夠完整地提取Deep Web數(shù)據(jù)庫中的記錄,提出了一種基于層次樹的數(shù)據(jù)獲取技術(shù)。該技術(shù)把Web數(shù)據(jù)庫建模成一棵層次樹,這樣Deep Web數(shù)據(jù)的獲取問題就可以轉(zhuǎn)化成樹的遍歷問題。其次通過屬性排序和基于屬性值相關(guān)度的啟發(fā)規(guī)則指導(dǎo)遍歷過程提高遍歷效率。實(shí)驗(yàn)結(jié)果表明該方法具有很好的覆蓋率和較高的提取效率。OXPath對(duì)XPath進(jìn)行了擴(kuò)展,能夠在交互式的網(wǎng)站中支持頁面導(dǎo)航和結(jié)果數(shù)據(jù)的抽取。其最大的特點(diǎn)是能夠模擬用戶的行為,動(dòng)態(tài)獲取頁面的CSS屬性信息,并且每次只需處理當(dāng)前的頁面,所以需要的內(nèi)存空間比較小。
Liu等人困認(rèn)為傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)雖然能夠取得較好的抽取效果,但是大多都依賴于Web頁面編程語言,一旦頁面語言發(fā)生了改變,抽取技術(shù)也得做相應(yīng)的改變。為了克服這方面的限制,Liu等人系統(tǒng)分析了多種結(jié)果頁面的視覺特征,并使用結(jié)果頁的視覺特征來進(jìn)行數(shù)據(jù)記錄和數(shù)據(jù)項(xiàng)的抽取工作,此方法最大的特點(diǎn)是抽取過程與頁面語言種類無關(guān),適合在多語種環(huán)境中的使用。
Ferrara等人從一個(gè)新的角度對(duì)Web數(shù)據(jù)抽取技術(shù)和應(yīng)用進(jìn)行了綜述。以往的綜述論文主要是從數(shù)據(jù)抽取技術(shù)和算法的角度進(jìn)行分類和描述,而Ferrara等人首次從應(yīng)用的角度對(duì)Web數(shù)據(jù)抽取技術(shù)進(jìn)行了分類,深人分析了不同應(yīng)用領(lǐng)域中Web數(shù)據(jù)抽取技術(shù)的相同點(diǎn)和不同點(diǎn)。作者主要從企業(yè)應(yīng)用和社交網(wǎng)絡(luò)應(yīng)用兩個(gè)大的領(lǐng)域進(jìn)行了分析,并指出了不同應(yīng)用領(lǐng)域中數(shù)據(jù)抽取技術(shù)存在的挑戰(zhàn)性問題。
馬安香等人針對(duì)重復(fù)語義標(biāo)注和嵌套屬性的問題,提出了一種基于結(jié)果模式的Deep Web數(shù)據(jù)抽取機(jī)制。該機(jī)制將數(shù)據(jù)抽取工作分為結(jié)果模式生成和數(shù)據(jù)抽取兩個(gè)階段,在結(jié)果模式生成階段進(jìn)行屬性語義標(biāo)注,從而解決了重復(fù)語義標(biāo)注問題;在結(jié)果模式的基礎(chǔ)上提出了一種新的數(shù)據(jù)抽取方法,很好地解決了嵌套屬性問題。
由于移動(dòng)應(yīng)用數(shù)據(jù)往往表達(dá)隨意,具有不規(guī)范性,為了改善移動(dòng)應(yīng)用匹配、推薦的效果,需要從這些不規(guī)范的、短小的移動(dòng)應(yīng)用數(shù)據(jù)中抽取出其主題或關(guān)鍵詞。Zhao等人主要研究如何從Twitter信息中抽取出主題關(guān)鍵短語。Twitter信息一般都比較短,并且噪音比較多,為了提高抽取質(zhì)量,作者利用關(guān)鍵詞排序、關(guān)鍵短語生成和關(guān)鍵短語排序3個(gè)階段來實(shí)現(xiàn)。在關(guān)鍵詞排序中,基于主題敏感傳播算法,對(duì)主題PageRank算法進(jìn)行了改進(jìn);在關(guān)鍵詞排序和關(guān)鍵短語生成的基礎(chǔ)上,設(shè)計(jì)了一個(gè)概率短語評(píng)分函數(shù),最后利用該評(píng)分函數(shù)對(duì)短語進(jìn)行排序,取最前面的若干個(gè)短語作為關(guān)鍵短語。Yu等人提出了一種從商品評(píng)論中進(jìn)行主題抽取的方法。作者首先通過預(yù)處理,抽取出名詞或名詞短語,并把這些名詞和名詞短語作為候選主題;然后計(jì)算這些主題的相對(duì)詞頻,如果相對(duì)詞頻低于某個(gè)闌值,則過濾掉,不進(jìn)行后面的處理;最后針對(duì)每個(gè)候選主題計(jì)算其改進(jìn)的TF-IDF值,如果改進(jìn)的TF-IDF值大于某個(gè)闌值,則該主題就可以作為最后的結(jié)果。另外在進(jìn)行主題抽取的過程中,為了過濾掉冗余的主題,作者提出了一個(gè)主題支持度,如果主題w‘的頻率小于某個(gè)包含wi的短語(wi,wj)的頻率,則wi就可以過濾掉,只把wiwj作為一個(gè)候選主題。
4.移動(dòng)應(yīng)用匹配
據(jù)我們調(diào)研,目前還沒有關(guān)于移動(dòng)應(yīng)用集成相關(guān)技術(shù)的系統(tǒng)性研究工作,隨著移動(dòng)應(yīng)用的普及及數(shù)量的不斷增加,對(duì)于移動(dòng)應(yīng)用集成的研究具有前瞻性和必要性。移動(dòng)應(yīng)用集成中有很多關(guān)鍵性問題需要研究,如信息抽取技術(shù)、數(shù)據(jù)融合、實(shí)體識(shí)別、自動(dòng)推薦、應(yīng)用匹配等。而移動(dòng)應(yīng)用匹配在移動(dòng)應(yīng)用集成中具有重要意義,是信息集成、推薦和搜索的基礎(chǔ)。所以,目前我們主要針對(duì)移動(dòng)應(yīng)用匹配問題進(jìn)行研究。
4.1 移動(dòng)應(yīng)用屬性特點(diǎn)
在移動(dòng)應(yīng)用匹配過程中,我們主要是基于移動(dòng)應(yīng)用屬性來計(jì)算其相似度。通過觀察我們發(fā)現(xiàn)移動(dòng)應(yīng)用的名稱、描述信息都具有一些特點(diǎn)。
移動(dòng)應(yīng)用名稱:功能相似的移動(dòng)應(yīng)用名稱往往包含相同的詞,或者包含同義詞,有些名稱中包含一些復(fù)合詞如autolock, shake2mutecall,有些名稱中的詞不是一個(gè)有效的英語單詞,僅僅是一個(gè)標(biāo)識(shí)如Okotag,Barcode Scanner。
描述信息的短文本特性:描述信息與傳統(tǒng)的文本文檔不同,一般都比較短,由若干個(gè)句子組成,可以視為短文本。因此,描述信息中單詞的共現(xiàn)概率比較低,即使是功能相似的移動(dòng)應(yīng)用,可能都不包含共同的詞匯或者相同的詞比較少。由此得到的文本特征矩陣就比較稀疏,所以傳統(tǒng)的向量空間模型無法很好地根據(jù)移動(dòng)應(yīng)用的描述信息計(jì)算其相似度;另外,據(jù)我們觀察發(fā)現(xiàn),由于移動(dòng)應(yīng)用的描述信息一般都是由開發(fā)者提供的,所以描述信息的撰寫非常不規(guī)范,往往包含很多非功能性描述或者說是噪音數(shù)據(jù),如廣告信息、用戶操作指南、平臺(tái)要求等,這些非功能性描述對(duì)于計(jì)算移動(dòng)應(yīng)用的相似度具有很大的負(fù)面影響。因此,為了提高移動(dòng)應(yīng)用相似度計(jì)算的準(zhǔn)確性,我們必須解決稀疏性和噪音問題。
本節(jié)后面的內(nèi)容主要對(duì)短文本分析的相關(guān)技術(shù)和兩種移動(dòng)應(yīng)用匹配方法進(jìn)行分析。
4.2 短文本分析
目前已經(jīng)有很多學(xué)者針對(duì)短文本進(jìn)行了大量的研究工作,如短文本的主題發(fā)現(xiàn)、短文本的情感分析、短文本相似度計(jì)算、分類、聚類等。其中短文本相似度計(jì)算和短文本分類技術(shù)對(duì)移動(dòng)應(yīng)用匹配有重要的指導(dǎo)意義,所以本文對(duì)最近關(guān)于短文本相似度計(jì)算和短文本分類技術(shù)方面的研究進(jìn)行分析總結(jié)。
4.2.1 短文本相似度計(jì)算
短文本相似度計(jì)算的主要任務(wù)是用來判斷不同的短文本描述之間的相似程度,短文本的相似度越高,說明短文本表達(dá)的意思或觀點(diǎn)越相似。短文本相似度計(jì)算是短文本分析的基礎(chǔ)工作,是分類、聚類和主題發(fā)現(xiàn)的重要技術(shù)之一。
文獻(xiàn)主要提出了一種基于概率主題生成模型的短文本相似度計(jì)算方法。核心思想是,對(duì)于兩個(gè)待比較的短文本而言,把它們分成兩部分,一部分是相同的單詞,另一部分是不同的單詞;然后在一個(gè)給定的短文本集合中,基于LDA模型,利用GibbsSampling方法找出隱含主題及主題的概率分布;接下來在發(fā)現(xiàn)的主題分布上計(jì)算不同單詞的相似度;最后把兩者相結(jié)合計(jì)算總體相似度。該方法能夠在一定程度上解決短文本的稀疏性問題,但是其中也存在一些挑戰(zhàn),如隱含主題的個(gè)數(shù)如何確定,相似度的間值如何判斷等;文獻(xiàn)主要針對(duì)短文本的稀疏性特點(diǎn),提出了一種擴(kuò)充短文本信息的方法。對(duì)于每一個(gè)短文本,構(gòu)造一個(gè)查詢,提交給搜索引擎,然后利用搜索引擎返回的結(jié)果來代表短本,這樣就可以大大擴(kuò)充短文本的信息,同時(shí)作者提出了一種相似度核函數(shù),用來計(jì)算短文本之間的相似度,具有較好的準(zhǔn)確性和可擴(kuò)展性;文獻(xiàn)主要是解決句子之間的相似度計(jì)算問題,傳統(tǒng)的計(jì)算方法不具有較好的擴(kuò)展性,作者提出了一種基于語義網(wǎng)絡(luò)和統(tǒng)計(jì)分析相結(jié)合的方法,具有較好的自適應(yīng)性;文獻(xiàn)把短文本的語義信息和統(tǒng)計(jì)信息相結(jié)合,提出了一種新的短文本模型方法。主要有3個(gè)步驟:首先基于語義詞典如WordNet計(jì)算出初始的詞相似度矩陣;然后以此為基礎(chǔ),對(duì)詞相似度和短文本相似度進(jìn)行迭代計(jì)算,直至收斂;最后利用得到的詞相似度矩陣對(duì)原來的文檔一詞頻矩陣進(jìn)行修正,映射到新的向量空間中,并在新的向量空間中進(jìn)行短文本相似度的計(jì)算,實(shí)驗(yàn)表明取得了較好的效果;文獻(xiàn)對(duì)現(xiàn)有的句子相似度的計(jì)算方法進(jìn)行了分析,包括語法相似度、語義相似度和語用相似度,并提出一種新的基于關(guān)鍵詞提取的句子相似度計(jì)算方法。通過觀察,并不是所有的詞對(duì)表達(dá)句子的意義都起作用,所以作者根據(jù)單詞的詞性、句子語法結(jié)構(gòu)等提取出關(guān)鍵詞,并給每個(gè)詞賦予不同的權(quán)重,在此基礎(chǔ)上進(jìn)行相似度的計(jì)算;文獻(xiàn)從信息檢索的角度,對(duì)短文本的表示和相似性度量進(jìn)行了分析,并對(duì)各種不同的度量方法進(jìn)行了對(duì)比,包括基于字典的相似度度量、基于詞干化和語言模型的相似性度量,并對(duì)各種不同的方法進(jìn)行了實(shí)驗(yàn),分析了各種方法的優(yōu)勢(shì)和不足。
4.2.2 短文本分類
由于微博、在線論壇每時(shí)每刻都產(chǎn)生大量的數(shù)據(jù),這些豐富的數(shù)據(jù)一方面給人們帶來了更大的選擇空間,但是面對(duì)海量信息,人們?nèi)绾芜M(jìn)行有選擇的閱讀卻遇到了前所未有的巨大挑戰(zhàn)。因此對(duì)于海量短文本的重新組織分析就顯得非常有必要,分類分析是信息挖掘中最重要和最基本的技術(shù)之一。
目前短文本的分類算法主要基于有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)必須對(duì)訓(xùn)練樣本進(jìn)行手工標(biāo)注,并且為了確保分類的可擴(kuò)展性,往往需要標(biāo)注大量的樣本作為訓(xùn)練集。然而大量樣本的標(biāo)注費(fèi)時(shí)費(fèi)力,特別是在短文本當(dāng)中,由于其海量性、不規(guī)范性,短文本中的標(biāo)注問題更為突出。
文獻(xiàn)主要針對(duì)短文本的稀疏性和描述信號(hào)弱的特點(diǎn),提出了一種基于特征擴(kuò)展的中文短文本分類方法。該方法主要利用關(guān)聯(lián)規(guī)則挖掘算法挖掘訓(xùn)練集特征項(xiàng)和測(cè)試集特征項(xiàng)之間的共現(xiàn)關(guān)系,然后利用得到的關(guān)聯(lián)規(guī)則對(duì)測(cè)試文檔集中的詞語進(jìn)行特征擴(kuò)展,在此基礎(chǔ)上進(jìn)行短文本分類;文獻(xiàn)針對(duì)短文本的稀疏性特點(diǎn),提出了另外一種新的解決方法,針對(duì)每一個(gè)特定領(lǐng)域的分類問題,首先選擇一個(gè)足夠大規(guī)模的外部數(shù)據(jù)源,并從中發(fā)現(xiàn)其中的隱含主題,最后利用這些隱含主題和小規(guī)模的標(biāo)注訓(xùn)練集進(jìn)行分類;文獻(xiàn)中指出獨(dú)立主成分分析(ICA)在很多情況下能夠改善文本分類的效果,但是由于短文本的稀疏性,它們之間相同的詞很少,所以直接在短文本上進(jìn)行獨(dú)立主成分分析效果不佳;诖,作者利用潛在語義分析(LSA)對(duì)短文本進(jìn)行數(shù)據(jù)預(yù)處理,然后在此基礎(chǔ)上再利用主成分分析,取得了不錯(cuò)的效果;文獻(xiàn)主要解決的是Twitter消息的分類問題,作者通過一定的算法,把每個(gè)Twitter消息映射到最相似的Wikipedia頁面上,然后利用此頁面來代表Twitter消息,并進(jìn)行分類,實(shí)驗(yàn)表明該方法比單純的基于字符串編輯距離或LSA的效果好;以往的分類研究中每一個(gè)短文本只賦予一個(gè)類別,而實(shí)際上,一個(gè)文本有可能包含多個(gè)不同的主題,文獻(xiàn)主要研究了短文本的多值分類問題;為了能夠?qū)A縏witter消息進(jìn)行重新組織,便于用戶選擇和瀏覽,文獻(xiàn)針對(duì)Twitter消息的特點(diǎn)提出了一個(gè)新的分類方案。作者首先通過觀察和分析,利用貪婪算法選擇了8個(gè)特征,并將這8個(gè)特征和傳統(tǒng)的詞袋子方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明作者提出的方法具有較高的準(zhǔn)確性。
4.3 基于WordNet的移動(dòng)應(yīng)用匹配
該方法主要是基于移動(dòng)應(yīng)用的描述信息計(jì)算相似度,把每一個(gè)App看成是一個(gè)由描述信息表示的文檔,利用傳統(tǒng)的向量空間模型(VSM);進(jìn)行計(jì)算。為了解決文檔一詞頻矩陣的稀疏性問題,可利用語義詞典WordNet來擴(kuò)充App的描述信息。具體實(shí)現(xiàn)過程如下:
a1 ,a2 ,...,am分別表示m個(gè)App的描述信息,描述信息經(jīng)過分詞、去除停用詞和詞干化等處理以后,共得到由N個(gè)不同的詞組成的集合T={t1,t2,...,tn},丨T丨=N;最后得到文檔詞頻矩陣W。
其中,每一行代表一個(gè)App,每一列代表一個(gè)單詞,每一元素wij,表示第i個(gè)App描述中的權(quán)重,計(jì)算方法如下:
然后基于WordNet,計(jì)算詞與詞之間的語義相似度,得到詞語的相似度矩陣Q。
通過上述運(yùn)算,文檔一詞頻矩陣的非零元素增多,稀疏度降低。App之間的相似度在轉(zhuǎn)換后的向量空間中利用式(5)進(jìn)行計(jì)算。
我們?nèi)斯?gòu)建了一個(gè)小規(guī)模的測(cè)試數(shù)據(jù)集,對(duì)100個(gè)App進(jìn)行了人工判斷,發(fā)現(xiàn)其中共有89對(duì)相似的App,對(duì)此分別利用VSM模型和基于WordNet的VSM模型進(jìn)行計(jì)算。實(shí)驗(yàn)結(jié)果用準(zhǔn)確率、召回率、F-1進(jìn)行衡量。
從圖2可以看出,利用語義詞典WordNet可以增加App之間的相似度,從而提高了召回率,但是準(zhǔn)確率卻大大下降。通過分析,準(zhǔn)確率下降的主要原因是由于App描述信息中存在噪音數(shù)據(jù)。因此單純利用語義詞典無法很好地解決App的相似度計(jì)算問題,必須想辦法消除App描述中的噪音信息。
圖2 基于WordNet的移動(dòng)應(yīng)用匹配
4.4 基于特征詞提取的移動(dòng)應(yīng)用匹配
為了改善移動(dòng)應(yīng)用匹配的效果,需要識(shí)別出App描述信息中的特征詞,這些特征詞能夠體現(xiàn)App的功能,從而把描述信息中的非功能性信息或者噪音數(shù)據(jù)過濾掉。通過深人觀察分析,我們選擇5個(gè)特征作為判斷一個(gè)詞是否是特征詞的依據(jù),分別是termPOS, locInDes, isNameTerm, locRelative-ToName,termFreq,具體說明如表3所示。
表3 特征詞列表
我們把特征詞的判斷問題看成是一個(gè)分類問題,主要通過以下幾個(gè)步驟實(shí)現(xiàn):(1)針對(duì)l00個(gè)App的描述信息進(jìn)行手工標(biāo)注,一共標(biāo)注了2625個(gè)單詞,如果某個(gè)單詞在一個(gè)App中是特征詞,則標(biāo)注為1,否則標(biāo)注為0;(2)計(jì)算出每個(gè)單詞的所有的特征值;(3)以這些標(biāo)注數(shù)據(jù)作為訓(xùn)練集,得到一個(gè)分類模型;(4)利用該分類模型去判斷其他的詞是否是特征詞。
特征詞分類實(shí)驗(yàn)設(shè)置:在2625個(gè)標(biāo)注數(shù)據(jù)中選擇2525個(gè)作為訓(xùn)練集,100個(gè)作為測(cè)試集,分別采用樸素貝葉斯(Naive Bayesian)和支持向量機(jī)(SVM)方法進(jìn)行實(shí)驗(yàn),分類結(jié)果如表4所示。
表4 分類正確率
從表4我們可以看出,樸素貝葉斯分類的正確率比較低,另外去除locInDes之后利用SVM分類,正確率最高,也就是說locInDes對(duì)于特征詞的判斷具有一定的負(fù)面作用,但對(duì)于最終的App相似度計(jì)算結(jié)果的影響還不確定,所以我們采用SVM方法分別在所有特征和去除locInDes以后的子集上進(jìn)行了實(shí)驗(yàn)。最后以所有的特征詞為向量空間來計(jì)算App的相似度,實(shí)驗(yàn)結(jié)果表明,取得了較好的效果。
從圖3可以看出,經(jīng)過特征詞提取以后,準(zhǔn)確率和召回率均有所提高,并且在不考慮locInDes的情況下效果更好,說明單詞在描述中的位置對(duì)單詞是否是特征詞沒有太大貢獻(xiàn),并且對(duì)相似度計(jì)算具有負(fù)面影響。
圖3 基于特征詞提取的移動(dòng)應(yīng)用匹配
上述兩種方法都是基于App的描述信息進(jìn)行計(jì)算的,以后將把App的名稱、類別及其他相關(guān)信息也考慮進(jìn)去,效果可能會(huì)更好。
5.移動(dòng)應(yīng)用推薦與搜索
隨著移動(dòng)應(yīng)用數(shù)量的不斷增加,如何幫助用戶快速找到想要的應(yīng)用成了一個(gè)亟待解決的問題,部分學(xué)者對(duì)移動(dòng)應(yīng)用的推薦技術(shù)進(jìn)行了研究。Shi等人首先分析了傳統(tǒng)推薦模型存在的不足之處,如以記憶為基礎(chǔ)(Memory-based Models)的協(xié)同過濾模型(包括以用戶為基礎(chǔ)的協(xié)同過濾和以項(xiàng)目為基礎(chǔ)的協(xié)同過濾)對(duì)經(jīng)常出現(xiàn)或比較流行的項(xiàng)目推薦效果比較好,但是對(duì)于使用不是很頻繁的項(xiàng)目推薦效果比較差;隱語義模型( Latent Factor Models)的推薦準(zhǔn)確率比較低。針對(duì)上述兩種推薦模型存在的不足之處,作者提出了一種新的推薦模型—基于主成分分析的模型(PCA-based model)。該模型首先利用主成分分析技術(shù)從數(shù)據(jù)中找到主要的特征,然后在主要特征的基礎(chǔ)上再利用協(xié)同過濾模型進(jìn)行推薦。其主要優(yōu)點(diǎn)是對(duì)于不是很流行的移動(dòng)應(yīng)用具有較好的推薦準(zhǔn)確率。Woerndl等人針對(duì)移動(dòng)應(yīng)用提出了一種基于情景感知的混合推薦系統(tǒng)。該推薦系統(tǒng)以傳統(tǒng)的協(xié)同過濾技術(shù)為基礎(chǔ),把情景因素考慮進(jìn)來,從用戶、項(xiàng)目和情景3個(gè)維度進(jìn)行計(jì)算,大大提高了推薦準(zhǔn)確率。但是目前考慮的情景還比較少,主要是依據(jù)其他用戶在某個(gè)位置的移動(dòng)應(yīng)用安裝和使用情況進(jìn)行推薦,以后將考慮更多的情景因素。Karatzoglou等人結(jié)合情景信息,也提出了一個(gè)新的移動(dòng)應(yīng)用推薦模型Djinn模型,該模型主要考慮是把隱式反饋數(shù)據(jù)考慮進(jìn)來,利用張量分解技術(shù)對(duì)Djinn模型進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明Djinn模型的平均準(zhǔn)確率(MAP)要比不考慮情景信息的模型高出28%。Yin等人認(rèn)為移動(dòng)應(yīng)用的推薦和其他領(lǐng)域的推薦有一個(gè)不同之處在于:除了推薦用戶感興趣的移動(dòng)應(yīng)用外,還需要針對(duì)用戶已經(jīng)有的移動(dòng)應(yīng)用推薦可以替代的、新的移動(dòng)應(yīng)用。Yin等人認(rèn)為已有的移動(dòng)應(yīng)用擁有一個(gè)實(shí)際滿意度值A(chǔ)V(Actual Satisfactory Value),新的移動(dòng)應(yīng)用擁有一個(gè)吸引度值TV(Tempting Value),用戶是否更換舊的應(yīng)用,取決于AV和TV的大小。作者以用戶的使用日志為基礎(chǔ)數(shù)據(jù),把AV和TV作為兩個(gè)隱含參數(shù),提出了一個(gè)AT模型,計(jì)算出每個(gè)應(yīng)用的AV和TV值,并設(shè)計(jì)了AT排序函數(shù)。實(shí)驗(yàn)表明,AT模型的推薦效果遠(yuǎn)好于傳統(tǒng)的協(xié)同過濾技術(shù)和以內(nèi)容為基礎(chǔ)的過濾技術(shù),如果能將AT模型和其他模型相結(jié)合,效果會(huì)更好。Yan等人認(rèn)為以往的移動(dòng)應(yīng)用推薦系統(tǒng)大都利用用戶的下載歷史和用戶評(píng)價(jià),實(shí)際上用戶下載了一個(gè)應(yīng)用,并不能真正代表用戶,而用戶的評(píng)價(jià)往往又比較稀疏,推薦效果不佳。因此他們把用戶的使用日志數(shù)據(jù)和基于項(xiàng)目的協(xié)同過濾技術(shù)相結(jié)合,提出了一種個(gè)性化的移動(dòng)應(yīng)用推薦技術(shù)AppJoy。 Zhu等人對(duì)移動(dòng)應(yīng)用的分類問題進(jìn)行了研究。為了提高分類的準(zhǔn)確性,作者對(duì)移動(dòng)應(yīng)用的特征信息進(jìn)行了擴(kuò)展:一是利用搜索引擎來擴(kuò)展文本特征;二是從用戶的使用記錄中提取情景特征,最后把這些特征綜合起來,利用最大熵模型訓(xùn)練出了一個(gè)移動(dòng)應(yīng)用分類器。實(shí)驗(yàn)結(jié)果表明其分類準(zhǔn)確率要高于基于詞向量的應(yīng)用分類器(Word Vector based App Classifier)和基于隱含主題的應(yīng)用分類器。
隨著移動(dòng)應(yīng)用數(shù)量的不增加,移動(dòng)應(yīng)用搜索將越來越重要。移動(dòng)應(yīng)用搜索與傳統(tǒng)的Web搜索有相似之處,但也有特殊之處。移動(dòng)應(yīng)用搜索對(duì)搜索結(jié)果的質(zhì)量要求更高,需要返回最能夠滿足用戶需求的少數(shù)應(yīng)用,而不需要返回大量的結(jié)果;另外在移動(dòng)應(yīng)用搜索中,傳統(tǒng)的以關(guān)鍵詞為基礎(chǔ)的搜索技術(shù)無法滿足新的查詢需求,因?yàn)橛脩敉荒軌驕?zhǔn)確給出應(yīng)用的名稱,只能大概給出應(yīng)用的功能、特點(diǎn),在這種情況下,如何能夠準(zhǔn)確分析出用戶的查詢意圖并提供滿意的結(jié)果將變得非常具有挑戰(zhàn)性;移動(dòng)應(yīng)用搜索結(jié)果的排名也有特殊之處,除了考慮搜索結(jié)果與用戶查詢之間的相關(guān)性之外,還需要考慮應(yīng)用的質(zhì)量、受歡迎程度等其他因素。因此,功能搜索或者是語義搜索將是解決移動(dòng)應(yīng)用搜索的一個(gè)有效途徑。但是目前還沒有比較好的解決方案。
6.移動(dòng)應(yīng)用集成面臨的挑戰(zhàn)
目前,關(guān)于移動(dòng)應(yīng)用集成技術(shù)的研究還處于剛剛起步階段,并且由于移動(dòng)應(yīng)用本身的特點(diǎn),在移動(dòng)應(yīng)用集成中存在一系列挑戰(zhàn),主要包括多源信息集成、功能信息抽取和建模、移動(dòng)應(yīng)用匹配和移動(dòng)應(yīng)用排名等。
6.1 多源信息集成
移動(dòng)應(yīng)用集成的數(shù)據(jù)對(duì)象除了移動(dòng)應(yīng)用的基本屬性之外,還包括與移動(dòng)應(yīng)用相關(guān)的其他動(dòng)態(tài)信息:用戶信息、用戶評(píng)論、社交網(wǎng)絡(luò)中的分享信息等。這些信息對(duì)改善移動(dòng)應(yīng)用的搜索和推薦效果具有重要作用。然而這些信息往往存在于不同的數(shù)據(jù)源中,如移動(dòng)應(yīng)用的基本屬性信息大都存在于各大應(yīng)用商店或者部分移動(dòng)應(yīng)用集成網(wǎng)站,而相關(guān)的用戶評(píng)論、社交網(wǎng)絡(luò)分享信息等則存在于其他網(wǎng)站中,不同的數(shù)據(jù)源具有不同的頁面結(jié)構(gòu),如何設(shè)計(jì)具有自適應(yīng)能力的抽取方法是一個(gè)巨大的挑戰(zhàn)。其次移動(dòng)應(yīng)用相關(guān)的數(shù)據(jù)源大都具有Web2.0的特征,所以數(shù)據(jù)源中頁面的結(jié)構(gòu)經(jīng)常會(huì)發(fā)生變化,如何使得數(shù)據(jù)抽取方法在頁面結(jié)構(gòu)發(fā)生變化時(shí)仍能夠繼續(xù)工作也是一個(gè)重要的研究?jī)?nèi)容。關(guān)于多源信息的集成,部分學(xué)者已經(jīng)做了研究。Spiegel等人和Szomszo:等人為了改善電影推薦效果,嘗試將IMDB和Netflix的數(shù)據(jù)進(jìn)行集成。IMDB是一個(gè)在線的電影信息共享網(wǎng)站,它允許用戶對(duì)影片添加標(biāo)簽,來描述影片的演員信息、情節(jié)、故事地點(diǎn)等。NetFlix是一個(gè)在線視頻租賃網(wǎng)站,用戶可以對(duì)看過的視頻打分。Spiegel等人和SZOITISZO:等人將IMDB的標(biāo)簽信息和Netflix的打分信息進(jìn)行集成,大大提高了推薦的效果。
6.2 功能信息抽取與建模
功能信息抽取也是一個(gè)極具挑戰(zhàn)性的問題,對(duì)移動(dòng)應(yīng)用的搜索效果具有重要影響。傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)可以從半結(jié)構(gòu)化數(shù)據(jù)中抽取出與應(yīng)用相關(guān)的屬性信息,如名稱、類別、描述、價(jià)格等;但是移動(dòng)應(yīng)用的功能性信息更為重要,比如應(yīng)用能實(shí)現(xiàn)哪些功能?做得怎么樣?如何使用等?這些功能性信息是功能搜索的基礎(chǔ),對(duì)提高功能搜索的質(zhì)量至關(guān)重要。然而,功能性信息往往隱藏在移動(dòng)應(yīng)用的描述信息、用戶評(píng)論等非結(jié)構(gòu)化信息中,傳統(tǒng)的Web數(shù)據(jù)抽取技術(shù)無法從非結(jié)構(gòu)化信息中抽取相應(yīng)的結(jié)構(gòu)化信息。雖然已經(jīng)有一些自然語言處理的相關(guān)技術(shù)可以從非結(jié)構(gòu)化信息中進(jìn)行信息提取,但是還不能直接應(yīng)用于此,主要原因在于移動(dòng)應(yīng)用的描述信息以及相關(guān)用戶評(píng)論等具有自己的特點(diǎn),如文本短小、語法不規(guī)則等。
移動(dòng)應(yīng)用集成的主要目的之一就是提供高質(zhì)量的搜索服務(wù),使用戶能夠得到真正滿足實(shí)際需求的結(jié)果。移動(dòng)應(yīng)用搜索和傳統(tǒng)搜索的最大區(qū)別在于:傳統(tǒng)搜索主要是以關(guān)鍵詞匹配為主,而關(guān)鍵詞匹配在移動(dòng)應(yīng)用搜索中效果非常不好,目前幾大移動(dòng)應(yīng)用商店提供的搜索功能都不能令人滿意。目前已有很多公司涉足App搜索市場(chǎng),如提供功能搜索的App搜索引擎Quixey,百度也推出了App搜索平臺(tái)。但是目前各公司所采用的App搜索技術(shù)并沒有對(duì)外公布,學(xué)術(shù)界關(guān)于App搜索還沒有相關(guān)的研究。人們?cè)谒阉鲬?yīng)用時(shí)往往不知道其準(zhǔn)確名字,希望搜索出能夠完成某種任務(wù)、具備某種功能的軟件,如觀看NBA比賽、視頻編輯、尋找最近的超市等,針對(duì)這些查詢,傳統(tǒng)搜索無法提供很好的結(jié)果。功能建模是解決這一問題的核心。
功能建模的主要目的是提供高質(zhì)量的搜索服務(wù),能夠?qū)崿F(xiàn)基于功能的搜索。在數(shù)據(jù)抽取階段,通過各種抽取技術(shù),得到了移動(dòng)應(yīng)用的基本屬性信息、功能信息、評(píng)論信息以及用戶數(shù)據(jù),功能建模主要是以功能為核心,設(shè)計(jì)一種合適的數(shù)據(jù)模型,把上述各種信息進(jìn)行有效的表示、組織與存儲(chǔ),數(shù)據(jù)空間技術(shù)和語義網(wǎng)技術(shù)是功能建?梢越梃b和參考的兩個(gè)技術(shù);同時(shí),為了提高搜索的效率,必須根據(jù)新的數(shù)據(jù)模型的特點(diǎn)設(shè)計(jì)高效的索引策略。
6.3 移動(dòng)應(yīng)用匹配
移動(dòng)應(yīng)用匹配主要是用來判斷兩個(gè)應(yīng)用程序在功能上是否相似,是實(shí)現(xiàn)移動(dòng)應(yīng)用遷移、移動(dòng)應(yīng)用推薦的基礎(chǔ),是一個(gè)重要的研究?jī)?nèi)容,有很多的應(yīng)用場(chǎng)景。
移動(dòng)應(yīng)用匹配與實(shí)體識(shí)別具有一定的相似性。實(shí)體識(shí)別主要用來判斷兩個(gè)不同的數(shù)據(jù)記錄是否代表同一個(gè)實(shí)體,目前已經(jīng)有大量的相關(guān)研究工作。按照所使用的技術(shù)不同可以分為以下幾類:概率匹配模型、監(jiān)督和半監(jiān)督學(xué)習(xí)方法、主動(dòng)學(xué)習(xí)技術(shù)、基于距離的技術(shù)、基于規(guī)則的方法和無監(jiān)督學(xué)習(xí)的方法。實(shí)體識(shí)別主要是基于實(shí)體的屬性信息進(jìn)行相似度比較,而移動(dòng)應(yīng)用匹配過程中,除了考慮屬性信息的相似度之外,應(yīng)用程序的功能相似度更為重要,所以傳統(tǒng)的實(shí)體識(shí)別技術(shù)并不能直接應(yīng)用于移動(dòng)應(yīng)用匹配。
首先,屬性選擇是移動(dòng)應(yīng)用匹配的首要任務(wù)。每個(gè)應(yīng)用都有很多屬性信息,如名稱、類別、機(jī)型、價(jià)格、功能描述等,然而并不是所有的屬性都對(duì)應(yīng)用匹配起正面作用,所以需要從眾多的屬性中選出能反映應(yīng)用功能相似性的屬性;
其次,短文本的相似度計(jì)算也是一個(gè)極具挑戰(zhàn)性的研究?jī)?nèi)容。目前已經(jīng)有一些研究者對(duì)網(wǎng)絡(luò)短文本進(jìn)行了一些研究,包括基于語義的方法、基于概率主題模型的方法、基于特征擴(kuò)展的方法等Czar。但是這些方法并沒有考慮移動(dòng)應(yīng)用描述信息的特定表達(dá)方式,所以無法取得較好的計(jì)算效果。
另外,在進(jìn)行移動(dòng)應(yīng)用匹配的過程中,除了考慮應(yīng)用本身的功能相似性之外,往往還需要考慮用戶的使用習(xí)慣、個(gè)人愛好等信息;同時(shí)還需要考慮應(yīng)用與用戶已有的應(yīng)用之間的相互協(xié)作關(guān)系,應(yīng)用彼此之間的相互影響等。從而為用戶提供更加智能和完善的服務(wù)。
6.4 移動(dòng)應(yīng)用排名
在移動(dòng)應(yīng)用集成系統(tǒng)中,最終的目的是為用戶提供移動(dòng)應(yīng)用的搜索和推薦服務(wù),因此移動(dòng)應(yīng)用的排名也是一個(gè)重要的研究問題。應(yīng)用的排名除了考慮與查詢關(guān)鍵詞的匹配程度之外,還需要考慮其他相關(guān)信息,如用戶的偏好、用戶查詢意圖等,需要將這些信息綜合考慮,設(shè)計(jì)一個(gè)合理有效的排名函數(shù)。同時(shí)由于網(wǎng)絡(luò)信息具有時(shí)變性,現(xiàn)在被用戶喜愛的應(yīng)用,隨著時(shí)間的推移可能變得不那么受人喜愛,應(yīng)用的排名可能也會(huì)隨時(shí)間發(fā)生變化,所以如何對(duì)這些信息進(jìn)行動(dòng)態(tài)的更新維護(hù),也是一個(gè)頗具挑戰(zhàn)性的問題。
6.5 移動(dòng)應(yīng)用內(nèi)數(shù)據(jù)集成與搜索
目前本文中所關(guān)注的集成對(duì)象主要是移動(dòng)應(yīng)用的屬性信息以及其他相關(guān)信息,如用戶評(píng)論、社交網(wǎng)絡(luò)分享信息等,這些可以認(rèn)為是移動(dòng)應(yīng)用的外在信息。然而,對(duì)于用戶來講,移動(dòng)應(yīng)用內(nèi)部所包含的內(nèi)容更豐富、價(jià)值更大。如果能夠把眾多移動(dòng)應(yīng)用內(nèi)部的信息有效地集成起來,為用戶提供統(tǒng)一的搜索服務(wù),對(duì)用戶將具有重要的意義。與傳統(tǒng)的網(wǎng)頁數(shù)據(jù)相比,移動(dòng)應(yīng)用內(nèi)部信息的集成與搜索具有一些新的挑戰(zhàn)。信息獲取比較困難:移動(dòng)應(yīng)用內(nèi)的信息往往被包上了外殼,無法使用傳統(tǒng)的搜索爬蟲技術(shù)直接抓取;數(shù)據(jù)格式的異構(gòu)性:不同的移動(dòng)應(yīng)用,其內(nèi)部的數(shù)據(jù)格式往往不一樣,并且存在大量的噪音數(shù)據(jù),其數(shù)據(jù)抽取方式與網(wǎng)頁數(shù)據(jù)抽取相比更為復(fù)雜。
7.結(jié)束語
目前移動(dòng)互聯(lián)網(wǎng)的流量快速增加,未來必將超過傳統(tǒng)互聯(lián)網(wǎng),而移動(dòng)應(yīng)用逐漸成為移動(dòng)互聯(lián)網(wǎng)的主要接人方式。為了爭(zhēng)奪用戶,電信運(yùn)營(yíng)商、手機(jī)制造商、互聯(lián)網(wǎng)服務(wù)提供商以及各個(gè)不同的企業(yè)紛紛推出自己的移動(dòng)應(yīng)用,移動(dòng)應(yīng)用數(shù)量呈現(xiàn)爆炸式增長(zhǎng)。然而隨著移動(dòng)應(yīng)用數(shù)量的不斷增加,給移動(dòng)應(yīng)用的搜索和推薦帶來了很大的困難。移動(dòng)應(yīng)用集成是改善移動(dòng)應(yīng)用搜索和推薦效果的一個(gè)有效途徑。目前關(guān)于移動(dòng)應(yīng)用集成,學(xué)術(shù)界還沒有開展系統(tǒng)深人的研究。本文提出了移動(dòng)應(yīng)用集成的基本框架,對(duì)其中的關(guān)鍵技術(shù)如數(shù)據(jù)抽取、移動(dòng)應(yīng)用匹配、移動(dòng)應(yīng)用推薦等進(jìn)行了分析,對(duì)現(xiàn)有的工作進(jìn)行了歸納總結(jié);最后指出了移動(dòng)應(yīng)用集成中的若干挑戰(zhàn)性問題。未來移動(dòng)應(yīng)用的數(shù)量將持續(xù)增加,成為人們獲取信息的主要途徑,然而其數(shù)量的增加也必將帶來一系列挑戰(zhàn),有很多問題值得研究。我們對(duì)移動(dòng)應(yīng)用的集成、匹配、推薦等技術(shù)進(jìn)行了分析,希望能為相關(guān)研究人員提供參考。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:移動(dòng)應(yīng)用集成:框架、技術(shù)與挑戰(zhàn)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839613327.html