時(shí)下大數(shù)據(jù)市場越發(fā)火爆,各行各業(yè)趨之若鶩投入其中。然而隨之產(chǎn)生的問題也越來越多,除去數(shù)據(jù)清洗、整理、存儲(chǔ)等枯燥的事情外,大數(shù)據(jù)變現(xiàn)是廠商們最為關(guān)注的難點(diǎn)之一。實(shí)際上大數(shù)據(jù)很難通過直接途徑來變現(xiàn),業(yè)務(wù)智能化抑或是內(nèi)容推薦都是一些間接的變現(xiàn)場景,而廣告則是大數(shù)據(jù)能夠真正變現(xiàn)的場景之一。
依托于強(qiáng)大的MIUI系統(tǒng)、2億手機(jī)用戶和完善的生態(tài)鏈布局,小米在過去幾年積累了海量用戶數(shù)據(jù)。本次CSDN有請到小米商業(yè)產(chǎn)品部技術(shù)總監(jiān)宋強(qiáng),請他來分享大數(shù)據(jù)在小米廣告平臺(tái)的各種實(shí)踐。
小米商業(yè)產(chǎn)品部技術(shù)總監(jiān) 宋強(qiáng)
以下為采訪實(shí)錄
CSDN:請介紹下自己和目前從事的工作,以及關(guān)注哪些技術(shù)領(lǐng)域?
宋強(qiáng):我是宋強(qiáng),2014年加入小米,目前在小米商業(yè)產(chǎn)品部擔(dān)任架構(gòu)師和研發(fā)主管,主要負(fù)責(zé)小米自有流量和移動(dòng)網(wǎng)盟業(yè)務(wù)的變現(xiàn),包括系統(tǒng)架構(gòu)、算法策略和數(shù)據(jù)平臺(tái)相關(guān)的工作。之前在微軟中國必應(yīng)廣告部門從事大數(shù)據(jù)分析、反作弊相關(guān)工作。再之前在IBM中國開發(fā)中心從事數(shù)據(jù)庫和查詢優(yōu)化相關(guān)的工作。我個(gè)人比較關(guān)注的技術(shù)包括分布式高并發(fā)的系統(tǒng)架構(gòu)、海量數(shù)據(jù)分析與處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等。
CSDN:依托于強(qiáng)大的MIUI系統(tǒng)、2億手機(jī)用戶和完善的生態(tài)鏈布局,小米在過去幾年積累了海量用戶數(shù)據(jù)。那么與社交網(wǎng)絡(luò)、搜索和游戲等網(wǎng)站相比,小米的用戶流量有哪些特點(diǎn)?
宋強(qiáng):小米是一家硬件公司,也是一家移動(dòng)互聯(lián)網(wǎng)公司,但我更愿意把小米看成一家大數(shù)據(jù)公司。硬件方面,在過去幾年中,小米一共售出了超過兩億部手機(jī)和1500萬臺(tái)電視和盒子,另外路由器和手環(huán)等生態(tài)鏈產(chǎn)品的銷量也非常好。軟件方面,深受用戶喜歡的MIUI是一個(gè)深度定制的安卓系統(tǒng)。依托于強(qiáng)大的硬件銷量和MIUI等軟件系統(tǒng),小米在過去幾年積累了大量的用戶數(shù)據(jù),包括APP使用、搜索、購物、社交、娛樂等。小米是一家真正的大數(shù)據(jù)公司,小米的大數(shù)據(jù)和其他公司相比,最大的特點(diǎn)和優(yōu)勢是“全生態(tài)、多樣性”。
CSDN:在時(shí)下這個(gè)業(yè)務(wù)變更頻繁的背景下,可否為我們分享下小米大數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)?
宋強(qiáng):小米大數(shù)據(jù)在小米多個(gè)業(yè)務(wù)中得到了充分的應(yīng)用和實(shí)踐。首先是廣告營銷,通過點(diǎn)擊預(yù)估算法提升廣告收入,通過營銷DMP幫助廣告主進(jìn)行精準(zhǔn)營銷等等。其次,大數(shù)據(jù)在小米金融業(yè)務(wù)中也廣泛應(yīng)用,包括風(fēng)控和征信分析、反欺詐等。在搜索和推薦業(yè)務(wù)中,大數(shù)據(jù)對各種算法的提升也起到了至關(guān)重要的作用,包括查詢理解、相關(guān)性模型和點(diǎn)擊預(yù)估等。
CSDN:目前小米廣告大數(shù)據(jù)已發(fā)展較為成熟,您覺得未來會(huì)朝著哪些趨勢發(fā)展?
宋強(qiáng):未來的趨勢應(yīng)該是更加智能化。首先是算法的智能化,隨著機(jī)器學(xué)習(xí)和人工智能的進(jìn)一步發(fā)展,大數(shù)據(jù)的價(jià)值將得到更加充分的挖掘。其次是營銷的智能化,通過多維立體的用戶標(biāo)簽數(shù)據(jù),從性別、年齡等基礎(chǔ)數(shù)據(jù),到APP使用頻次和時(shí)長、運(yùn)動(dòng)軌跡、手機(jī)信號(hào)等數(shù)據(jù)形成的興趣標(biāo)簽,再到精準(zhǔn)的時(shí)間、位置、場景化標(biāo)簽,幫助廣告主進(jìn)行更加智能化的廣告營銷。
CSDN:數(shù)據(jù)應(yīng)用場景是數(shù)據(jù)商業(yè)化過程中重要的方面之一。小米的廣告大數(shù)據(jù)有哪些應(yīng)用場景?
宋強(qiáng):小米廣告大數(shù)據(jù)的應(yīng)用場景有很多,首先是廣告算法優(yōu)化,包括點(diǎn)擊率預(yù)估、反作弊、用戶體驗(yàn)優(yōu)化、廣告主ROI優(yōu)化等多個(gè)方向。其次是營銷DMP,小米的營銷DMP通過整合媒體、投放平臺(tái)以及廣告主的各方數(shù)據(jù),使用大數(shù)據(jù)技術(shù)對用戶的特征進(jìn)行挖掘,為廣告主提供了20多個(gè)維度、上百個(gè)標(biāo)簽的實(shí)時(shí)用戶畫像管理。
CSDN:與搜索的基礎(chǔ)架構(gòu)相比廣告平臺(tái)要求更高的實(shí)時(shí)性反饋,小米廣告平臺(tái)的架構(gòu)是怎樣的?
宋強(qiáng):小米廣告平臺(tái)負(fù)責(zé)小米應(yīng)用商店、瀏覽器、一點(diǎn)資訊、小米電視等全線軟硬件幾十個(gè)業(yè)務(wù)的變現(xiàn)。支持應(yīng)用游戲下載、信息流、搜索、開屏、視頻貼片、電視畫報(bào)等十余種主流和創(chuàng)新的移動(dòng)廣告形式?偟恼f來,小米廣告的業(yè)務(wù)比較復(fù)雜和多樣化,小米廣告平臺(tái)的架構(gòu)也是隨著業(yè)務(wù)的發(fā)展不斷的迭代和優(yōu)化。
目前整個(gè)系統(tǒng)架構(gòu)包括接入層、服務(wù)層、算法層和存儲(chǔ)層。接入層負(fù)責(zé)流量的接入、管理、配置和運(yùn)營。服務(wù)層是廣告檢索的核心,包含廣告選取、過濾、排序等核心邏輯,主要的服務(wù)有廣告交易平臺(tái)、效果和排期廣告服務(wù)等。算法層負(fù)責(zé)點(diǎn)擊率預(yù)估、預(yù)算平滑、精準(zhǔn)定向等算法,存儲(chǔ)層則是各種廣告和用戶數(shù)據(jù)訪問層。
廣告平臺(tái)架構(gòu)在演化過程中,我們一直秉承以下幾個(gè)思路:
首先,架構(gòu)為業(yè)務(wù)服務(wù),每一次架構(gòu)的迭代都是業(yè)務(wù)驅(qū)動(dòng)的。我們的團(tuán)隊(duì)也是按照業(yè)務(wù)進(jìn)行劃分的,每個(gè)業(yè)務(wù)團(tuán)隊(duì)有明確的目標(biāo),通過目標(biāo)驅(qū)動(dòng)架構(gòu)的微調(diào)和迭代,也許架構(gòu)并不是完美的但卻是最有效的。
其次,業(yè)務(wù)邏輯配置化+公共邏輯服務(wù)化。不同廣告業(yè)務(wù)在產(chǎn)品形態(tài)、素材規(guī)格、競價(jià)方式方面會(huì)有所不同并且會(huì)隨著時(shí)間不斷變化,架構(gòu)必須足夠靈活來支持業(yè)務(wù)的變化和差異化。通過資源管理平臺(tái)對廣告位進(jìn)行自動(dòng)化的管理,使得業(yè)務(wù)邏輯配置化。同時(shí),不同業(yè)務(wù)總是有一些共性的需求,通過對公共邏輯的模塊化和服務(wù)化,減少耦合和重復(fù)建設(shè),提高系統(tǒng)的穩(wěn)定性和可靠性。
CSDN:準(zhǔn)確的廣告點(diǎn)擊率預(yù)估可以提高真實(shí)的廣告點(diǎn)擊率,增加收益。能否為我們詳細(xì)介紹下小米的點(diǎn)擊預(yù)估實(shí)踐?
宋強(qiáng):點(diǎn)擊預(yù)估是廣告算法的核心,我們的點(diǎn)擊預(yù)估工作大部分時(shí)間都是在做特征挖掘和模型優(yōu)化。特征挖掘更像是一門藝術(shù),需要熟悉業(yè)務(wù),更需要靈感。算法工程師每天的工作就是搜腸刮肚找出跟用戶點(diǎn)擊廣告相關(guān)的信號(hào)。大部分可能是弱信號(hào),組合起來才能發(fā)揮威力。模型則是兵器庫,過去兩年我們嘗試了離線LR,在線FTRL,非線性模型FM和GBDT,以及正在實(shí)驗(yàn)中的深度模型等,有很多收獲,也碰到了很多坑。由于小米廣告的業(yè)務(wù)比較多,我這里分別介紹應(yīng)用分發(fā)、搜索和信息流廣告的點(diǎn)擊預(yù)估工作。
應(yīng)用分發(fā):移動(dòng)互聯(lián)網(wǎng)發(fā)展到今天,應(yīng)用推廣仍然是效果廣告主的首要訴求。依托于小米應(yīng)用商店、瀏覽器和小米視頻等app,應(yīng)用分發(fā)成為了小米廣告平臺(tái)收入的重要組成部分,算法優(yōu)化則是不斷提升收入的利器。
特征工程方面,我們嘗試了以下幾大類的特征:用戶特征(人口屬性、系統(tǒng)信息等)、廣告特征(id、類別、位置等)、用戶行為特征(app歷史安裝、近期下載、近期使用等)、用戶廣告行為特征(廣告的曝光、點(diǎn)擊、下載等)、組合特征(用戶特征X廣告特征等)。其中,用戶行為特征被證明為最有效,這也是和業(yè)務(wù)/產(chǎn)品形態(tài)最最密切相關(guān)的特征。模型方面,從最開始的LR到天級(jí)的FTRL,再到小時(shí)級(jí)的FTRL,效果逐步提升。
搜索:這里的搜索指的也是應(yīng)用搜索,主要依托于應(yīng)用商店和瀏覽器龐大的搜索流量進(jìn)行變現(xiàn)。在模型優(yōu)化方面,最初的模型是一個(gè)純文本相關(guān)性的模型,主要考慮搜索關(guān)鍵詞和廣告文本(包括app的名稱、描述等)的相關(guān)性。接著我們嘗試了行為相關(guān)性模型,主要是基于協(xié)同過濾的思想來計(jì)算兩個(gè)app的相似性(item-based)。今年開始正式采用了點(diǎn)擊率模型,收入也是取得了大幅度的增長。
特征工程方面,和應(yīng)用分發(fā)類似,也是這么幾大類的特征。需要重點(diǎn)highlight的是搜索上下文特征在搜索場景最有效,比如搜索關(guān)鍵詞、搜索自然結(jié)果及分類、搜索來源等。
信息流:信息流廣告起源于Facebook,在國內(nèi)多家廣告平臺(tái)取得成功(如今日頭條,微博等)。信息流的廣告形式有大圖、小圖、組圖等形式,廣告類型包括應(yīng)用分發(fā)、H5和視頻等。競價(jià)方式也是多種多樣,CPC/CPD/CPM/CPT要啥有啥。小米信息流廣告的主要載體是一點(diǎn)資訊和瀏覽器,也是我剛進(jìn)小米之后接手的第一塊業(yè)務(wù)。
信息流廣告的算法優(yōu)化和應(yīng)用分發(fā)類似,也有一些不同的地方。信息流廣告的素材更新頻繁,廣告數(shù)量也比較多。反應(yīng)到模型方面,小時(shí)級(jí)的FTRL模型比天級(jí)模型有大幅度的提升。
CSDN:時(shí)下機(jī)器學(xué)習(xí)、人工智能等新技術(shù)越發(fā)火爆,小米毋庸置疑也應(yīng)用了這些技術(shù)。請問小米應(yīng)用的機(jī)器學(xué)習(xí)反作弊功能是怎樣實(shí)現(xiàn)的?
宋強(qiáng):首先,移動(dòng)端的作弊和刷量現(xiàn)象非常嚴(yán)重。據(jù)統(tǒng)計(jì),70%的推廣渠道存在刷量作弊行為。移動(dòng)端的作弊手段也是多種多樣,主要表現(xiàn)在:
-
刷機(jī):通過特殊的刷機(jī)軟件,篡改手機(jī)的環(huán)境參數(shù),如IMEI/MAC等,模擬多用戶下載、激活和使用。
-
模擬器:通過虛擬機(jī)軟件(bluestacks,Virtual Box等)自動(dòng)運(yùn)行腳本,模擬用戶點(diǎn)擊、下載、激活、留存等數(shù)據(jù)。
-
程序化點(diǎn)擊:通過雇傭或者劫持的方式,利用大量真實(shí)設(shè)備進(jìn)行程序化的點(diǎn)擊、下載、激活等。
反作弊的關(guān)鍵技術(shù):
-
設(shè)備真?zhèn)巫R(shí)別:一般是通過SDK的方式采集硬件信息,為每臺(tái)設(shè)備生成唯一的設(shè)備id,后續(xù)即使刷量者對設(shè)備的硬件信息進(jìn)行修改,唯一的設(shè)備id也不會(huì)變。市場上有多家公司提供了類似的解決方案,比如數(shù)盟、量江湖、maxent等。小米與其中幾家公司有緊密的合作,并且自己也開發(fā)了一套基于硬件標(biāo)識(shí)的設(shè)備真?zhèn)巫R(shí)別方案。
-
用戶行為分析:不管是哪種作弊手段,都是有規(guī)律可循的,通過大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)一定能找到蛛絲馬跡(正所謂“魔高一尺,道高一丈”,“天網(wǎng)恢恢,疏而不漏”……)。比如用戶IP分布異常、機(jī)型分布異常、點(diǎn)擊率異常、下載激活時(shí)間間隔異常、留存率和使用時(shí)長異常等等。作弊的仿真度越高,異常特征就越不明顯,對應(yīng)的反作弊技術(shù)和代價(jià)也就越高。
CSDN:對于服務(wù)商而言用戶體驗(yàn)非常關(guān)鍵,基于廣告大數(shù)據(jù)的小米在用戶體驗(yàn)優(yōu)化上做了哪些努力?
宋強(qiáng):首先,用戶體驗(yàn)優(yōu)化的目標(biāo)是通過減少廣告展現(xiàn)來提升用戶體驗(yàn),但這里有兩個(gè)問題需要解決:用戶體驗(yàn)的指標(biāo)是什么?如何平衡廣告收入和用戶體驗(yàn)?對于用戶體驗(yàn),不同的產(chǎn)品有不同的定義:下滑率,搜索次數(shù),頁面點(diǎn)擊率等。為了簡化優(yōu)化目標(biāo),我們挑選了以下幾個(gè)對于大部分產(chǎn)品都適用的指標(biāo):主要指標(biāo)是留存率和日活率,次要指標(biāo)是使用次數(shù)和時(shí)長。
用戶體驗(yàn)?zāi)P途C合考慮了幾個(gè)方面的因素來決定廣告最終是否展現(xiàn)給用戶:首先是廣告質(zhì)量分模型。最簡單的質(zhì)量分模型只考慮廣告效果,比如CTR,RankScore(綜合考慮CTR/CVR和出價(jià)的廣告排序分?jǐn)?shù))等;谶@些數(shù)據(jù)可以做簡單的“斷尾計(jì)劃”(也就是對于CTR或者RankScore做一個(gè)閾值控制)。這種方案實(shí)現(xiàn)簡單,但效果一般。目前我們正在實(shí)驗(yàn)用戶容忍度模型和用戶影響力模型,以后有機(jī)會(huì)再展開來講。
CSDN:為了獲取真實(shí)可用的數(shù)據(jù)從而提升收益,小米提出了廣告主ROI算法模型。那么能否詳細(xì)介紹下這一模型?
宋強(qiáng):點(diǎn)擊預(yù)估模型的優(yōu)化目標(biāo)是eCPM和收入,但是廣告主的投放目標(biāo)是ROI,兩個(gè)目標(biāo)是不完全一致的。另外,不同的廣告主對于R的定義也不一樣,有的是激活/留存(新聞資訊),有的是用戶注冊(金融理財(cái)),有的是下單/消費(fèi)(電商購物)。
廣告主ROI優(yōu)化牽涉兩方面的工作:數(shù)據(jù)收集和模型優(yōu)化。
數(shù)據(jù)收集:廣告數(shù)據(jù)的完整生命周期包括曝光、點(diǎn)擊、下載、激活、留存、注冊、消費(fèi)等。其中曝光/點(diǎn)擊/下載是發(fā)生在流量方的數(shù)據(jù),可以很容易獲取并用于點(diǎn)擊預(yù)估模型,提升廣告收入。激活和留存是廣告主app的使用數(shù)據(jù),通過MIUI系統(tǒng)可以獲取。注冊和消費(fèi)則是廣告主app內(nèi)部使用數(shù)據(jù),很難通過系統(tǒng)的方式獲取,需要和廣告主進(jìn)行數(shù)據(jù)合作。
模型優(yōu)化:以激活率模型為例,可以結(jié)合CTR模型進(jìn)行,通過激活數(shù)據(jù)修改CTR模型的正樣本來調(diào)整點(diǎn)擊預(yù)估結(jié)果。也可以單獨(dú)訓(xùn)練激活率模型,然后在廣告排序中同時(shí)考慮CTR和CVR。
CSDN:前面講了很多大數(shù)據(jù)在廣告算法中的應(yīng)用,能否總結(jié)一下經(jīng)驗(yàn)?
宋強(qiáng):我們的算法團(tuán)隊(duì)在過去將近兩年的時(shí)間里,從點(diǎn)擊預(yù)估開始,逐步拓展到反作弊、用戶體驗(yàn)優(yōu)化、廣告主ROI優(yōu)化、智能出價(jià)、預(yù)算平滑等方向。取得了一些成績,也踩過了很多坑。由于人力有限,我們的算法工作絕大部分時(shí)間都是在特征工程和模型優(yōu)化兩方面,我這里就圍繞這兩塊做一些經(jīng)驗(yàn)總結(jié):
特征工程:首先,和業(yè)務(wù)本身相關(guān)的行為特征是最有效的,比如“用戶在商店的安裝列表”相比用戶屬性(比如年齡性別),對點(diǎn)擊預(yù)估更有效。其次,保持?jǐn)?shù)據(jù)的“原汁原味”,二次加工反而容易丟失信息。比如將用戶的歷史瀏覽加工成用戶的靜態(tài)興趣分布,還不如直接用原始的歷史瀏覽有效。最后,組合特征才能發(fā)揮最大威力。
模型優(yōu)化:首先,不要輕易放棄線性模型,通過適當(dāng)?shù)慕M合特征一般來說效果會(huì)非常好。離線實(shí)驗(yàn)了FM等非線性模型,效果并不明顯。其次,線性模型+深度模型可能是未來的方向,比如Google最近的Wide&Deep Learning,我們正在線下實(shí)驗(yàn),已經(jīng)看到一些效果。
CSDN:您在分布式系統(tǒng)架構(gòu)、大數(shù)據(jù)分析、數(shù)據(jù)庫和查詢優(yōu)化方面都有著豐富的經(jīng)驗(yàn),可否分享下您學(xué)習(xí)新知識(shí)或技能的方法?以及在日常生活中是通過哪些方式來提升個(gè)人技能的?
宋強(qiáng):我個(gè)人對技術(shù)比較有熱情,以前學(xué)習(xí)新知識(shí)和提升技術(shù)的主要方式就是看書和寫代碼,現(xiàn)在有一部分時(shí)間花在了團(tuán)隊(duì)管理上面,但仍然保持著“學(xué)習(xí)-實(shí)踐-交流”這樣一種方式來不斷提升自己的技術(shù)。
學(xué)習(xí):活到老學(xué)到老,主動(dòng)學(xué)習(xí)仍然是獲取新知識(shí)最重要的方式。現(xiàn)在技術(shù)的發(fā)展日新月異,每天都有新的東西出來。當(dāng)然不需要也沒有精力都去學(xué),但是和業(yè)務(wù)相關(guān)的技術(shù),我一般都會(huì)花一些時(shí)間去了解和學(xué)習(xí)。
實(shí)踐:最好的技術(shù)提升在實(shí)踐中,離開了業(yè)務(wù)實(shí)踐,空談系統(tǒng)架構(gòu)和算法優(yōu)化都是沒有意義的。我每天會(huì)花大量的時(shí)間和同事一起討論系統(tǒng)設(shè)計(jì)并進(jìn)行代碼review,讓自己保持對業(yè)務(wù)和技術(shù)的敏感性。
交流:我們團(tuán)隊(duì)內(nèi)部定期會(huì)有技術(shù)交流,比如druid實(shí)時(shí)數(shù)據(jù)分析,redis優(yōu)化等。我們團(tuán)隊(duì)有很多技術(shù)大牛,他們對技術(shù)非常熱衷并樂于分享,每次技術(shù)交流都讓我受益匪淺。另外,我也參加一些業(yè)界的技術(shù)交流,向大牛學(xué)習(xí)的同時(shí)也分享自己的一些經(jīng)驗(yàn)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:小米宋強(qiáng):生態(tài)化大數(shù)據(jù)平臺(tái)的深度應(yīng)用實(shí)踐
本文網(wǎng)址:http://www.ezxoed.cn/html/news/10515520224.html