近些年來(lái),機(jī)器學(xué)習(xí)技術(shù)取得了巨大的進(jìn)步,使得計(jì)算機(jī)系統(tǒng)能夠解決復(fù)雜的現(xiàn)實(shí)問(wèn)題。其中一項(xiàng)先進(jìn)技術(shù)就是由Google研究院的Expander組開(kāi)發(fā)的大規(guī)模、基于圖的機(jī)器學(xué)習(xí)平臺(tái);趫D的機(jī)器學(xué)習(xí)是一款功能強(qiáng)大的工具,被廣泛用于我們?nèi)粘=佑|到的Google產(chǎn)品和功能,比如用于收件箱的提醒功能和Allo的智能消息,或是用于深度神經(jīng)網(wǎng)絡(luò)來(lái)支持Google Photos的最新圖像識(shí)別系統(tǒng)。
最少監(jiān)督的學(xué)習(xí)
近期大多數(shù)在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域取得的進(jìn)展,都可以歸因于較好預(yù)測(cè)能力的模型,這些模型是在大量有標(biāo)記數(shù)據(jù)集上訓(xùn)練得到,通常有上百萬(wàn)的訓(xùn)練樣本。由于需要監(jiān)督式的訓(xùn)練機(jī)器學(xué)習(xí)模型,即用人工標(biāo)記過(guò)的訓(xùn)練數(shù)據(jù),因此這種方法也被稱為“監(jiān)督式學(xué)習(xí)”。(相反的,有些機(jī)器學(xué)習(xí)方法直接處理原始數(shù)據(jù),不存在監(jiān)督,它們被稱為非監(jiān)督式學(xué)習(xí)。)
然而,待完成的任務(wù)越復(fù)雜,則越難獲取足夠多的高質(zhì)量標(biāo)記數(shù)據(jù)。每遇到一個(gè)新問(wèn)題,往往需要投入大量的人力和時(shí)間來(lái)標(biāo)記數(shù)據(jù)。這促使了Expander團(tuán)隊(duì)投入研發(fā)新的技術(shù)來(lái)驅(qū)動(dòng)大規(guī)模的機(jī)器學(xué)習(xí)應(yīng)用,以盡可能減少人工監(jiān)督。
Expander團(tuán)隊(duì)的技術(shù)是受到人類概況和推演的啟發(fā),將已知的知識(shí)(已標(biāo)記數(shù)據(jù))與新鮮的、不熟知的觀察內(nèi)容(未標(biāo)記數(shù)據(jù))相聯(lián)系。這個(gè)強(qiáng)大的技術(shù)稱作“半監(jiān)督式學(xué)習(xí)”,它可以讓我們利用稀疏的訓(xùn)練數(shù)據(jù)搭建系統(tǒng);趫D的半監(jiān)督式學(xué)習(xí)的主要優(yōu)勢(shì)之一就是(a)它可以在學(xué)習(xí)階段對(duì)已標(biāo)記的數(shù)據(jù)和未標(biāo)記的數(shù)據(jù)共同建模,利用數(shù)據(jù)的底層結(jié)構(gòu),(b)可以便捷地組合多類信號(hào)(例如原始特征與知識(shí)圖譜的關(guān)系信息相結(jié)合)形成一個(gè)獨(dú)立的圖表示,基于此來(lái)學(xué)習(xí)。這有別于與其它的傳統(tǒng)機(jī)器學(xué)習(xí)方法,比如神經(jīng)網(wǎng)絡(luò)方法,后者是先用標(biāo)記的訓(xùn)練數(shù)據(jù)和特征訓(xùn)練得到一個(gè)模型,然后將模型用于預(yù)測(cè)未標(biāo)記的數(shù)據(jù)。
圖學(xué)習(xí)的原理
在其核心部分,Expander的平臺(tái)構(gòu)建了數(shù)據(jù)的一個(gè)多圖表達(dá),各個(gè)節(jié)點(diǎn)對(duì)應(yīng)于物體和概念,相似的概念節(jié)點(diǎn)之間有邊相連,因此它將半監(jiān)督式學(xué)習(xí)與大規(guī);趫D的學(xué)習(xí)結(jié)合在一起。圖往往包含了標(biāo)記數(shù)據(jù)(輸出類別或標(biāo)簽已知的節(jié)點(diǎn))和未標(biāo)記數(shù)據(jù)(沒(méi)有標(biāo)簽的節(jié)點(diǎn))。接著,Expander的框架在圖上傳播標(biāo)簽信息,用半監(jiān)督式的學(xué)習(xí)方法給所有節(jié)點(diǎn)打上標(biāo)記。
然而,說(shuō)起來(lái)容易做起來(lái)難!我們需要:
(1)用最少的監(jiān)督來(lái)有效率地學(xué)習(xí)(即極少量的標(biāo)記數(shù)據(jù));
(2)處理多種形態(tài)的數(shù)據(jù)(即數(shù)據(jù)的異形表達(dá)和多種數(shù)據(jù)源);
(3)解決高維數(shù)據(jù)的預(yù)測(cè)難題(高維、復(fù)雜的輸出空間),數(shù)據(jù)可能還含有噪音。
整個(gè)學(xué)習(xí)過(guò)程中的關(guān)鍵成分就是圖與節(jié)點(diǎn)的連接方式。圖的形狀、尺寸千變?nèi)f化。我們注意到,用多種數(shù)據(jù)源的不同表達(dá)形式組合而成的信息構(gòu)建多圖結(jié)構(gòu),這樣的效果比較好(比如,Allo的PhotoReply采用了圖片像素、物體類別和對(duì)話反饋信息等)。Expander團(tuán)隊(duì)的圖學(xué)習(xí)平臺(tái)基于數(shù)據(jù)間推測(cè)或已知的關(guān)系直接自動(dòng)地生成關(guān)系圖。數(shù)據(jù)可以是結(jié)構(gòu)化的(如關(guān)系型數(shù)據(jù))或是非結(jié)構(gòu)化數(shù)據(jù)(如,從原始數(shù)據(jù)中提取的稀疏或稠密特征表達(dá))。
為了理解Expander的系統(tǒng)如何學(xué)習(xí),我們來(lái)看一下下圖所示的例子。
圖中有兩類節(jié)點(diǎn):“灰色”表示未標(biāo)記數(shù)據(jù),彩色的是標(biāo)記過(guò)的數(shù)據(jù)。節(jié)點(diǎn)之間的關(guān)系用邊來(lái)表示,邊的粗細(xì)表示關(guān)系的強(qiáng)弱。我們可以這樣來(lái)刻畫這個(gè)半監(jiān)督式學(xué)習(xí)問(wèn)題:預(yù)測(cè)圖中每個(gè)節(jié)點(diǎn)的顏色(“紅色”或“藍(lán)色”)。注意,圖的結(jié)構(gòu)和節(jié)點(diǎn)顏色需要根據(jù)實(shí)際任務(wù)而定。舉個(gè)例子,在我們最近發(fā)表的一篇文章中,我們?yōu)槭占渲悄芑貜?fù)功能設(shè)計(jì)的圖的節(jié)點(diǎn)是郵件信息,顏色表示用戶回復(fù)的語(yǔ)義類別(比如,“是的”,“好棒”,“有意思”)。
Expander圖學(xué)習(xí)框架把這類標(biāo)記問(wèn)題當(dāng)做優(yōu)化問(wèn)題來(lái)處理。在最簡(jiǎn)單的層面,它學(xué)會(huì)根據(jù)每個(gè)節(jié)點(diǎn)的周邊節(jié)點(diǎn)顏色和連接強(qiáng)度來(lái)給所有節(jié)點(diǎn)指定顏色。一種簡(jiǎn)單的方法是一次性處理所有的節(jié)點(diǎn)數(shù)據(jù) —— 這種方法無(wú)法擴(kuò)展到大圖上。我們可以對(duì)此問(wèn)題做優(yōu)化,將已標(biāo)記節(jié)點(diǎn)的顏色信息傳播到它們的鄰居節(jié)點(diǎn),然后重復(fù)這個(gè)過(guò)程。在每一步中,未標(biāo)記節(jié)點(diǎn)會(huì)根據(jù)其鄰居節(jié)點(diǎn)中的顏色標(biāo)記上顏色。我們可以反復(fù)迭代這個(gè)過(guò)程,直到所有的節(jié)點(diǎn)都被打上標(biāo)記。這個(gè)方法的效率非常高,在本例中,迭代的結(jié)果最終是收斂的。
基于圖的半監(jiān)督式學(xué)習(xí)
實(shí)際上,我們基于圖結(jié)構(gòu)設(shè)計(jì)了復(fù)雜的優(yōu)化函數(shù),其中包括了額外的信息和限制,形成了復(fù)雜的非凸問(wèn)題。然而,正在的挑戰(zhàn)在于將這種方法高效地推廣到包含幾十億節(jié)點(diǎn)、幾百億邊的大規(guī)模圖模型中,乃至包含上億種不同標(biāo)簽的復(fù)雜問(wèn)題。
為了解決這一問(wèn)題,我們創(chuàng)造了一種分布式流式方法,去年發(fā)表了論文Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation。此文介紹的流式算法可以快速處理非常大的圖數(shù)據(jù)。此文,它還解決了其它實(shí)際問(wèn)題,它保證了系統(tǒng)的空間復(fù)雜度和內(nèi)存需求保持恒定,與任務(wù)的難度無(wú)關(guān),即無(wú)論是兩個(gè)標(biāo)簽還是成千上萬(wàn)個(gè)標(biāo)簽,整個(gè)系統(tǒng)使用的內(nèi)存量都不變。它推動(dòng)了圖技術(shù)廣泛地應(yīng)用與自然語(yǔ)言理解、機(jī)器感知、用戶建模,甚至文本、圖像、語(yǔ)音糅合的多態(tài)學(xué)習(xí)任務(wù)。
言語(yǔ)幽默的圖表達(dá)
我們舉一個(gè)基于圖的機(jī)器學(xué)習(xí)方法在語(yǔ)言理解方面的應(yīng)用案例,比如收件箱智能回復(fù)功能中的情感識(shí)別,它的目標(biāo)是給文本中的詞語(yǔ)標(biāo)記上細(xì)粒度的情感類別。首先,使用神經(jīng)網(wǎng)絡(luò)模型在文本集上訓(xùn)練得到詞向量表達(dá),即每個(gè)詞的意思都用一個(gè)向量表示。然后,用詞向量構(gòu)建一個(gè)稀疏的圖,每個(gè)節(jié)點(diǎn)表示一個(gè)詞語(yǔ),邊表示詞語(yǔ)之間的語(yǔ)義聯(lián)系。邊的權(quán)值通過(guò)詞向量的相似度計(jì)算得到 —— 舍棄相似度過(guò)低的邊。我們先給其中一小部分節(jié)點(diǎn)打上情感標(biāo)記(比如,“笑”被標(biāo)記為“有趣”),然后在整個(gè)圖上應(yīng)用半監(jiān)督式學(xué)習(xí)方法,給剩余的詞語(yǔ)都標(biāo)記上合適的類別(ROTFL由于與“笑”語(yǔ)義上比較接近,也被標(biāo)記為“有趣”的類別)。
用詞向量和圖結(jié)構(gòu)方法學(xué)習(xí)詞語(yǔ)的情感關(guān)系
對(duì)于大數(shù)據(jù)集的應(yīng)用產(chǎn)品,比如觀察到的數(shù)據(jù)(如圖像的像素值)或者通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)到的表達(dá)(如詞向量),不可能直接計(jì)算圖上兩兩節(jié)點(diǎn)之間的相似度。Expander團(tuán)隊(duì)采用近似計(jì)算的方法來(lái)解決這一問(wèn)題。
基于圖方法的實(shí)踐應(yīng)用
Expander團(tuán)隊(duì)的機(jī)器學(xué)習(xí)系統(tǒng)如今已經(jīng)被廣泛應(yīng)用于大規(guī)模的圖數(shù)據(jù)上(十億級(jí)節(jié)點(diǎn)和百億級(jí)邊),用于識(shí)別和理解自然語(yǔ)言、圖像、視頻、搜索詞等,支持Google的眾多產(chǎn)品,比如問(wèn)答、翻譯、物體識(shí)別、對(duì)話理解等等。
隨著最近Allo的版本升級(jí),幾百萬(wàn)的聊天用戶都能體驗(yàn)到由Expander團(tuán)隊(duì)的系統(tǒng)所支持的對(duì)話助手功能。而且,這種技術(shù)不僅僅用于云端的大規(guī)模模型,也能用于安卓系統(tǒng)的智能移動(dòng)設(shè)備。我們期待未來(lái)幾年內(nèi)Expander能夠解決更多挑戰(zhàn)性的問(wèn)題。
評(píng)論
基于圖的傳播方法早在十多年前就被人廣為使用。Google的貢獻(xiàn)在于將這一的方法推廣到海量數(shù)據(jù)集,使得用有限的空間和計(jì)算資源能夠處理幾十億節(jié)點(diǎn)和幾百億關(guān)聯(lián)的巨型圖。而且,半監(jiān)督式的學(xué)習(xí)方法只需要少量的標(biāo)記數(shù)據(jù),解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法面臨的人工標(biāo)注大量數(shù)據(jù)的問(wèn)題。因此,我們可以充分利用大數(shù)據(jù)時(shí)代在各個(gè)渠道生產(chǎn)的各種結(jié)構(gòu)和類型的數(shù)據(jù)。
文中介紹了這套系統(tǒng)已經(jīng)應(yīng)用于Allo的智能回復(fù)功能,它可以自動(dòng)分析前后對(duì)話和對(duì)方發(fā)送的圖片,自動(dòng)幫用戶生成要回復(fù)的話語(yǔ)。本人比較好奇的是基于圖的方法在個(gè)性化回復(fù)方面有什么改進(jìn),系統(tǒng)如何針對(duì)用戶的聊天習(xí)慣生產(chǎn)回復(fù)內(nèi)容,在龐大數(shù)據(jù)的前提下它能多像使用者。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:Goolge圖學(xué)習(xí)技術(shù)揭秘
本文網(wǎng)址:http://www.ezxoed.cn/html/solutions/14019320187.html