在AI時代,我們希望計算機能夠擁有視覺、聽覺、行動以及語言的智能,而相對于聽和看以及行動,語言是我們?nèi)祟悈^(qū)別于其他動物的最重要特征之一。語言是我們思維的載體,也因此我們對于語言的理解和處理,變得尤為重要。而在計算機領(lǐng)域,自然語言處理(NLP, Natural Language Processing)就是研究如何讓計算機理解并生成人類的語言,從而和人類平等流暢地溝通交流。自然語言處理技術(shù) 在百度已經(jīng)有悠久的歷史,早在百度誕生之時就成為搜索技術(shù)的重要組成部分,一直伴隨著百度的發(fā)展而進步。從中文分詞、詞性分析、改寫,到機器翻譯、篇章分析、語義理解、對話系統(tǒng)等等,NLP技術(shù)已成功應(yīng)用在百度各類產(chǎn)品中。
近期由百度開發(fā)者中心主辦、極客邦科技承辦的75期百度技術(shù)沙龍上,百度NLP和AI開放平臺的多位資深工程師和產(chǎn)品經(jīng)理,針對開發(fā)者如何利用百度NLP技術(shù)更好解決實際應(yīng)用問題,進行了具體分享。百度AI技術(shù)生態(tài)部高級運營顧問張揚,通過具體應(yīng)用案例,讓大家對百度NLP開放的核心技術(shù)有一個感性的認知;自然語言處理部主任架構(gòu)師孫宇,針對NLP語義計算技術(shù)的具體問題深入分析;自然語言處理部資深研發(fā)工程師何伯磊,用大量場景詳細解釋了情感分析領(lǐng)域的技術(shù)應(yīng)用;自然語言處理部資深研發(fā)工程師姜迪,詳細闡述了概率圖模型技術(shù)如何應(yīng)用;百度AI技術(shù)生態(tài)部資深產(chǎn)品經(jīng)理張晶晶,為大家現(xiàn)場指導百度AI開放平臺的使用方法。
NLP是什么?
NLP是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP由兩個主要的技術(shù)領(lǐng)域構(gòu)成:自然語言理解和自然語言生成。
-
自然語言理解方向,主要目標是幫助機器更好理解人的語言,包括基礎(chǔ)的詞法、句法等語義理解,以及需求、篇章、情感層面的高層理解。
-
自然語言生成方向,主要目標是幫助機器生成人能夠理解的語言,比如文本生成、自動文摘等。
NLP技術(shù)基于大數(shù)據(jù)、知識圖譜、機器學習、語言學等技術(shù)和資源,并可以形成機器翻譯、深度問答、對話系統(tǒng)的具體應(yīng)用系統(tǒng),進而服務(wù)于各類實際業(yè)務(wù)和產(chǎn)品。
我們?yōu)槭裁葱枰狽LP?
在演講中,為了讓大家有更直觀的感受,張揚首先舉了個生活中的例子:人們在用百度搜索一個生僻字時,不知道拼音的情況下會搜索:“4個又念什么?”,我們發(fā)現(xiàn),搜索結(jié)果一定是告訴你這個“叕”字念什么,而不是“4個又念什么”的這幾個詞表面的匹配結(jié)果,這其中已經(jīng)用到自然語言理解的能力了,它幫助搜索引擎理解用戶需要搜的是“由4個又組成的字”,而不是“4個又是什么”這幾個孤零零的詞。由此可見,NLP技術(shù)真正能夠知道你所說的話的深層語義是什么,這項技術(shù)也把人工智能推向了一個新的高度。
那么NLP究竟能能夠干什么?如何幫助業(yè)務(wù)實現(xiàn),張揚繼續(xù)介紹了百度NLP開放的幾項典型技術(shù):
情感傾向分析
針對帶有主觀描述的中文文本,可自動判斷該文本的情感極性類別并給出相應(yīng)的置信度。情感極性分為積極、消極、中性。情感傾向分析能幫助企業(yè)理解用戶消費習慣、分析熱點話題和危機輿情監(jiān)控,為企業(yè)提供有力的決策支持。
評論觀點抽取
自動分析評論關(guān)注點和評論觀點,并輸出評論觀點標簽及評論觀點極性。目前支持13類產(chǎn)品用戶評論的觀點抽取,包括美食、酒店、汽車、景點等,可幫助商家進行產(chǎn)品分析,輔助用戶進行消費決策。
詞義相似度計算
用于計算兩個給定詞語的語義相似度,基于自然語言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。詞義相似度是自然語言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、query改寫、詞性標注等常用技術(shù)的基礎(chǔ)之一。
詞法分析
百度詞法分析向用戶提供分詞、詞性標注、命名實體識別三大功能。該服務(wù)能夠識別出文本串中的基本詞匯標注和詞匯的詞性,并進一步識別出命名實體,百度詞法分析的算法效果大幅領(lǐng)先已公開的主流中文詞法分析模型。
短文本相似度
能夠提供不同短文本之間相似度的計算,輸出的相似度是一個介于-1到1之間的實數(shù)值,越接近1則相似度越高。這個相似度值可以直接用于結(jié)果排序,也可以作為一維基礎(chǔ)特征作用于更復雜的系統(tǒng)。
DNN語言模型
語言模型是通過計算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語言表達習慣。在機器翻譯、拼寫糾錯、語音識別、問答系統(tǒng)、詞性標注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。
詞向量表示
詞向量表示表示是通過訓練的方法,將語言詞表中的詞映射成一個長度固定的向量。詞表中所有的詞向量構(gòu)成一個向量空間,每一個詞都是這個詞向量空間中的一個點,利用這種方法,實現(xiàn)文本的可計算。
依存句法分析
利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息(如主謂、動賓、定中等結(jié)構(gòu)關(guān)系)
并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu)(如主謂賓、定狀補等)。
百度語義計算技術(shù)是如何實現(xiàn)的?
在各個NLP開放接口之中,語義計算是一個非;A(chǔ)的技術(shù)。百度NLP部門的主任架構(gòu)師孫宇主要圍繞NLP語義計算整體技術(shù)框架展開分析,核心介紹了語義表示技術(shù)和語義匹配技術(shù)。百度NLP語義計算整體框架主要分三大部分(如下圖),最底層依托于大數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和用戶行為數(shù)據(jù),以及高性能集群(GPU、CPU和FPGA),打造了基于DNN和概率圖模型的語義計算引擎,通過文本輸入到語義計算引擎當中,可以得到文本的語義表示,進而基于這個語義表示,進行語義層面的計算,包括語義匹配、語義檢索、文本分類、序列生成以及序列標注。
目前,百度在語義方面開放了四個技術(shù),囊括了詞匯和句子兩個層面的語義技術(shù)。詞匯層面包括了詞語義向量表示,詞義相似度計算;句子層面的包括短文本語義相似度計算和DNN語言模型。孫宇對這些技術(shù)背后的原理進行了詳細的介紹。
語義表示技術(shù)業(yè)界很早就開始研究,主要有兩種流派,一個是形式化的方法,一個是基于統(tǒng)計的方法。關(guān)于基于形式化的方法,在上世紀八十年代普林斯頓有科學家提出:基于語言學知識構(gòu)建一個詞圖,把知識通過詞與詞之間的關(guān)系構(gòu)建到這個圖里。九十年代又有人提出,將自然語言表示成一種邏輯的表達式,可以直接用于計算機計算和執(zhí)行。但這兩個技術(shù)都存在一個問題:自動化程度不高,適用性較差,因此,百度NLP主要采用基于統(tǒng)計的方法。
短文本語義相似度計算是他們重點打造、應(yīng)用廣泛的技術(shù)。其中的核心模型是利用他們2013年開始研發(fā)的SimNet語義匹配框架,在千億級別真實點擊數(shù)據(jù)訓練得到。該框架的基礎(chǔ)匹配算法上包含兩種匹配范式,一種側(cè)重于表示層建模,另外一種則更側(cè)重于匹配層建模。這兩種模型各有優(yōu)勢,可解決不同問題。另外,針對不同應(yīng)用場景他們還擴展研發(fā)了基于字符級別匹配和多視角匹配技術(shù),這些技術(shù)都廣泛應(yīng)用于百度內(nèi)部各產(chǎn)品中。
百度自然語言處理在情感分析領(lǐng)域有哪些技術(shù)和應(yīng)用?
在演講中,何伯磊主要針對用戶日常的使用場景,分析了情感分析技術(shù)的原理和實際應(yīng)用。百度情感分析技術(shù)依托于評論大數(shù)據(jù)、深度學習、語義理解等基礎(chǔ)技術(shù),建立了一套完整情感分類與觀點挖掘的核心技術(shù)。在情感分類方面,我們研發(fā)了情感傾向性分析、情感的情緒分析,情感對象識別以及句子的主客觀的分析。在觀點挖掘方面,我們通過情感搭配知識自動構(gòu)建和觀點計算技術(shù),我們能有效的進行文本數(shù)據(jù)的觀點抽取。百度依托這些核心的技術(shù),進行用戶產(chǎn)品開發(fā)。
這里重點介紹兩類核心技術(shù):
情感傾向性分析
情感傾向分析任務(wù)目標是能夠判斷用戶文本是積極、消極或是中性的情感。傳統(tǒng)方法有兩類:一類利用情感詞典進行規(guī)則匹配的方法進行判斷,另外一類基于情感詞典和文本特征建立一個2分類任務(wù)的方法 。百度情感傾向性分析基于深度學習的方法,分別建立了句子級、實體級、篇章級多粒度完整的分析任務(wù)。句子級粒度上,通過基于Bi-LSTM分類方法,系統(tǒng)更好的捕捉了情感極性在前后文表達的信息,效果上相對于傳統(tǒng)的方法有了很大的提升。實體級粒度的任務(wù)概念稍有晦澀,舉個例子:《成龍對戰(zhàn)狼2的看法》一篇文章可能有多個主題,這個任務(wù)就是希望能夠把這篇文章對于“吳京”的態(tài)度分析出來。在這個任務(wù)中,我們通過建立層次化的語義表達方法,讓整個系統(tǒng)更加精準的進行分析和判斷。
評論觀點抽取的技術(shù)
評論觀點抽取目標:給定一個文本,把其中表達觀點的信息抽取出來。舉個例子,用戶的評論:“這家旅店的服務(wù)還不錯,但是房間比較簡陋”,我們目標把“服務(wù)不錯、房間簡陋”這樣的關(guān)鍵觀點信息抽取出來。評論觀點抽取技術(shù)在當前互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用十分廣泛,但是召回率一直不高,百度的評論觀點抽取技術(shù)將任務(wù)從應(yīng)用需求進行細致分析拆解,通過基于情感搭配的方法,基于語義計算的方法,基于維度預(yù)測的方法,以及基于維度預(yù)測加情感極性分類的方法完美的解決了應(yīng)用中各種的問題,這也是一個技術(shù)和應(yīng)用完結(jié)合經(jīng)典案例。
概率圖模型技術(shù)如何應(yīng)用?
姜迪分享的主題是《Familia可配置的主題模型框架》,F(xiàn)amilia是家族、家庭的意思。顧名思義,這個框架的特點就是涵蓋了一族具有較大的工業(yè)價值的主題模型,這樣一來,一線的工程師就有很多靈活性,可以根據(jù)具體任務(wù),來選擇適用的模型。
百度有一個貝葉斯技術(shù)體系的框架,主要分三大類:第一類是主題模型,這個框架的特點就是它有一個自配置的功能;第二類是點擊模型,主要是應(yīng)用在搜索引擎的領(lǐng)域,來量化分析用戶的搜索行為以及搜索查詢和網(wǎng)頁的相關(guān)性;第三類是分類模型,包含最常見的基于貝葉斯網(wǎng)的分類器。
主題模型框架中有十幾個主流的主題模型,其中包含LDA模型、引入了句子結(jié)構(gòu)的SentenceLDA模型、引入了監(jiān)督信號的SupervisedLDA,以及其他具有工業(yè)價值的主題模型,并且支持用戶根據(jù)具體任務(wù)設(shè)計對應(yīng)的模型。
那么,為什么要設(shè)計Familia這個主題框架?業(yè)界大部分主題模型工具只支持PLSA和LDA兩種模型,這兩種模型非常類似,它們只支持一種數(shù)據(jù)假設(shè),也就是說,我們只能用一種模型來適用不同的場景,不能支持用戶的根據(jù)具體任務(wù)自定義擴展。當用戶的數(shù)據(jù)本身和這兩個模型的假設(shè)有較大差異時,效果可想而知。另一方面,當前的主題模型工具對下游的應(yīng)用并不太友好,這些工作往往只注重模型的訓練,忽略了模型如何在具體任務(wù)中應(yīng)用。從模型的訓練到應(yīng)用之間有很長的距離,如何消除這個距離是我們這個工作的重點。Familia在百度的應(yīng)用場景其實非常多,包含了大家耳熟能詳?shù)陌俣人阉、百度新聞、糯米、貼吧這些平臺,也部署到了百度自然語言的云處理平臺上,這個工具目前每天有3000萬次的響應(yīng)需求。
Familia框架是怎么在工業(yè)界場景進行應(yīng)用的?第一步,數(shù)據(jù)預(yù)處理,這里可以支持多種類型的數(shù)據(jù),包括常見的網(wǎng)頁數(shù)據(jù)、新聞數(shù)據(jù)和糯米數(shù)據(jù),在內(nèi)部將數(shù)據(jù)預(yù)處理步驟和百度的分詞進行了一個深度的融合。在分詞的前和后我們還有多種多樣的過濾器,用戶可以根據(jù)自己的需求,來選擇什么信息要過濾掉,什么信息可以保留。第二步,概率圖模型配置,F(xiàn)amilia支持多種主流的已有的主題模型,同時用戶也可以自定義自己的主題模型。這個過程是通過一種數(shù)據(jù)組織抽象存儲多種圖模型的信息來實現(xiàn)的。第三步,采樣公式自動推導,F(xiàn)amilia中的參數(shù)推導引擎可以自動推導出采樣公式,降低了主題模型應(yīng)用的數(shù)學門檻。第四步,模型的后期處理,F(xiàn)amilia進一步對訓練好的主題模型進行優(yōu)化和壓縮操作。第五步,F(xiàn)amilia抽象了語義表示和語義匹配兩個應(yīng)用范式,用戶可以根據(jù)具體任務(wù)來使用對應(yīng)的范式。
目前Familia已經(jīng)在github上完成開源(https://github.com/baidu/familia),第一期提供網(wǎng)頁、新聞、小說等多個垂類語料訓練的工業(yè)級主題模型,并提供語義表示、語義匹配兩類應(yīng)用范式的大量應(yīng)用場景指導。
對開發(fā)者而言,如何更好的使用百度AI開放平臺?
張晶晶主要就自然語言使用的相關(guān)問題及整個百度AI開放平臺的使用方法進行了介紹。目前百度自然語言處理技術(shù)開放8項語言處理的基礎(chǔ)技術(shù),基于這些基礎(chǔ)的能力,百度對外開放了很多感知層和認知層的技術(shù),在上面搭建了我們一個開放平臺,在這個平臺上百度把我們所有成熟的AI技術(shù)都在這里統(tǒng)一對外開放,使大家能夠通過接口的方式,直接調(diào)用、直接使用,比如語音識別、語音合成、文字識別的各種模板、端口,人臉識別等。另外,百度也將開放個性化和定制服務(wù),主要是有詞法分析、評論觀點抽取和情感傾向分析。詞法分析的定制,可以幫助我們的行業(yè)客戶實現(xiàn)個性化需求,若有識別不了的詞匯,可以通過上傳詞表的方式,來把模型訓練的更適合自己。
百度AI平臺為開發(fā)過程提供了三方面的支持,首先是開發(fā)組建,其次是管理功能和配套資源。開發(fā)組建方面,每個技術(shù)領(lǐng)域里都以標準的方式提供了API和SDK,有些方向上還提供了參考代碼。有一些需要獨立去配置的模塊單獨做了配置系統(tǒng),讓開發(fā)者可以先在平臺上做好配置之后就可以直接調(diào)用。在后臺管理上,有基礎(chǔ)的應(yīng)用管理,也支持很多跟企業(yè)業(yè)務(wù)相關(guān)的個性化的配置,隨時查看調(diào)用的統(tǒng)計信息。開發(fā)者還可以在產(chǎn)品上使用百度LOGO,標識出百度AI技術(shù)。開發(fā)者如果應(yīng)用百度的AI技術(shù)解決了行業(yè)中的典型問題,百度也會擔任伯樂的角色,將其案例進行宣傳推廣。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:最全面的百度NLP自然語言處理技術(shù)解析
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121521444.html