| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>管理咨詢(xún) >>CIO技術(shù)專(zhuān)欄 >>CIO云計(jì)算

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷(xiāo)存軟件|免費(fèi)倉(cāng)庫(kù)管理軟件|免費(fèi)下載專(zhuān)業(yè)資訊網(wǎng)-大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí)

大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí)

發(fā)布日期：2017-10-9 10:31:26 來(lái)源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：機(jī)器學(xué)習(xí)（MachineLearning，ML）是一門(mén)多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。 原標(biāo)題：大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí) 原作者：2017/10/9來(lái)源：36大數(shù)據(jù)作者：朱潔
關(guān)鍵字：大數(shù)據(jù)數(shù)據(jù)

機(jī)器學(xué)習(xí)（Machine Learning，ML）是一門(mén)多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。其專(zhuān)門(mén)研究計(jì)算機(jī)是怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為，以獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)，使之不斷改善自身的性能。此外，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有很大的交集。本文將從架構(gòu)和應(yīng)用角度去解讀這兩個(gè)領(lǐng)域。

機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫(kù)界提供的數(shù)據(jù)管理技術(shù)。從數(shù)據(jù)分析的角度來(lái)看，數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有很多相似之處，但不同之處也十分明顯，例如，數(shù)據(jù)挖掘并沒(méi)有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù)，數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)進(jìn)行的，等等。從某種意義上說(shuō)，機(jī)器學(xué)習(xí)的科學(xué)成分更重一些，而數(shù)據(jù)挖掘的技術(shù)成分更重一些。

學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征，不具有學(xué)習(xí)能力的系統(tǒng)很難稱(chēng)之為一個(gè)真正的智能系統(tǒng)，而機(jī)器學(xué)習(xí)則希望（計(jì)算機(jī)）系統(tǒng)能夠利用經(jīng)驗(yàn)來(lái)改善自身的性能，因此該領(lǐng)域一直是人工智能的核心研究領(lǐng)域之一。在計(jì)算機(jī)系統(tǒng)中，“經(jīng)驗(yàn)”通常是以數(shù)據(jù)的形式存在的，因此，機(jī)器學(xué)習(xí)不僅涉及對(duì)人的認(rèn)知學(xué)習(xí)過(guò)程的探索，還涉及對(duì)數(shù)據(jù)的分析處理。實(shí)際上，機(jī)器學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一。由于幾乎所有的學(xué)科都要面對(duì)數(shù)據(jù)分析任務(wù)，因此機(jī)器學(xué)習(xí)已經(jīng)開(kāi)始影響到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域，甚至影響到計(jì)算機(jī)科學(xué)之外的很多學(xué)科。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具。然而數(shù)據(jù)挖掘不僅僅要研究、拓展、應(yīng)用一些機(jī)器學(xué)習(xí)方法，還要通過(guò)許多非機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)倉(cāng)儲(chǔ)、大規(guī)模數(shù)據(jù)、數(shù)據(jù)噪聲等實(shí)踐問(wèn)題。機(jī)器學(xué)習(xí)的涉及面也很寬，常用在數(shù)據(jù)挖掘上的方法通常只是“從數(shù)據(jù)學(xué)習(xí)”。然而機(jī)器學(xué)習(xí)不僅僅可以用在數(shù)據(jù)挖掘上，一些機(jī)器學(xué)習(xí)的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大，如增強(qiáng)學(xué)習(xí)與自動(dòng)控制等。所以筆者認(rèn)為，數(shù)據(jù)挖掘是從目的而言的，機(jī)器學(xué)習(xí)是從方法而言的，兩個(gè)領(lǐng)域有相當(dāng)大的交集，但不能等同。

典型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)過(guò)程

圖1是一個(gè)典型的推薦類(lèi)應(yīng)用，需要找到“符合條件的”潛在人員。要從用戶(hù)數(shù)據(jù)中得出這張列表，首先需要挖掘出客戶(hù)特征，然后選擇一個(gè)合適的模型來(lái)進(jìn)行預(yù)測(cè)，最后從用戶(hù)數(shù)據(jù)中得出結(jié)果。

圖1

把上述例子中的用戶(hù)列表獲取過(guò)程進(jìn)行細(xì)分，有如下幾個(gè)部分（見(jiàn)圖2）。

圖2

業(yè)務(wù)理解：理解業(yè)務(wù)本身，其本質(zhì)是什么？是分類(lèi)問(wèn)題還是回歸問(wèn)題？數(shù)據(jù)怎么獲�。繎�(yīng)用哪些模型才能解決？

數(shù)據(jù)理解：獲取數(shù)據(jù)之后，分析數(shù)據(jù)里面有什么內(nèi)容、數(shù)據(jù)是否準(zhǔn)確，為下一步的預(yù)處理做準(zhǔn)備。

數(shù)據(jù)預(yù)處理：原始數(shù)據(jù)會(huì)有噪聲，格式化也不好，所以為了保證預(yù)測(cè)的準(zhǔn)確性，需要進(jìn)行數(shù)據(jù)的預(yù)處理。

特征提�。禾卣魈崛∈菣C(jī)器學(xué)習(xí)最重要、最耗時(shí)的一個(gè)階段。

模型構(gòu)建：使用適當(dāng)?shù)乃惴�，獲取預(yù)期準(zhǔn)確的值。

模型評(píng)估：根據(jù)測(cè)試集來(lái)評(píng)估模型的準(zhǔn)確度。

模型應(yīng)用：將模型部署、應(yīng)用到實(shí)際生產(chǎn)環(huán)境中。

應(yīng)用效果評(píng)估：根據(jù)最終的業(yè)務(wù)，評(píng)估最終的應(yīng)用效果。

整個(gè)過(guò)程會(huì)不斷反復(fù)，模型也會(huì)不斷調(diào)整，直至達(dá)到理想效果。

機(jī)器學(xué)習(xí)概覽

機(jī)器學(xué)習(xí)的算法有很多，這里從兩個(gè)方面進(jìn)行介紹：一個(gè)是學(xué)習(xí)方式，另一個(gè)是算法類(lèi)似性。

學(xué)習(xí)方式

根據(jù)數(shù)據(jù)類(lèi)型的不同，對(duì)一個(gè)問(wèn)題的建�？梢杂胁煌姆绞健Ｔ跈C(jī)器學(xué)習(xí)或人工智能領(lǐng)域，人們首先會(huì)考慮算法的學(xué)習(xí)方式。在機(jī)器學(xué)習(xí)領(lǐng)域有如下幾種主要的學(xué)習(xí)方式。

監(jiān)督式學(xué)習(xí)：在監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)被稱(chēng)為“訓(xùn)練數(shù)據(jù)”，每組訓(xùn)練數(shù)據(jù)都有一個(gè)明確的標(biāo)識(shí)或結(jié)果，如對(duì)防垃圾郵件系統(tǒng)中的“垃圾郵件”、“非垃圾郵件”，對(duì)手寫(xiě)數(shù)字識(shí)別中的“1”、“2”、“3”、“4”等。在建立預(yù)測(cè)模型的時(shí)候，監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程，將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較，不斷地調(diào)整預(yù)測(cè)模型，直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見(jiàn)應(yīng)用場(chǎng)景包括分類(lèi)問(wèn)題和回歸問(wèn)題。常見(jiàn)算法有邏輯回歸和反向傳遞神經(jīng)網(wǎng)絡(luò)。

非監(jiān)督式學(xué)習(xí)：在非監(jiān)督式學(xué)習(xí)下，數(shù)據(jù)并不被特別標(biāo)識(shí)，學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)及聚類(lèi)等。常見(jiàn)算法包括Apriori算法和K-Means算法。

半監(jiān)督式學(xué)習(xí)：在半監(jiān)督式學(xué)習(xí)下，輸入數(shù)據(jù)部分被標(biāo)識(shí)，部分沒(méi)有被標(biāo)識(shí)。這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè)，但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便合理地組織數(shù)據(jù)進(jìn)行預(yù)測(cè)。其應(yīng)用場(chǎng)景包括分類(lèi)和回歸。常見(jiàn)算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸。這些算法首先試圖對(duì)未標(biāo)識(shí)的數(shù)據(jù)進(jìn)行建模，然后在此基礎(chǔ)上對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)，如圖論推理算法或拉普拉斯支持向量機(jī)等。

強(qiáng)化學(xué)習(xí)：在強(qiáng)化學(xué)習(xí)下，輸入數(shù)據(jù)作為對(duì)模型的反饋，不像監(jiān)督模型那樣，輸入數(shù)據(jù)僅僅作為一種檢查模型對(duì)錯(cuò)的方式。在強(qiáng)化學(xué)習(xí)下，輸入數(shù)據(jù)直接反饋到模型，模型必須對(duì)此立刻做出調(diào)整。常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)及機(jī)器人控制等。常見(jiàn)算法包括Q-Learning及時(shí)間差學(xué)習(xí)（Temporal Difference Learning）等。

在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下，人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)。在圖像識(shí)別等領(lǐng)域，由于存在大量的非標(biāo)識(shí)數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù)，目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱門(mén)的話(huà)題。而強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域。

算法類(lèi)似性

根據(jù)算法的功能和形式的類(lèi)似性，可以對(duì)算法進(jìn)行分類(lèi)，如基于樹(shù)的算法、基于神經(jīng)網(wǎng)絡(luò)的算法等。當(dāng)然，機(jī)器學(xué)習(xí)的范圍非常龐大，有些算法很難明確歸到某一類(lèi)。而對(duì)于有些分類(lèi)來(lái)說(shuō)，同一分類(lèi)的算法可以針對(duì)不同類(lèi)型的問(wèn)題。這里，我們盡量把常用的算法按照最容易理解的方式進(jìn)行分類(lèi)。

回歸算法：回歸算法是試圖采用對(duì)誤差的衡量來(lái)探索變量之間的關(guān)系的一類(lèi)算法�；貧w算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。常見(jiàn)的回歸算法包括最小二乘法、邏輯回歸、逐步式回歸、多元自適應(yīng)回歸樣條及本地散點(diǎn)平滑估計(jì)等。

基于實(shí)例的算法：基于實(shí)例的算法常常用來(lái)對(duì)決策問(wèn)題建立模型，這樣的模型常常先選取一批樣本數(shù)據(jù)，然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較，從而找到最佳的匹配。因此，基于實(shí)例的算法常常被稱(chēng)為“贏家通吃學(xué)習(xí)”或者“基于記憶的學(xué)習(xí)”。常見(jiàn)的算法包括k-Nearest Neighbor（kNN）、學(xué)習(xí)矢量量化（Learning Vector Quantization，LVQ）及自組織映射算法（Self-Organizing Map，SOM）等。

正則化算法：正則化算法是其他算法（通常是回歸算法）的延伸，根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整。正則化算法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì)，而對(duì)復(fù)雜算法予以懲罰。常見(jiàn)的算法包括Ridge Regression、Least Absolute Shrinkage and Selection Operator（LASSO）及彈性網(wǎng)絡(luò)（Elastic Net）等。

決策樹(shù)算法：決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型，常用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)算法包括分類(lèi)及回歸樹(shù)（Classification and Regression Tree，CART）、ID3（Iterative Dichotomiser 3）、C4.5、Chi-squared Automatic Interaction Detection（CHAID）、Decision Stump、隨機(jī)森林（Random Forest）、多元自適應(yīng)回歸樣條（MARS）及梯度推進(jìn)機(jī)（GBM）等。

貝葉斯算法：貝葉斯算法是基于貝葉斯定理的一類(lèi)算法，主要用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)的算法包括樸素貝葉斯算法、平均單依賴(lài)估計(jì)（Averaged One-Dependence Estimators，AODE）及Bayesian Belief Network（BBN）等。

基于核的算法：基于核的算法中最著名的莫過(guò)于支持向量機(jī)（SVM）�；诤说乃惴ㄊ前演斎霐�(shù)據(jù)映射到一個(gè)高階的向量空間，在這些高階向量空間里，有些分類(lèi)或者回歸問(wèn)題能夠更容易地解決。常見(jiàn)的基于核的算法包括支持向量機(jī)（Support Vector Machine，SVM）、徑向基函數(shù)（Radial Basis Function，RBF）及線(xiàn)性判別分析（Linear Discriminate Analysis，LDA）等。

聚類(lèi)算法：聚類(lèi)算法通常按照中心點(diǎn)或者分層的方式對(duì)輸入數(shù)據(jù)進(jìn)行歸并。所有的聚類(lèi)算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類(lèi)。常見(jiàn)的聚類(lèi)算法包括K-Means算法及期望最大化算法（EM）等。

關(guān)聯(lián)規(guī)則學(xué)習(xí)：關(guān)聯(lián)規(guī)則學(xué)習(xí)通過(guò)尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則，來(lái)找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見(jiàn)的算法包括Apriori算法和Eclat算法等。

人工神經(jīng)網(wǎng)絡(luò)算法：人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)，是一類(lèi)模式匹配算法，通常用于解決分類(lèi)和回歸問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支，有幾百種不同的算法（深度學(xué)習(xí)就是其中的一類(lèi)算法）。常見(jiàn)的人工神經(jīng)網(wǎng)絡(luò)算法包括感知器神經(jīng)網(wǎng)絡(luò)、反向傳遞、Hopfield網(wǎng)絡(luò)、自組織映射及學(xué)習(xí)矢量量化等。

深度學(xué)習(xí)算法：深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在計(jì)算能力變得日益廉價(jià)的今天，深度學(xué)習(xí)算法試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)。很多深度學(xué)習(xí)算法是半監(jiān)督式學(xué)習(xí)算法，用來(lái)處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見(jiàn)的深度學(xué)習(xí)算法包括受限波爾茲曼機(jī)（RBN）、Deep Belief Networks（DBN）、卷積網(wǎng)絡(luò)（Convolutional Network）及堆棧式自動(dòng)編碼器（Stacked Auto-encoders）等。

降低維度算法：與聚類(lèi)算法一樣，降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，不過(guò)降低維度算法通過(guò)非監(jiān)督式學(xué)習(xí)，試圖利用較少的信息來(lái)歸納或者解釋數(shù)據(jù)。這類(lèi)算法可以用于高維數(shù)據(jù)的可視化，或者用來(lái)簡(jiǎn)化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見(jiàn)的降低維度算法包括主成分分析（Principle Component Analysis，PCA）、偏最小二乘回歸（Partial Least Square Regression，PLSR）、Sammon映射、多維尺度（Multi-Dimensional Scaling，MDS）及投影追蹤（Projection Pursuit）等。

集成算法：集成算法用一些相對(duì)較弱的學(xué)習(xí)模型獨(dú)立地就同樣的樣本進(jìn)行訓(xùn)練，然后把結(jié)果整合起來(lái)進(jìn)行整體預(yù)測(cè)。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的、較弱的學(xué)習(xí)模型，以及如何把學(xué)習(xí)結(jié)果整合起來(lái)。這是一類(lèi)非常強(qiáng)大的算法，同時(shí)也非常流行。常見(jiàn)的集成算法包括Boosting、Bootstrapped Aggregation（Bagging）、AdaBoost、堆疊泛化（Stacked Generalization，Blending）、梯度推進(jìn)機(jī)（Gradient Boosting Machine，GBM）及隨機(jī)森林（Random Forest）等。

機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例

前面了解了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的基本概念，下面來(lái)看一下業(yè)界成熟的案例，對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘有一個(gè)直觀的理解。

尿布和啤酒的故事

先來(lái)看一則有關(guān)數(shù)據(jù)挖掘的故事——“尿布與啤酒”。

總部位于美國(guó)阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買(mǎi)習(xí)慣，沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析，想知道顧客經(jīng)常一起購(gòu)買(mǎi)的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門(mén)店的詳細(xì)原始交易數(shù)據(jù)，在這些原始交易數(shù)據(jù)的基礎(chǔ)上，沃爾瑪利用NCR數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是：跟尿布一起購(gòu)買(mǎi)最多的商品竟然是啤酒！這是數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析的結(jié)果，反映了數(shù)據(jù)的內(nèi)在規(guī)律。那么，這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎？是否有利用價(jià)值？

于是，沃爾瑪派出市場(chǎng)調(diào)查人員和分析師對(duì)這一數(shù)據(jù)挖掘結(jié)果進(jìn)行調(diào)查分析，從而揭示出隱藏在“尿布與啤酒”背后的美國(guó)人的一種行為模式：在美國(guó)，一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布，而他們中有30%～40%的人同時(shí)也為自己買(mǎi)一些啤酒。產(chǎn)生這一現(xiàn)象的原因是：美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買(mǎi)尿布，而丈夫們?cè)谫I(mǎi)完尿布后又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購(gòu)買(mǎi)的機(jī)會(huì)很多，于是沃爾瑪就在其各家門(mén)店將尿布與啤酒擺放在一起，結(jié)果是尿布與啤酒的銷(xiāo)售量雙雙增長(zhǎng)。

決策樹(shù)用于電信領(lǐng)域故障快速定位

電信領(lǐng)域比較常見(jiàn)的應(yīng)用場(chǎng)景是決策樹(shù)，利用決策樹(shù)來(lái)進(jìn)行故障定位。比如，用戶(hù)投訴上網(wǎng)慢，其中就有很多種原因，有可能是網(wǎng)絡(luò)的問(wèn)題，也有可能是用戶(hù)手機(jī)的問(wèn)題，還有可能是用戶(hù)自身感受的問(wèn)題。怎樣快速分析和定位出問(wèn)題，給用戶(hù)一個(gè)滿(mǎn)意的答復(fù)？這就需要用到?jīng)Q策樹(shù)。

圖3就是一個(gè)典型的用戶(hù)投訴上網(wǎng)慢的決策樹(shù)的樣例。

圖3

圖像識(shí)別領(lǐng)域

小米面孔相冊(cè)

這項(xiàng)功能的名字叫“面孔相冊(cè)”，可以利用圖像分析技術(shù)，自動(dòng)地對(duì)云相冊(cè)照片內(nèi)容按照面孔進(jìn)行分類(lèi)整理。開(kāi)啟“面孔相冊(cè)”功能后，可以自動(dòng)識(shí)別、整理和分類(lèi)云相冊(cè)中的不同面孔。

“面孔相冊(cè)”還支持手動(dòng)調(diào)整分組、移出錯(cuò)誤面孔、通過(guò)系統(tǒng)推薦確認(rèn)面孔等功能，從而彌補(bǔ)機(jī)器識(shí)別的不足。

這項(xiàng)功能的背后其實(shí)使用的是深度學(xué)習(xí)技術(shù)，自動(dòng)識(shí)別圖片中的人臉，然后進(jìn)行自動(dòng)識(shí)別和分類(lèi)。

支付寶掃臉支付

馬云在2015 CeBIT展會(huì)開(kāi)幕式上首次展示了螞蟻金服的最新支付技術(shù)“Smile to Pay”（掃臉支付），驚艷全場(chǎng)。支付寶宣稱(chēng)，F(xiàn)ace++ Financial人臉識(shí)別技術(shù)在LFW國(guó)際公開(kāi)測(cè)試集中達(dá)到99.5%的準(zhǔn)確率，同時(shí)還能運(yùn)用“交互式指令+連續(xù)性判定+3D判定”技術(shù)。人臉識(shí)別技術(shù)基于神經(jīng)網(wǎng)絡(luò)，讓計(jì)算機(jī)學(xué)習(xí)人的大腦，并通過(guò)“深度學(xué)習(xí)算法”大量訓(xùn)練，讓它變得極為“聰明”，能夠“認(rèn)人”。實(shí)現(xiàn)人臉識(shí)別不需要用戶(hù)自行提交照片，有資質(zhì)的機(jī)構(gòu)在需要進(jìn)行人臉識(shí)別時(shí)，可以向全國(guó)公民身份證號(hào)碼查詢(xún)服務(wù)中心提出申請(qǐng)，將采集到的照片與該部門(mén)的權(quán)威照片庫(kù)進(jìn)行比對(duì)。

也就是說(shuō)，用戶(hù)在進(jìn)行人臉識(shí)別時(shí)，只需打開(kāi)手機(jī)或電腦的攝像頭，對(duì)著自己的正臉進(jìn)行拍攝即可。在智能手機(jī)全面普及的今天，這個(gè)參與門(mén)檻低到可以忽略不計(jì)。

用戶(hù)容易擔(dān)心的隱私問(wèn)題在人臉識(shí)別領(lǐng)域也能有效避免，因?yàn)檎掌瑏?lái)源權(quán)威，同時(shí)，一種特有的“脫敏”技術(shù)可以將照片模糊處理成肉眼無(wú)法識(shí)別而只有計(jì)算機(jī)才能識(shí)別的圖像。

圖片內(nèi)容識(shí)別

前面兩個(gè)案例介紹的都是圖片識(shí)別，比圖片識(shí)別更難的是圖片語(yǔ)義的理解和提取，百度和Google都在進(jìn)行這方面的研究。

百度的百度識(shí)圖能夠有效地處理特定物體的檢測(cè)識(shí)別（如人臉、文字或商品）、通用圖像的分類(lèi)標(biāo)注，如圖4所示。

圖4

來(lái)自Google研究院的科學(xué)家發(fā)表了一篇博文，展示了Google在圖形識(shí)別領(lǐng)域的最新研究進(jìn)展�；蛟S未來(lái)Google的圖形識(shí)別引擎不僅能夠識(shí)別出圖片中的對(duì)象，還能夠?qū)φ麄€(gè)場(chǎng)景進(jìn)行簡(jiǎn)短而準(zhǔn)確的描述，如圖5所示。這種突破性的概念來(lái)自機(jī)器語(yǔ)言翻譯方面的研究成果：通過(guò)一種遞歸神經(jīng)網(wǎng)絡(luò)（RNN）將一種語(yǔ)言的語(yǔ)句轉(zhuǎn)換成向量表達(dá)，并采用第二種RNN將向量表達(dá)轉(zhuǎn)換成目標(biāo)語(yǔ)言的語(yǔ)句。

圖5

而Google將以上過(guò)程中的第一種RNN用深度卷積神經(jīng)網(wǎng)絡(luò)CNN替代，這種網(wǎng)絡(luò)可以用來(lái)識(shí)別圖像中的物體。通過(guò)這種方法可以實(shí)現(xiàn)將圖像中的對(duì)象轉(zhuǎn)換成語(yǔ)句，對(duì)圖像場(chǎng)景進(jìn)行描述。概念雖然簡(jiǎn)單，但實(shí)現(xiàn)起來(lái)十分復(fù)雜，科學(xué)家表示目前實(shí)驗(yàn)產(chǎn)生的語(yǔ)句合理性不錯(cuò)，但距離完美仍有差距，這項(xiàng)研究目前僅處于早期階段。圖6展示了通過(guò)此方法識(shí)別圖像對(duì)象并產(chǎn)生描述的過(guò)程。

圖6

自然語(yǔ)言識(shí)別

自然語(yǔ)言識(shí)別一直是一個(gè)非常熱門(mén)的領(lǐng)域，最有名的是蘋(píng)果的Siri，支持資源輸入，調(diào)用手機(jī)自帶的天氣預(yù)報(bào)、日常安排、搜索資料等應(yīng)用，還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào)，提供對(duì)話(huà)式的應(yīng)答。微軟的Skype Translator可以實(shí)現(xiàn)中英文之間的實(shí)時(shí)語(yǔ)音翻譯功能，將使得英文和中文普通話(huà)之間的實(shí)時(shí)語(yǔ)音對(duì)話(huà)成為現(xiàn)實(shí)。

Skype Translator的運(yùn)作機(jī)制如圖7所示。

圖7

在準(zhǔn)備好的數(shù)據(jù)被錄入機(jī)器學(xué)習(xí)系統(tǒng)后，機(jī)器學(xué)習(xí)軟件會(huì)在這些對(duì)話(huà)和環(huán)境涉及的單詞中搭建一個(gè)統(tǒng)計(jì)模型。當(dāng)用戶(hù)說(shuō)話(huà)時(shí)，軟件會(huì)在該統(tǒng)計(jì)模型中尋找相似的內(nèi)容，然后應(yīng)用到預(yù)先“學(xué)到”的轉(zhuǎn)換程序中，將音頻轉(zhuǎn)換為文本，再將文本轉(zhuǎn)換成另一種語(yǔ)言。

雖然語(yǔ)音識(shí)別一直是近幾十年來(lái)的重要研究課題，但是該技術(shù)的發(fā)展普遍受到錯(cuò)誤率高、麥克風(fēng)敏感度差異、噪聲環(huán)境等因素的阻礙。將深層神經(jīng)網(wǎng)絡(luò)（DNNs）技術(shù)引入語(yǔ)音識(shí)別，極大地降低了錯(cuò)誤率、提高了可靠性，最終使這項(xiàng)語(yǔ)音翻譯技術(shù)得以廣泛應(yīng)用。

深度學(xué)習(xí)

Artificial Intelligence（人工智能）是人類(lèi)美好的愿望之一。雖然計(jì)算機(jī)技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步，但截至目前，還沒(méi)有一臺(tái)計(jì)算機(jī)能夠產(chǎn)生“自我”的意識(shí)。的確，在人類(lèi)和大量現(xiàn)有數(shù)據(jù)的幫助下，計(jì)算機(jī)可以表現(xiàn)得十分強(qiáng)大，但是離開(kāi)了這兩者，它甚至都不能分辨兩只小動(dòng)物。

深度學(xué)習(xí)算法自動(dòng)提取分類(lèi)所需的低層次或者高層次特征。高層次特征是指該特征可以分級(jí)（層次）地依賴(lài)其他特征。例如，對(duì)于機(jī)器視覺(jué)，深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá)，如邊緣檢測(cè)器、小波濾波器等，然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá)，如這些低層次表達(dá)的線(xiàn)性或者非線(xiàn)性組合，然后重復(fù)這個(gè)過(guò)程，最后得到一個(gè)高層次的表達(dá)。

深度學(xué)習(xí)能夠得到更好地表示數(shù)據(jù)的特征，同時(shí)由于模型的層次、參數(shù)很多，容量足夠，因此，模型有能力表示大規(guī)模數(shù)據(jù)。所以對(duì)于圖像、語(yǔ)音這種特征不明顯（需要手工設(shè)計(jì)且很多沒(méi)有直觀的物理含義）的問(wèn)題，能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果。此外，從模式識(shí)別特征和分類(lèi)器的角度來(lái)看，深度學(xué)習(xí)框架將特征和分類(lèi)器結(jié)合到一個(gè)框架中，用數(shù)據(jù)去學(xué)習(xí)特征，在使用中減少了手工設(shè)計(jì)特征的巨大工作量，因此，不僅效果更好，而且使用起來(lái)也有很多方便之處。

當(dāng)然，深度學(xué)習(xí)本身并不是完美的，也不是解決任何機(jī)器學(xué)習(xí)問(wèn)題的利器，不應(yīng)該被放大到一個(gè)無(wú)所不能的程度。

小結(jié)

本文主要介紹了機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及當(dāng)前最熱門(mén)的深度學(xué)習(xí)。深度學(xué)習(xí)可以說(shuō)掀起了人工智能的又一次熱潮，但是大家要清楚地認(rèn)識(shí)到，這離真正的AI（人工智能）還差得很遠(yuǎn)。但總的來(lái)說(shuō)，我們離電影中描述的未來(lái)世界更近了一步，不是嗎？

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí)

本文網(wǎng)址：http://www.ezxoed.cn/html/consultation/10839721046.html

關(guān)鍵詞標(biāo)簽： 大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學(xué)習(xí),大數(shù)據(jù) 數(shù)據(jù),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷(xiāo)存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷(xiāo)存軟件,免費(fèi)進(jìn)銷(xiāo)存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門(mén)戶(hù)網(wǎng)

本文來(lái)源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。（請(qǐng)勿發(fā)郵件，由于垃圾郵件眾多，有可能會(huì)被當(dāng)作垃圾郵件處理掉，同時(shí)現(xiàn)在很用郵件處理事務(wù)了，郵件處理時(shí)效期為3天，如急件請(qǐng)直接QQ聯(lián)系。）

上一篇：沒(méi)有了！

下一篇：云數(shù)據(jù)庫(kù)產(chǎn)品及架構(gòu)設(shè)計(jì)背后的考量

相關(guān)文章

管理咨詢(xún)


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類(lèi) 按ERP企業(yè)規(guī)模分類(lèi) 按ERP管理領(lǐng)域分類(lèi) 按ERP軟件功能分類(lèi) 按ERP系統(tǒng)特性分類(lèi) 用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問(wèn)咨詢(xún) ERP管理咨詢(xún) ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專(zhuān)欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫(kù) 常見(jiàn)問(wèn)題資料庫(kù) 在線(xiàn)學(xué)習(xí)資料庫(kù) 日常辦公資料庫(kù) 企業(yè)管理知識(shí)庫(kù)

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠(chéng)聘英才聯(lián)系我們在線(xiàn)留言在線(xiàn)訂購(gòu)意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP顧問(wèn)咨詢(xún)

ERP原理知識(shí)

ERP實(shí)施培訓(xùn)

CIO技術(shù)專(zhuān)欄

CIO企業(yè)應(yīng)用

CIO網(wǎng)絡(luò)通信

CIO信息安全

CIO基礎(chǔ)設(shè)施

CIO云計(jì)算

拓步ERP視頻教程

即時(shí)聯(lián)系

服務(wù)熱線(xiàn)

快捷互動(dòng)

猜您喜歡