本文為鄂維南院士訪談?wù),文中探討了中?guó)在大數(shù)據(jù)發(fā)展中受到了哪些因素的制約。
近來(lái),大數(shù)據(jù)如浪潮般席卷全球。越來(lái)越多的國(guó)家開(kāi)始從戰(zhàn)略層面認(rèn)識(shí)大數(shù)據(jù),中國(guó)亦如此。然而任何發(fā)展都不應(yīng)盲目跟從,而應(yīng)該在發(fā)展中不斷認(rèn)識(shí)其發(fā)展的意義與遇到的困難挑戰(zhàn),要做到及時(shí)發(fā)現(xiàn)總結(jié),才能更好的發(fā)展。
那么,制約我國(guó)大數(shù)據(jù)發(fā)展的因素有哪些呢?
1、優(yōu)質(zhì)可用數(shù)據(jù)缺乏
很多人看到這點(diǎn)可能會(huì)感到奇怪。這幾年數(shù)據(jù)交易機(jī)構(gòu)如雨后春筍,“數(shù)據(jù)變現(xiàn)”成為很多擁有數(shù)據(jù)積累的傳統(tǒng)企業(yè)的新的生財(cái)法。如圖,2015年以來(lái),各地加速建立大數(shù)據(jù)交易平臺(tái),數(shù)據(jù)交易市場(chǎng)異;馃。
我們常常說(shuō),大數(shù)據(jù)最高的層次就是要用數(shù)據(jù)來(lái)形成智慧,使得社會(huì)各方面可以運(yùn)轉(zhuǎn)起來(lái)。做數(shù)據(jù)分析先要整合數(shù)據(jù),這是我們通常的理念。而數(shù)據(jù)本身我們可以從三個(gè)層面來(lái)看。
首先是“有沒(méi)有”,就是數(shù)據(jù)交易問(wèn)題。目前,我國(guó)大數(shù)據(jù)需求端以互聯(lián)網(wǎng)企業(yè)為主,覆蓋面不廣,在O2O趨勢(shì)下,大型互聯(lián)網(wǎng)廠商嘗試引入外部數(shù)據(jù)支撐金融、生活、語(yǔ)音、旅游、健康和教育等多種服務(wù)。
然而在具體的領(lǐng)域或行業(yè)內(nèi),我國(guó)普遍未形成成型的數(shù)據(jù)采集、加工、分析和應(yīng)用鏈條,大量數(shù)據(jù)源未被激活,大多數(shù)數(shù)據(jù)擁有者沒(méi)有數(shù)據(jù)價(jià)值外化的路徑。比如,各醫(yī)療健康類(lèi)應(yīng)用收集了大量的數(shù)據(jù),但沒(méi)有像Sermo.com那樣面向醫(yī)藥公司售賣(mài)數(shù)據(jù)。與國(guó)外相比我國(guó)的政府、公共服務(wù)、農(nóng)業(yè)應(yīng)用基本缺位,電信和銀行業(yè)更缺少與外部數(shù)據(jù)的碰撞。
另外,其實(shí)數(shù)據(jù)交易這件事本身就是一個(gè)悖論。數(shù)據(jù)作為一種商品有一定的特殊性,我用了別人也可以用,沒(méi)有任何消耗,可以在市場(chǎng)賣(mài)很多遍。這就產(chǎn)生一個(gè)問(wèn)題,你這個(gè)數(shù)據(jù)到市場(chǎng)賣(mài),根據(jù)經(jīng)濟(jì)學(xué)觀點(diǎn)它的價(jià)值是零,你賣(mài)給我我可以用更低的價(jià)格賣(mài)給別人,所以數(shù)據(jù)交易理論上來(lái)說(shuō)也是不可行的。
其次是“好不好”,也就是數(shù)據(jù)質(zhì)量問(wèn)題。大數(shù)據(jù)概念火了以后,很多機(jī)構(gòu)覺(jué)得數(shù)據(jù)存起來(lái)就是寶,于是積攢了大量零碎數(shù)據(jù)放在那里,到底能發(fā)揮什么作用也未可知。而在和許多真正想用數(shù)據(jù)做些事情的機(jī)構(gòu)的合作中我們發(fā)現(xiàn),即便是政府機(jī)構(gòu)這樣的權(quán)威數(shù)據(jù)持有方,也存在很多數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤、噪音多各方面的問(wèn)題。當(dāng)然這并不是說(shuō)我們就不能做數(shù)據(jù)分析了。我們常常在講大數(shù)據(jù)就用大數(shù)據(jù)方法,小數(shù)據(jù)就用小數(shù)據(jù)方法,完美的數(shù)據(jù)是永遠(yuǎn)等不來(lái)的。但這樣會(huì)導(dǎo)致什么問(wèn)題呢?在實(shí)際項(xiàng)目實(shí)施過(guò)程中,我們的數(shù)據(jù)科學(xué)家們不得不花費(fèi)大量時(shí)間在數(shù)據(jù)清洗上,這其實(shí)是對(duì)本來(lái)就緊缺的數(shù)據(jù)人員的一種浪費(fèi)。
最后是“讓不讓”,即數(shù)據(jù)孤島和數(shù)據(jù)開(kāi)放問(wèn)題。理論上我們中國(guó)有很多數(shù)據(jù),但不同部門(mén)數(shù)據(jù)存在在不同的地方,格式也不一樣。政府內(nèi)部本身整合各部門(mén)的數(shù)據(jù)就已經(jīng)是一件很頭大的事情,更不要提大規(guī)模的數(shù)據(jù)開(kāi)放。同時(shí)數(shù)據(jù)開(kāi)放面臨一個(gè)嚴(yán)重問(wèn)題就是隱私問(wèn)題,脫敏遠(yuǎn)遠(yuǎn)不夠,隱私問(wèn)題是一個(gè)無(wú)底洞。比如我們把一個(gè)人的支付寶3個(gè)月數(shù)據(jù)拿過(guò)來(lái),就可以很輕易的知道這個(gè)人今天在門(mén)口便利店買(mǎi)了一瓶水,昨天在淘寶買(mǎi)了沙發(fā),每隔三個(gè)月會(huì)有一筆萬(wàn)元的支出。那我們就可以很容易推斷這個(gè)人剛換了一個(gè)租房子的地方,就能了解他的消費(fèi)習(xí)慣。這個(gè)數(shù)據(jù)其實(shí)完全是脫敏的,沒(méi)有名字、沒(méi)有號(hào)碼,但絲毫不妨礙我們通過(guò)算法完全的勾勒出這個(gè)人的畫(huà)像。
2、技術(shù)與業(yè)務(wù)的鴻溝
大數(shù)據(jù)行業(yè)發(fā)展至今,技術(shù)與業(yè)務(wù)之間依然存在巨大著鴻溝。首先,就是數(shù)據(jù)分析技術(shù)本身。數(shù)據(jù)源企業(yè)為實(shí)現(xiàn)數(shù)據(jù)價(jià)值變現(xiàn),嘗試多種方法,甚至自己組建數(shù)據(jù)分析團(tuán)隊(duì),可是數(shù)據(jù)分析是個(gè)技術(shù)活,1%的誤差都會(huì)極大地影響市場(chǎng)份額,術(shù)業(yè)有專(zhuān)攻,數(shù)據(jù)變現(xiàn)還是需要專(zhuān)業(yè)的數(shù)據(jù)分析人才來(lái)實(shí)現(xiàn)。
隨著大數(shù)據(jù)概念的火熱,做大數(shù)據(jù)的公司越來(lái)越多,產(chǎn)品做得五花八門(mén),數(shù)據(jù)建模看似誰(shuí)都可以涉足,但現(xiàn)在數(shù)據(jù)分析的技術(shù),方法,模型,算法都有了非常大的改進(jìn),跟過(guò)去六七十年代完全不一樣,不是說(shuō)做幾個(gè)
SaaS軟件或者RAAS軟件就是大數(shù)據(jù)了,雖然短期看市場(chǎng)火熱,但長(zhǎng)遠(yuǎn)來(lái)說(shuō)這條路是走不通的,大數(shù)據(jù)行業(yè)發(fā)展,技術(shù)才是真正的發(fā)力點(diǎn),提高行業(yè)準(zhǔn)入門(mén)檻尤為重要。
基于此,鄂維南院士將海外成熟的大數(shù)據(jù)建模分析技術(shù)帶回國(guó)內(nèi),并組織成立了北京大數(shù)據(jù)研究院和普林科技,北京大數(shù)據(jù)研究院專(zhuān)注于頂層設(shè)計(jì),探索大數(shù)據(jù)行業(yè)產(chǎn)學(xué)研相結(jié)的發(fā)展模式,普林科技負(fù)責(zé)落地實(shí)施,從業(yè)務(wù)層面推動(dòng)大數(shù)據(jù)行業(yè)發(fā)展。
其次中國(guó)的數(shù)據(jù)有它的特色,例如在金融行業(yè),目前大部分銀行采用的是風(fēng)險(xiǎn)評(píng)分卡,運(yùn)用專(zhuān)家經(jīng)驗(yàn)定義風(fēng)險(xiǎn)變量,基于定性認(rèn)識(shí)進(jìn)行評(píng)分,通過(guò)事后風(fēng)險(xiǎn)回檢優(yōu)化評(píng)分卡,風(fēng)險(xiǎn)預(yù)警功能較差。雖然央行征信中心與國(guó)內(nèi)少數(shù)技術(shù)領(lǐng)先銀行使用的是風(fēng)險(xiǎn)評(píng)分模型,但模型方法相對(duì)陳舊,如央行所用FICO評(píng)分模型為上世紀(jì)80年代基于邏輯回歸算法構(gòu)建的評(píng)分體系,邏輯回歸算法適合處理線性數(shù)據(jù),但實(shí)際問(wèn)題往往是非線性的,特別是信用風(fēng)險(xiǎn)評(píng)估場(chǎng)景下。此外,F(xiàn)ICO模型沒(méi)有針對(duì)我國(guó)具體業(yè)務(wù)進(jìn)行場(chǎng)景細(xì)分,建模邏輯并不完全符合我國(guó)實(shí)際情況,因此導(dǎo)致準(zhǔn)確率不足,風(fēng)險(xiǎn)預(yù)警能力差。
基于此,中國(guó)人民銀行征信中心首次與國(guó)內(nèi)大數(shù)據(jù)公司合作,這次合作中普林科技應(yīng)用國(guó)際領(lǐng)先的大數(shù)據(jù)建模分析技術(shù),運(yùn)用決策樹(shù),隨機(jī)森林,AdaBOOST,GBDT,SVM等算法,通過(guò)對(duì)信用報(bào)告的數(shù)字化解讀與深入洞察,準(zhǔn)確預(yù)測(cè)了違約風(fēng)險(xiǎn),對(duì)貸款審批、貸中管理形成指導(dǎo),新模型對(duì)好壞賬戶的區(qū)分度遠(yuǎn)高于行業(yè)平均水平。此次合作表明我國(guó)的大數(shù)據(jù)難題更需要適應(yīng)國(guó)情的解決方案與本土的技術(shù)人才,這對(duì)我們的市場(chǎng)提出了一個(gè)新問(wèn)題。
3、人才難覓
我們國(guó)家大數(shù)據(jù)發(fā)展最大的優(yōu)勢(shì)就是市場(chǎng)大,最大的劣勢(shì)恰巧就是缺乏相應(yīng)人才,人才缺乏的程度非常嚴(yán)重。首先在國(guó)際市場(chǎng)方面,我們要跟國(guó)外公司爭(zhēng)人才,然而國(guó)外大數(shù)據(jù)行業(yè)同樣十分火熱。而不論在國(guó)內(nèi)還是國(guó)外,跟企業(yè)競(jìng)爭(zhēng)人才都是一項(xiàng)艱巨的事業(yè),比如在世界上最好的大學(xué)之一的美國(guó)普林斯頓大學(xué),想找數(shù)學(xué)家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數(shù)據(jù)分析人才被企業(yè)挖走。所以人才難覓不只是口頭說(shuō)說(shuō),更是一個(gè)亟待解決的問(wèn)題。
目前為止,我們國(guó)家仍然沒(méi)有良好的培育大數(shù)據(jù)人才的機(jī)制,大數(shù)據(jù)教育主要面臨以下三個(gè)問(wèn)題。
首先,大數(shù)據(jù)是一個(gè)交叉學(xué)科,涉及統(tǒng)計(jì)學(xué),管理,編程等多學(xué)科,知識(shí)點(diǎn)復(fù)雜,培訓(xùn)課程編輯難度大,缺乏系統(tǒng)的學(xué)習(xí)教程;
其次,現(xiàn)階段大數(shù)據(jù)教育大多還停留在理論知識(shí)上,理論與實(shí)戰(zhàn)嚴(yán)重脫節(jié),學(xué)習(xí)者缺乏良好的實(shí)踐機(jī)會(huì);
再次,大數(shù)據(jù)教育的根本目的是為了解決業(yè)務(wù)上面臨的實(shí)際問(wèn)題,用科學(xué)的手段推動(dòng)業(yè)務(wù)的進(jìn)展,然而現(xiàn)階段的大數(shù)據(jù)教育機(jī)構(gòu)普遍缺乏相應(yīng)的業(yè)務(wù)經(jīng)驗(yàn),產(chǎn)學(xué)研結(jié)合并不密切。
針對(duì)這些問(wèn)題,鄂維南院士講到:“其實(shí)我個(gè)人在這方面想了很長(zhǎng)時(shí)間,就是怎樣才能在中國(guó)真正建設(shè)一個(gè)具有國(guó)際標(biāo)準(zhǔn)、國(guó)際水平的大數(shù)據(jù)平臺(tái)?我們國(guó)家擁有這么大的市場(chǎng),我們?cè)谧龃髷?shù)據(jù)行業(yè)同時(shí),一定要想著做就要做到這個(gè)領(lǐng)域領(lǐng)先水平。但要達(dá)到這個(gè)目標(biāo),有一點(diǎn)很關(guān)鍵,必須要有一個(gè)國(guó)際化標(biāo)準(zhǔn)的研究平臺(tái),因此,我?guī)ь^成立了北京大數(shù)據(jù)研究院,而這個(gè)研究院所要做得事情,就是把人才培養(yǎng)教育和科研創(chuàng)新和市場(chǎng)化、產(chǎn)業(yè)化結(jié)合在一起。”
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:深度解析制約大數(shù)據(jù)發(fā)展的三大因素
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839320220.html