在企業(yè)級(jí)大數(shù)據(jù)領(lǐng)域,明略數(shù)據(jù)在過(guò)去幾年服務(wù)客戶的過(guò)程中,創(chuàng)造性地引入大數(shù)據(jù)+知識(shí)圖譜的思路,開(kāi)發(fā)了一款名為SCOPA的大數(shù)據(jù)知識(shí)圖譜產(chǎn)品,并且在公安、金融等多個(gè)領(lǐng)域取得了良好的實(shí)踐效果。本分享將系統(tǒng)地介紹SCOPA產(chǎn)品的設(shè)計(jì)理念、總體功能以及核心技術(shù)優(yōu)勢(shì),并闡述SCOPA產(chǎn)品如何應(yīng)對(duì)客戶的具體應(yīng)用場(chǎng)景以及圍繞SCOPA如何打造先進(jìn)的大數(shù)據(jù)整體解決方案。
明略數(shù)據(jù)技術(shù)合伙人黃樺在ArchSummit深圳2016大會(huì)上和我們分享了:
1,企業(yè)級(jí)大數(shù)據(jù)簡(jiǎn)析;
2,構(gòu)建大數(shù)據(jù)知識(shí)圖譜產(chǎn)品;
知識(shí)圖譜是什么?
一個(gè)簡(jiǎn)單的工商企業(yè)的知識(shí)圖譜;
如何落地知識(shí)圖譜產(chǎn)品?
圖數(shù)據(jù)庫(kù)及其選型;
3,應(yīng)用淺談。
黃樺,四年大數(shù)據(jù)領(lǐng)域從業(yè)經(jīng)驗(yàn),大數(shù)據(jù)技術(shù)和大數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的深度實(shí)踐者。
問(wèn):各位網(wǎng)友大家好!作客我們現(xiàn)場(chǎng)的是明略數(shù)據(jù)技術(shù)合伙人黃樺。從最開(kāi)始的語(yǔ)義網(wǎng)等概念,到現(xiàn)在的知識(shí)圖譜,您覺(jué)得為什么現(xiàn)在知識(shí)圖譜的概念能夠火起來(lái)?
黃樺:語(yǔ)義網(wǎng)是一個(gè)宏觀的概念,想把網(wǎng)絡(luò)上的東西、電腦、手機(jī)更多的連起來(lái),讓他們互相能夠認(rèn)知到、能夠識(shí)別,當(dāng)初設(shè)計(jì)非常復(fù)雜,貌似也有個(gè)協(xié)議,跟網(wǎng)絡(luò)通信協(xié)議類似,但是很難落地,只是有它的概念。但是知識(shí)圖譜不一樣,比較簡(jiǎn)單,就是點(diǎn)邊屬性這樣的三維屬性的圖譜,所以可以落地。再加上這個(gè)數(shù)據(jù)越來(lái)越大,大數(shù)據(jù)時(shí)代,總量比較多,數(shù)據(jù)類別也比較多,這個(gè)時(shí)候非常自然想到,這么多數(shù)據(jù)以后如果還是孤立的看數(shù)據(jù)源,產(chǎn)生價(jià)值,實(shí)際上是線性累加的過(guò)程,把孤立的串在一起創(chuàng)造的價(jià)值可能是更大的效果。
問(wèn):您所了解的業(yè)界現(xiàn)在知識(shí)圖譜的落地應(yīng)用有哪些?
黃樺:落地應(yīng)用挺多的,我們認(rèn)識(shí)當(dāng)中最早是在互聯(lián)網(wǎng)搜索里面,讀書(shū)的時(shí)候?qū)嵙?xí),微軟亞洲研究院做了一個(gè)人立方,人立方是一個(gè)搜索引擎,剛開(kāi)始落地的時(shí)候找的是學(xué)術(shù)圈發(fā)表論文的數(shù)據(jù),跟學(xué)校之間的關(guān)系找到,把作者跟作者之間一起合作論文的關(guān)系刻劃出來(lái),然后帶出來(lái)相關(guān)領(lǐng)域的合作者。最早的知識(shí)圖譜是這樣。慢慢的,谷歌在2012年、2013年放到他自己的算法里,增強(qiáng)他搜索的性能和準(zhǔn)確度,慢慢的國(guó)內(nèi)百度也在用,也是把圖譜放到搜索里提高搜索的準(zhǔn)確性。企業(yè)用的還是不多,剛剛開(kāi)始興起,我們公司算是比較前列的,探索一些場(chǎng)景,特別是在公安,昨天的分享中我也提到了,公安特別想知道一個(gè)真實(shí)的世界網(wǎng)絡(luò)是什么樣子的,因?yàn)樗ハ臃福芏鄷r(shí)候犯罪分子不是孤立的個(gè)體或事件,是團(tuán)伙性,團(tuán)伙性的趨勢(shì)越來(lái)越重,所以一定是需要關(guān)系網(wǎng),才能更好的讓公安去研判。
問(wèn):金融領(lǐng)域呢?
黃樺:金融領(lǐng)域更加關(guān)注一些風(fēng)險(xiǎn)的問(wèn)題,像銀行最大的問(wèn)題就是風(fēng)險(xiǎn)問(wèn)題,如果把風(fēng)險(xiǎn)控制好是可以賺很多錢的,更加希望在交易和帳戶層面做一些風(fēng)險(xiǎn)控制,如果把交易的數(shù)據(jù)做一個(gè)比較好的Study的話,可以把帳戶之間的關(guān)系連接起來(lái),然后帳戶之間的屬性企事業(yè)能夠建立一些關(guān)系。舉個(gè)簡(jiǎn)單的例子,我開(kāi)了一個(gè)帳戶,沒(méi)有用身份證,但是我填的時(shí)候一些信息相似度非常高,比如說(shuō)某街某道,這些是有關(guān)聯(lián)的。
問(wèn):SCOPA的知識(shí)圖譜應(yīng)用是結(jié)合什么數(shù)據(jù)庫(kù)進(jìn)行的?
黃樺:用的是Titan。
問(wèn):為什么會(huì)選擇這種數(shù)據(jù)?
黃樺:這是一個(gè)很好的問(wèn)題,我們做企業(yè)級(jí)市場(chǎng)的在技術(shù)選型包括用一些什么樣的技術(shù)方面還是比較慎重,不會(huì)貿(mào)然,之所以選Titan是有選型的。
第一點(diǎn)是看這個(gè)數(shù)據(jù)庫(kù)的整合度高不高,因?yàn)楝F(xiàn)在很多大公司已經(jīng)有大數(shù)據(jù)平臺(tái),如果你跟他說(shuō)部署這樣一種產(chǎn)品地要增加什么什么這樣的組件,跟大數(shù)據(jù)平臺(tái)不是完全耦合化,對(duì)方很難答應(yīng)的,對(duì)方說(shuō)已經(jīng)做了這個(gè)東西,已經(jīng)有這個(gè)平臺(tái)了,所以第一點(diǎn)一定是跟它平臺(tái)的整合度、成熟度、對(duì)接度高不高,這是很關(guān)鍵的一點(diǎn)。
第二點(diǎn),這個(gè)產(chǎn)品的性能問(wèn)題,數(shù)據(jù)量大的情況下性能是很關(guān)鍵的,我們對(duì)Titan做過(guò)一些壓測(cè),還不錯(cuò)。
三是可擴(kuò)展性。對(duì)于我們來(lái)說(shuō),我們很多產(chǎn)品都開(kāi)了工具,Lisence就很好。
問(wèn):在應(yīng)用知識(shí)圖譜的過(guò)程中,您們是不是從零開(kāi)始研究,還是以前就具有相關(guān)項(xiàng)目經(jīng)驗(yàn)?
黃樺:我們公司是2014年成立的,開(kāi)始是一些普遍的需求,慢慢數(shù)據(jù)量多了以后,平臺(tái)搭起來(lái)以后,客戶希望創(chuàng)造更大的用戶價(jià)值,這時(shí)候傳統(tǒng)的方式就玩不轉(zhuǎn)了,我們后來(lái)做了一些調(diào)研,看其它同行和國(guó)外的公司是解決什么問(wèn)題的,后來(lái)發(fā)現(xiàn)他們或多或少通過(guò)關(guān)聯(lián)數(shù)據(jù)這樣的路子,才能解決問(wèn)題。我們2015年的時(shí)候嘗試這樣一個(gè)方向,正好我們有公安客戶,他跟我們交流過(guò)程當(dāng)中,發(fā)現(xiàn)關(guān)系網(wǎng)非常重要,基于他的場(chǎng)景慢慢在2015年開(kāi)發(fā),2016年已經(jīng)有一套比較成熟的產(chǎn)品。
問(wèn):對(duì)于一個(gè)公司如果初次開(kāi)始使用知識(shí)圖譜,如何降低成本?
黃樺:降成本這塊,我覺(jué)得盡量采用開(kāi)源的技術(shù),做這個(gè)產(chǎn)品的時(shí)候先想清楚要解決什么樣的問(wèn)題,很多技術(shù)人員很多時(shí)候?yàn)榱蓑?yàn)證我懂這個(gè)技術(shù)、我很強(qiáng)就做這個(gè)事情,但我建議在做圖譜產(chǎn)品的時(shí)候最好還是發(fā)現(xiàn)問(wèn)題,不用太大、太多,先找到一個(gè)問(wèn)題,根據(jù)領(lǐng)域內(nèi)的知識(shí),需要哪些實(shí)體,要構(gòu)建那些實(shí)體關(guān)系,有哪些屬性和事件,這樣出來(lái)以后基于開(kāi)源的工具再去把這個(gè)系統(tǒng)搭起來(lái)。
問(wèn):跟業(yè)務(wù)是不是也有關(guān)系?您之前沒(méi)有接公安項(xiàng)目的時(shí)候并不知道未來(lái)數(shù)據(jù)庫(kù)選型是怎么樣的,一個(gè)新的公司,假如他是電商領(lǐng)域的,肯定跟金融領(lǐng)域的做法不一樣,您這方面有差異嗎?
黃樺:有差異,圖譜按照我們的理解是比較強(qiáng)屬性的東西。
問(wèn):降低成本的話還是考慮行業(yè)的業(yè)務(wù)屬性?
黃樺:對(duì)。比如你在工商行業(yè),你關(guān)注的企業(yè)、法人、產(chǎn)品、行業(yè)這樣一些實(shí)體的投入,但是在公安層面,他可能關(guān)注的是機(jī)構(gòu)這樣一些數(shù)據(jù)。
問(wèn):把原始數(shù)據(jù)轉(zhuǎn)為知識(shí)圖譜可用數(shù)據(jù),在實(shí)踐上您們遇到最大的困難是什么,如何解決的?
黃樺:剛才也講了這樣一個(gè)過(guò)程,我們碰到的最大的問(wèn)題是對(duì)非企業(yè)化數(shù)據(jù)的處理,包括視頻、圖片,這是挺大的一個(gè)問(wèn)題,我們現(xiàn)在文本做的比較好,有一套比較成熟的IOP的工具,它可以自動(dòng)化的做一些文本。但是我們對(duì)視頻、圖像這塊的處理做的并不太好,這塊也在摸索,我覺(jué)得可能會(huì)采用業(yè)內(nèi)其它同行的玩法。但是視頻、圖片對(duì)公安來(lái)說(shuō)是非常重要的一個(gè)方面,光有文本的話不夠,未來(lái)我們會(huì)往視頻圖片這方面整合。
問(wèn):學(xué)術(shù)界對(duì)圖像識(shí)別處理比較超前,你們跟學(xué)術(shù)界有沒(méi)有合作?
黃樺:有,我們公司的CTO是北大畢業(yè)的,他在學(xué)術(shù)界人脈挺廣的,跟北大、清華、上交也有些合作。
問(wèn):據(jù)說(shuō)您們的應(yīng)用規(guī)模已經(jīng)是在億級(jí)實(shí)體、幾十億級(jí)關(guān)系了,那么在這樣的應(yīng)用規(guī)模下,準(zhǔn)確度和實(shí)時(shí)性能如何?效果如何?
黃樺:效果還不錯(cuò)。你剛剛提到的億級(jí)實(shí)體、幾十億級(jí)關(guān)系,這樣的規(guī)模是我們?cè)诂F(xiàn)實(shí)項(xiàng)目當(dāng)中有碰到過(guò)的,公安的一些場(chǎng)景,公安處量還是非常大的,比如對(duì)省級(jí)的一個(gè)公安部門(mén),有全省的信息,國(guó)內(nèi)稍微大的一個(gè)省接近上億人嘛,還有外來(lái)的,上億的人和上億的事件確實(shí)構(gòu)成很大的規(guī)模,我們是可以提供他平常研判所需的,從一個(gè)實(shí)體人擴(kuò)展他一些關(guān)系的話都是可以在兩三秒左右得到結(jié)果,是非常好的體驗(yàn)。
問(wèn):這個(gè)關(guān)系鏈?zhǔn)遣皇怯悬c(diǎn)像六度空間模型?
黃樺:對(duì)。六度空間模型更強(qiáng)調(diào)兩個(gè)人之間通過(guò)不超過(guò)六個(gè)人認(rèn)識(shí),其實(shí)業(yè)務(wù)需求比較多樣,有些是交互式的需求,看一個(gè)case的時(shí)候需要非?斓恼{(diào)出這個(gè)case的屬性、關(guān)系人。還有一種是需要挖掘的業(yè)務(wù)模型的,比如說(shuō)用一些圖、算法和應(yīng)有的知識(shí)做Offline的。
問(wèn):您們的產(chǎn)品主要應(yīng)用公安,金融,那么對(duì)安全性的要求應(yīng)該比較高,在安全性方面有哪些舉措呢?
黃樺:我們最開(kāi)始做公安的時(shí)候意識(shí)到安全確實(shí)是很大的問(wèn)題,我們采取的方案從兩方面入手:一個(gè)是從平臺(tái)本身,把數(shù)據(jù)庫(kù)做到極致,所有登錄我們這個(gè)產(chǎn)品的用戶都做到非常高的級(jí)別;二是對(duì)應(yīng)用權(quán)限做的比較好,我們這個(gè)產(chǎn)品每個(gè)模塊誰(shuí)可以訪問(wèn)、做什么操作,都是可以控制的。比如我是市局的人登錄省廳的,只能看到市里相關(guān)人員的屬性,不太可能看到別的市的相關(guān)人員的信息,他要看的話需要申請(qǐng)。
問(wèn):大數(shù)據(jù)技術(shù)這兩年跟早年
云計(jì)算一樣談的比較多,但發(fā)展方向在我看來(lái)沒(méi)有那么明晰,比如具體的業(yè)務(wù)領(lǐng)域上有些case跟大家講,但是不像運(yùn)算里就是SD技術(shù)就是一個(gè)趨勢(shì),大數(shù)據(jù)里沒(méi)有這個(gè),在您看來(lái)大數(shù)據(jù)以后的發(fā)展方向或趨勢(shì)是往哪里走?
黃樺:趨勢(shì)方面,我們還是把知識(shí)圖譜或關(guān)系鏈這套理念用于更多的場(chǎng)景,因?yàn)槲覀儸F(xiàn)在在公安和金融做的比較多,但是我們也在調(diào)研,也在做思考,其它行業(yè)通過(guò)數(shù)據(jù)關(guān)聯(lián)做事情也能產(chǎn)生更大的價(jià)值。在技術(shù)層,把我們的技術(shù)架構(gòu)做的更細(xì)、更深。我們這套數(shù)據(jù)量可能上億,幾十億,還不錯(cuò)的量,但是有更大的數(shù)據(jù)量在等著我們,我們跟其他人聊的時(shí)候,知道有些涉及到的數(shù)據(jù)量非常大,在技術(shù)方面怎么做更大的數(shù)據(jù)量,在數(shù)據(jù)量更大的情況下保證我們的關(guān)聯(lián)計(jì)算、所有查詢、交互都是很好的體驗(yàn)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:企業(yè)級(jí)大數(shù)據(jù)知識(shí)圖譜產(chǎn)品構(gòu)建與應(yīng)用
本文網(wǎng)址:http://www.ezxoed.cn/html/news/10515519999.html