泄密者愛德華·斯諾登(Edward Snowden)還在尋求容身之所的時候,美國國家安全局(NSA)全方位收集電話和電子郵件記錄之事經(jīng)過他的披露,已經(jīng)引發(fā)了不安和憤怒。奧巴馬當局聲稱,監(jiān)聽數(shù)據(jù)帶來了安全,然而左翼和右翼都在譴責這種窺探行為是對隱私的侵犯。
數(shù)據(jù)不是信息,而是有待理解的原材料。但有一件事是確定無疑的:當NSA為了從其海量數(shù)據(jù)中“挖掘”出信息,耗資數(shù)十億改善新手段時,它正受益于陡然降落的計算機存儲和處理價格。
麻省理工學院的研究者約翰·古塔格(John Guttag)和柯林·斯塔爾茲(Collin Stultz)創(chuàng)建了一個計算機模型來分析之心臟病病患丟棄的心電圖數(shù)據(jù)。他們利用數(shù)據(jù)挖掘和機器學習在海量的數(shù)據(jù)中篩選,發(fā)現(xiàn)心電圖中出現(xiàn)三類異常者——一年內(nèi)死于第二次心臟病發(fā)作的機率比未出現(xiàn)者高一至二倍。這種新方法能夠識別出更多的,無法通過現(xiàn)有的風險篩查被探查出的高危病人。
數(shù)據(jù)挖掘這一術(shù)語含義廣泛,指代一些通常由軟件實現(xiàn)的機制,目的是從巨量數(shù)據(jù)中提取出信息。數(shù)據(jù)挖掘往往又被稱作算法。
威斯康星探索學院主任大衛(wèi)·克拉考爾(David Krakauer)說,數(shù)據(jù)量的增長——以及提取信息的能力的提高——也在影響著科學。“計算機的處理能力和存儲空間在呈指數(shù)增長,成本卻在指數(shù)級下降。從這個意義上來講,很多科學研究如今也遵循摩爾定律。”
在 2005年,一塊1TB的硬盤價格大約為1,000美元,“但是現(xiàn)在一枚不到100美元的U盤就有那么大的容量。”研究智能演化的克拉考爾說,F(xiàn)下關(guān)于大數(shù)據(jù)和數(shù)據(jù)挖掘的討論“之所以發(fā)生是因為我們正處于驚天動地的變革當中,而且我們正以前所未有的方式感知它。”克拉勞爾說。
隨著我們通過電話、信用卡、電子商務(wù)、互聯(lián)網(wǎng)和電子郵件留下更多的生活痕跡,大數(shù)據(jù)不斷增長的商業(yè)影響也在如下時刻表現(xiàn)出來:
• 你搜索一條飛往塔斯卡魯薩的航班,然后便看到網(wǎng)站上出現(xiàn)了塔斯卡魯薩的賓館打折信息
• 你觀賞的電影采用了以幾十萬G數(shù)據(jù)為基礎(chǔ)的計算機圖形圖像技術(shù)
• 你光顧的商店在對顧客行為進行數(shù)據(jù)挖掘的基礎(chǔ)上獲取最大化的利潤
• 用算法預(yù)測人們購票需求,航空公司以不可預(yù)知的方式調(diào)整價格
• 智能手機的應(yīng)用識別到你的位置,因此你收到附近餐廳的服務(wù)信息
大數(shù)據(jù)在看著你嗎?
除了安全和商業(yè),大數(shù)據(jù)和數(shù)據(jù)挖掘在科研領(lǐng)域也正在風起云涌。越來越多的設(shè)備帶著更加精密的傳感器,傳回愈發(fā)難以駕馭的數(shù)據(jù)流,于是人們需要日益強大的分析能力。在氣象學、石油勘探和天文學等領(lǐng)域,數(shù)據(jù)量的井噴式增長對更高層次的分析和洞察提供了支持,甚至提出了要求。
圖1 2005年6月至2007年12月海洋表面洋流示意圖
。∟ASA)的Topex/Poseidon衛(wèi)星、Jason-1衛(wèi)星,以及海形圖任務(wù)/Jason-2衛(wèi)星測高儀;重力數(shù)據(jù)來自NASA/德國航空航天中心的重力恢復(fù)及氣候?qū)嶒炄蝿?wù);表面風壓數(shù)據(jù)來自NASA的 QuikScat任務(wù);海平面溫度數(shù)據(jù)來自NASA/日本宇宙航空研究開發(fā)機構(gòu)的先進微波掃描輻射計——地球觀測系統(tǒng);海冰濃度和速度數(shù)據(jù)來自被動微波輻射計;溫度和咸度分布來自船載、系泊式測量儀器,以及國際Argo海洋觀測系統(tǒng)。
這幅2005年6月至2007年12月海洋表面洋流的示意圖集成了帶有數(shù)值模型的衛(wèi)星數(shù)據(jù)。漩渦和窄洋流在海洋中傳送熱量和碳。海洋環(huán)流和氣候評估項目提供了所有深度的洋流,但這里僅僅使用了表層洋流。這些示意圖用來測量海洋在全球碳循環(huán)中的作用,并監(jiān)測地球系統(tǒng)的不同部分內(nèi)部及之間的熱量、水和化學交換。
在醫(yī)學領(lǐng)域,2003年算是大數(shù)據(jù)涌現(xiàn)過程中的一個里程碑。那一年第一例人類基因組完成了測序。那次突破性的進展之后,數(shù)以千計人類、靈長類、老鼠和細菌的基因組擴充著人們所掌握的數(shù)據(jù)。每個基因組上有幾十億個“字母”,計算時出現(xiàn)紕漏的危險,催生了生物信息學。這一學科借助軟件、硬件以及復(fù)雜算法之力,支撐著新的科學類型。
圖2 大數(shù)據(jù)病例分析
精神障礙通常是具體病例具體分析,但是一項對150萬名病人病例的研究表明,相當多的病人患有超過同一種疾病。芝加哥大學的西爾維奧·康特中心利用數(shù)據(jù)挖掘理解神經(jīng)精神障礙的成因以及之間的關(guān)系。“好幾個(研究)團隊都在致力于這個問題的解決。”中心主任安德烈·柴斯基(Andrey Rzhetsky)說,“我們正試圖把它們?nèi)考{入模型,統(tǒng)一分析那些數(shù)據(jù)類型……尋找可能的環(huán)境因素。”
另一例生物信息學的應(yīng)用來自美國國家癌癥研究所。該所的蘇珊·霍爾貝克(Susan Holbeck)在60種細胞系上測試了5000對美國食品和藥品管理局批準的抗癌藥品。經(jīng)過30萬次試驗之后,霍爾貝克說:“我們知道每種細胞系里面每 一條基因的RNA表達水平。我們掌握了序列數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù),以及微觀RNA表達的數(shù)據(jù)。我們可以取用所有這些數(shù)據(jù)進行數(shù)據(jù)挖掘,看一看為什么一種細胞系對混合藥劑有良好的反應(yīng),而另一種沒有。我們可以抽取一對觀察結(jié)果,開發(fā)出合適的靶向藥品,并在臨床測試。”
互聯(lián)網(wǎng)上的火眼金睛
當醫(yī)學家忙于應(yīng)對癌癥、細菌和病毒之時,互聯(lián)網(wǎng)上的政治言論已呈燎原之勢。整個推特圈上每天要出現(xiàn)超過5億條推文,其政治影響力與日俱增,使廉潔政府團體面臨著數(shù)據(jù)挖掘技術(shù)帶來的巨大挑戰(zhàn)。
印第安納大學Truthy(意:可信)項目的目標是從這種每日的信息泛濫中發(fā)掘出深層意義,博士后研究員埃米利奧·費拉拉(Emilio Ferrara)說。“Truthy是一種能讓研究者研究推特上信息擴散的工具。通過識別關(guān)鍵詞以及追蹤在線用戶的活動,我們研究正在進行的討論。”
Truthy是由印第安納研究者菲爾·孟澤(Fil Menczer)和亞力桑德羅·弗拉米尼(Alessandro Flammini)開發(fā)的。每一天,該項目的計算機過濾多達5千萬條推文,試圖找出其中蘊含的模式。
圖3 Twitter數(shù)據(jù)挖掘
大數(shù)據(jù)盯著“bigdata”(意為大數(shù)據(jù))。這些是在推特上發(fā)布過“bigdata”的用戶之間的連接,用戶圖標的尺寸代表了其粉絲數(shù)多寡。藍線表示一次回復(fù)或者提及,綠線表示一個用戶是另一個的粉絲。
一個主要的興趣點是“水軍”,費拉拉說:協(xié)調(diào)一致的造勢運動本應(yīng)來自草根階層,但實際上是由“熱衷傳播虛假信息的個人和組織”發(fā)起的。
2012年美國大選期間,一系列推文聲稱共和黨總統(tǒng)候選人米特·羅姆尼(Mitt Romney)在臉譜網(wǎng)上獲得了可疑的大批粉絲。“調(diào)查者發(fā)現(xiàn)共和黨人和民主黨人皆與此事無關(guān)。”費拉拉說,“幕后另有主使。這是一次旨在令人們相信羅姆尼在買粉從而抹黑他的造勢運動。”
水軍的造勢運動通常很有特點,費拉拉說。“要想發(fā)起一場大規(guī)模的抹黑運動,你需要很多推特賬號,”包括由程序自動運行、反復(fù)發(fā)布選定信息的假賬號。“我們通過分析推文的特征,能夠辨別出這種自動行為。”
推文的數(shù)量年復(fù)一年地倍增,有什么能夠保證線上政治的透明呢?“我們這個項目的目的是讓技術(shù)掌握一點這樣的信息。”費拉拉說,“找到一切是不可能的,但哪怕我們能夠發(fā)現(xiàn)一點,也比沒有強。”
頭腦里的大數(shù)據(jù)
人腦是終極的計算機器,也是終極的大數(shù)據(jù)困境,因為在獨立的神經(jīng)元之間有無數(shù)可能的連接。人類連接組項目是一項雄心勃勃地試圖繪制出不同腦區(qū)之間相互作用的計劃。
除了連接組,還有很多充滿數(shù)據(jù)的“組”:
• 基因組:由DNA編碼的,或者由RNA編碼的(比如病毒)——全部基因信息
• 轉(zhuǎn)錄組:由一個有機體的DNA產(chǎn)生的全套RNA“讀數(shù)”
• 蛋白質(zhì)組:所有可以用基因表達的蛋白質(zhì)
• 代謝組:一個有機體新陳代謝過程中的所有小分子,包括中間產(chǎn)物和最終產(chǎn)物
連接組項目的目標是“從1,200位神經(jīng)健康的人身上收集先進的神經(jīng)影像數(shù)據(jù),以及認知、行為和人口數(shù)據(jù)”,圣路易斯市華盛頓大學的連接組項目辦事處的信息學主任丹尼爾·馬庫斯(Daniel Marcus)說。
項目使用三種磁共振造影觀察腦的結(jié)構(gòu)、功能和連接。根據(jù)馬庫斯的預(yù)期,兩年之后數(shù)據(jù)收集工作完成之時,連接組研究人員將埋首于大約100萬G數(shù)據(jù)。
圖4 人腦核磁共振掃描圖fuben
20名健康人類受試者處于休息狀態(tài)下接受核磁共振掃描,得到的大腦皮層不同區(qū)域間新陳代謝活動的關(guān)聯(lián)關(guān)系,并用不同的顏色表現(xiàn)出來。黃色和紅色區(qū)域在功能上與 右半腦頂葉中的“種子”位置(右上角黃斑)相關(guān)。綠色和藍色區(qū)域則與之關(guān)聯(lián)較弱或者根本沒有關(guān)聯(lián)。
繪制腦區(qū)分布圖的“分區(qū)”是一項關(guān)鍵的任務(wù),這些腦區(qū)最早于兩到三世紀之前通過對少量大腦染色被識別出來。“我們將擁有1,200個人的數(shù)據(jù),”馬庫斯說,“因此我們可以觀察個人之間腦區(qū)分布的差別,以及腦區(qū)之間是如何關(guān)聯(lián)的。”
為了識別腦區(qū)之間的連接,馬庫斯說,“我們在受試者休息時獲取的掃描圖中,觀察腦中的自發(fā)活動在不同區(qū)域之間有何關(guān)聯(lián)。”比如,如果區(qū)域A和區(qū)域B自發(fā)地以每秒18個周期的頻率產(chǎn)生腦波,“這就說明它們處于同一網(wǎng)絡(luò)中。”馬庫斯說。“我們將利用整個大腦中的這些關(guān)聯(lián)數(shù)據(jù)創(chuàng)建一個表現(xiàn)出腦中的每一個點如何與其 他每一個點關(guān)聯(lián)的矩陣。”(這些點將比磁共振成像無法“看到”的細胞大得多。)
星系動物園:把天空轉(zhuǎn)包給大眾
星系動物園項目打破了大數(shù)據(jù)的規(guī)矩:它沒有對數(shù)據(jù)進行大規(guī)模的計算機數(shù)據(jù)挖掘,而是把圖像交給活躍的志愿者,由他們對星系做基礎(chǔ)性的分類。該項目2007年 啟動于英國牛津,當時天文學家凱文·沙文斯基(Kevin Schawinski)剛剛蹬著眼睛瞧完了斯隆數(shù)字巡天計劃拍攝的5萬張圖片。
阿拉巴馬大學天文學教授、星系動物園科學團隊成員威廉·基爾(William Keel)說,沙文斯基的導(dǎo)師建議他完成95萬張圖像。“他的眼睛累得快要掉出眼窩了,便去了一家酒館。他在那里遇到了克里斯·林托特(Chris Lintott)。兩人以經(jīng)典的方式,在一張餐巾的背面畫出了星系動物園的網(wǎng)絡(luò)結(jié)構(gòu)。”
星系是一個經(jīng)典的大數(shù)據(jù)問題:一臺最先進的望遠鏡掃描整個天空,可能會看到2000億個這樣的恒星世界。然而,“一系列與宇宙學和星系統(tǒng)計學相關(guān)的問題可以 通過讓許多人做相當簡單的分類工作得以解決。”基爾說,“五分鐘的輔導(dǎo)過后,分類便是一項瑣碎的工作,直到今日也并不適合以算法實現(xiàn)。”
星系動物園的啟動相當成功,用戶流量讓一臺服務(wù)器癱瘓了,基爾說。
斯隆巡天的全部95萬張圖片平均每張被看過60次之后,動物園的管理者們轉(zhuǎn)向了更大規(guī)模的巡天數(shù)據(jù)。科學受益匪淺,基爾說。“我的很多重要成果都來自人們發(fā)現(xiàn)的奇怪物體,”包括背光星系。
這是星系動物園志愿者們發(fā)現(xiàn)的差不多2000個背光星系之一。它被其后方的另一個星系照亮。來自背后的光令前景星系中的塵埃清晰可辨。星際塵埃在恒星的形成中扮演了關(guān)鍵的角色,但它本身也是由恒星制造的,因此檢測其數(shù)量和位置對于了解星系的歷史至關(guān)重要。
星系動物園依賴統(tǒng)計學、眾多觀察者以及處理、檢查數(shù)據(jù)的邏輯。假如觀察某個特定星系的人增加時,而認為它是橢圓星系的人數(shù)比例保持不變,這個星系就不必再被觀察了。
然而,對一些稀有的物體,基爾說,“你可能需要40至50名觀察者。”
大眾科學正在發(fā)展自己的法則,基爾補充道。志愿者們的工作“已經(jīng)對一個真實存在的重大問題做出了貢獻,是現(xiàn)存的任何軟件都無法實現(xiàn)的。鼠標的點擊不該被浪費。”
這種動物園方法在zooniverse.org 網(wǎng)站上得到了復(fù)制和優(yōu)化。這是一個運行著大約20項目的機構(gòu),這些項目的處理對象包括熱帶氣旋、火星表面和船只航行日志上的氣象數(shù)據(jù)。
最終,軟件可能會取代志愿者,基爾說。但是計算機和人類之間的界線是可互換的。比如說超新星動物園項目在軟件學會了任務(wù)之后就關(guān)閉了。
我們驚訝地得知志愿者們積累的龐大數(shù)據(jù)是計算機學習分類的理想材料。“一些星系動物園用戶真的很反感這一點。”基爾說,“他們對于自己的點擊被用來訓練軟件表達出明顯的怨恨。但是我們說,不要浪費點擊。如果某人帶來了同樣有效的新算法,人們就不必做那些事情了。”
學習的渴望
人們長久以來改進對圖像和語音的模式識別的努力已經(jīng)受益于更多的訓練,威斯康星大學麥迪遜分校的克拉考爾說。“它不僅僅是有所改善,更是有了實際的效果。5到10年之前,iPhone上的Siri是個想都不敢想的點子,語音識別一塌糊涂,F(xiàn)在我們擁有了這樣一批龐大的數(shù)據(jù)來訓練算法,忽然之間它們就管用了。”
隨著數(shù)據(jù)及通訊價格持續(xù)下跌,新的思路和方法應(yīng)運而生。如果你想了解你家中每一件設(shè)備消耗了多少水和能量,麥克阿瑟獎獲得者西瓦塔克·帕特爾 (Shwetak Patel)有個解決方案:用無線傳感器識別每一臺設(shè)備的唯一數(shù)字簽名。帕特爾的智能算法配合外掛傳感器,以低廉的成本找到耗電多的電器。位于加利福尼亞 州海沃德市的這個家庭驚訝地得知,錄像機消耗了他們家11%的電力。等到處理能力一次相對較小的改變令結(jié)果出現(xiàn)突破性的進展,克拉考爾補充道,大數(shù)據(jù)的應(yīng)用可能會經(jīng)歷一次“相變”。
“大數(shù)據(jù)”是一個相對的說法,不是絕對的,克拉考爾指出。“大數(shù)據(jù)可以被視作一種比率——我們能計算的數(shù)據(jù)比上我們必須計算的數(shù)據(jù)。大數(shù)據(jù)一直存在。如果你想一下收集行星位置數(shù)據(jù)的丹麥天文學家第谷布拉赫(Tycho Brahe,1546-1601),當時還沒有解釋行星運動的開普勒理論,因此這個比率是歪曲的。這是那個年代的大數(shù)據(jù)。”
大數(shù)據(jù)成為問題“是在技術(shù)允許我們收集和存儲的數(shù)據(jù)超過了我們對系統(tǒng)精推細研的能力之后。”克拉考爾說。
我們好奇,當軟件繼續(xù)在大到無法想象的數(shù)據(jù)庫上執(zhí)行復(fù)雜計算,以此為基礎(chǔ)在科學、商業(yè)和安全領(lǐng)域制定決策,我們是不是把過多的權(quán)力交給了機器。在我們無法覷探之處,決策在沒人理解輸入與輸出、數(shù)據(jù)與決策之間的關(guān)系的情況下被自動做出。“這正是我所從事的領(lǐng)域,”克拉考爾回應(yīng)道,“我的研究對象是宇宙中的智能演化,從大爆炸到大腦。我毫不懷疑你說的。”
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:大數(shù)據(jù)與數(shù)據(jù)挖掘的相對絕對關(guān)系
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839715657.html