據IBM公司估量,我們現在每天創立了2.50億千兆字節的數據。
這種大規劃的數據集被稱為大數據。大數據是現已成為十分盛行的一個術語,以皮字節和艾字節表明和描繪數據集,并且其有時施加到數據集的技能,并處理它的運用設置。
關于這篇文章的意圖,我們將約束界說一個描繪巨大的數據量。在2014年9月AIP會議議事程序中,安德列德•毛羅,馬可•格雷科,米歇爾•格里馬爾迪為我們供給了一個更詳細的和強健的界說:“大數據代表著這種高容量的信息財物的特征,經過各種需求特定的技能和剖析方法,將其轉變為價值”。
留意,這個界說是很重要的。它不只是數據的數量,或體積,并且還有速度,也就是效勞和耗費的速度。數據流現已改變了我們對存儲和交付數據的觀點,并放置在基礎設施和運用程序引擎中,而曾經難以幻想要求能這樣做。
一個更近的維基百科界說了“體積,速度和種類”短語,并添加到另外兩個額定的“V”的概念,這兩者都與大數據所面對的應戰十分相關的:變異性和準確性。
數據搜集及其運用
跟著互聯網的呈現和運用大數據的人數成倍增長,搜集許多數據的才能也與之一起生長。數據搜集發作簡直一樣的其他核算活動的副作用。在我們采納的過程中,數據在創立帳戶,上傳文件,以及發作其他明顯的舉動。然而,數據也被無意提交搜集,由于一些其它活性的副產品。一個看似私家的行為,如點擊一個鏈接,關于營銷人員就能夠供給一個有價值的信息。因而,數據正在被記載和存儲。并且在某處進行處理。
而核算機關于工作人員處理信息是優異的,但沒過多久,營銷等職業實現保存供搜集數據的許多的潛力,由于它是在網絡上傳來傳去,最引人留意圖是互聯網(雖然重要的是記住許多大數據,并將其存儲在企業的內部網)。當該數據與其他數據,例如人口統計信息,一個人的YouTube的喜愛,地理位置,社會行為與Outlook配對,這個數據變得更加強壯。
其他職業也意識到,他們在搜集和處理信息方面從來沒有見過這樣大的規劃。不只互聯網,并且企業和其他實體的內部網絡能夠包容許多的信息。在美國、印度和其他地方的政府現已能夠運轉更精密的數據調整,以贏得選舉。國際安排搜集和運用醫療保健、出產力,以及工作數據,以協助他們了解開展資金是最好的花費。私營部門在許多方面運用大數據,包含買賣數據和剖析。科學研究涉及到大數據剖析,例如,大型強子對撞機的科研活動,以及超大型望遠鏡(VLT)陣列的數據返回。此外,大數據改變了制造業,經過供給出產、需求、滿意的數據,剖析師將了解是什么導致缺少和過剩,并對曾經難以確定行為和計劃進行可用性剖析。
數據記載的澤字節是一回事,數據搜集便利又廉價。當你以為你正在做其他工作的時分,數據搜集正在發作。而我們怎么運用它是一個徹底不同的問題,也是任何安排所面對的最大應戰之一,從企業營銷到政府部門,將考慮怎么有效地運用這樣許多的數據。
德毛羅等人所描繪的數據的種類是大數據的要害特征之一。數據源無處不在,并搜集一切類型的信息,其間一些應該被以為是靈敏的,需求安全處理。跟著各式各樣的數據到來,這意味著來自不同來歷的數據,格局和可拜訪性,即使是相同的信息,也可能是不同的。最終,數據的可靠性和準確性,是數據剖析人員有必要重視的要點。“臟數據”一直是數據庫辦理的一個問題,但這個問題與今日的環境指數相乘,具有更高的容量,并供給數據多源。
當它被成功地剖析,大數據能夠協助科學家解碼DNA,它能夠協助政府猜測恐怖活動,它能夠調整企業的產品結構,以滿意客戶的需求。
但面對這樣的數據搜集,持有人的問題是將怎么運用它?并且越來越多,我們怎么對此保證安全?
應戰和安全
現在,人們所面對的安全漏洞一直是很嚴重的,但大數據的安全漏洞可能是災難性的。數據搜集能夠包含十分靈敏和極其隱秘的個人信息,這將成為身份偷盜和歹意操作的潛在數據。跟著企業開發他們的大數據存儲和剖析體系,安全性有必要列于他們的優先級名單的首位。
數據剖析體系面對著大數據這個第一大應戰是簡單的現實,體系和流程都不能處理,我們現在期望定時處理這些數據。存儲基礎設施相對簡單創立:由于存儲設備現已成為廉價和可用的,并對其應戰有著適當充沛的了解。具剖析和運用數據是現在正在開發的高需求,許多企業都現已建立了自己的內部數據剖析:谷歌公司在2014年每天處理的信息大約20PB。
注:文章內容和圖片均來源于網絡,只起到信息的傳遞,不是用于商業,如有侵權請聯系刪除!