圖片展示

教育信息化之大(dà)數(shù)據揭秘

作(zuò)者:Tsinglan 青藍(lán)智慧 浏覽: 發表時(shí)間(jiān):2019-02-06 15:21:57

随着大(dà)數(shù)據的火(huǒ)熱,一波節奏又被帶了起來(lái),越來(lái)越多(duō)的小(xiǎo)夥伴開(kāi)始對大(dà)數(shù)據産生(shēng)了興趣,以下為(wèi)收集了十個(gè)常見的大(dà)數(shù)據問題

1

什麽是大(dà)數(shù)據?

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大(dà)數(shù)據時(shí)代》 中大(dà)數(shù)據指不用随機分析法(抽樣調查)這樣的捷徑,而采用所有(yǒu)數(shù)據進行(xíng)分析處理(lǐ)。

大(dà)數(shù)據的4V特點:Volume(大(dà)量)、Velocity(高(gāo)速)、Variety(多(duō)樣)、Value(價值)。

對于“大(dà)數(shù)據”(Big data)研究機構Gartner給出了這樣的定義。“大(dà)數(shù)據”是需要新處理(lǐ)模式才能具有(yǒu)更強的決策力、洞察發現力和(hé)流程優化能力的海量、高(gāo)增長率和(hé)多(duō)樣化的信息資産。

根據維基百科的定義,大(dà)數(shù)據是指無法在可(kě)承受的時(shí)間(jiān)範圍內(nèi)用常規軟件工具進行(xíng)捕捉、管理(lǐ)和(hé)處理(lǐ)的數(shù)據集合。

大(dà)數(shù)據技(jì)術(shù)的戰略意義不在于掌握龐大(dà)的數(shù)據信息,而在于對這些(xiē)含有(yǒu)意義的數(shù)據進行(xíng)專業化處理(lǐ)。換言之,如果把大(dà)數(shù)據比作(zuò)一種産業,那(nà)麽這種産業實現盈利的關鍵,在于提高(gāo)對數(shù)據的“加工能力”,通(tōng)過“加工”實現數(shù)據的“增值”。

從技(jì)術(shù)上(shàng)看,大(dà)數(shù)據與雲計(jì)算(suàn)的關系就像一枚硬币的正反面一樣密不可(kě)分。大(dà)數(shù)據必然無法用單台的計(jì)算(suàn)機進行(xíng)處理(lǐ),必須采用分布式架構。它的特色在于對海量數(shù)據進行(xíng)分布式數(shù)據挖掘,但(dàn)它必須依托雲計(jì)算(suàn)的分布式處理(lǐ)、分布式數(shù)據庫和(hé)雲存儲、虛拟化技(jì)術(shù)。

2

大(dà)數(shù)據時(shí)代是什麽意思?

大(dà)數(shù)據時(shí)代就是說,在未來(lái),我們認為(wèi)會(huì)存在這樣一個(gè)時(shí)代。那(nà)個(gè)時(shí)代裏,幾乎我們每一個(gè)舉動,都會(huì)被記錄,并變成數(shù)據被存儲起來(lái),無數(shù)的數(shù)據就組合成了你(nǐ)本人(rén)的一個(gè)信息庫。通(tōng)過這個(gè)信息庫,你(nǐ)的一言一行(xíng),你(nǐ)的思想都變得(de)可(kě)預測。

最早提出“大(dà)數(shù)據”時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據,已經滲透到當今每一個(gè)行(xíng)業和(hé)業務職能領域,成為(wèi)重要的生(shēng)産因素。人(rén)們對于海量數(shù)據的挖掘和(hé)運用,預示着新一波生(shēng)産率增長和(hé)消費者盈餘浪潮的到來(lái)。”

“大(dà)數(shù)據”在物理(lǐ)學、生(shēng)物學、環境生(shēng)态學等領域以及軍事、金融、通(tōng)訊等行(xíng)業存在已有(yǒu)時(shí)日,卻因為(wèi)近年來(lái)互聯網和(hé)信息行(xíng)業的發展而引起人(rén)們關注。大(dà)數(shù)據作(zuò)為(wèi)雲計(jì)算(suàn)、物聯網之後IT行(xíng)業又一大(dà)颠覆性的技(jì)術(shù)革命。雲計(jì)算(suàn)主要為(wèi)數(shù)據資産提供了保管、訪問的場(chǎng)所和(hé)渠道(dào),而數(shù)據才是真正有(yǒu)價值的資産。企業內(nèi)部的經營交易信息、互聯網世界中的商品物流信息,互聯網世界中的人(rén)與人(rén)交互信息、位置信息等,其數(shù)量将遠遠超越現有(yǒu)企業IT架構和(hé)基礎設施的承載能力,實時(shí)性要求也将大(dà)大(dà)超越現有(yǒu)的計(jì)算(suàn)能力。如何盤活這些(xiē)數(shù)據資産,使其為(wèi)國家(jiā)治理(lǐ)、企業決策乃至個(gè)人(rén)生(shēng)活服務,是大(dà)數(shù)據的核心議題,也是雲計(jì)算(suàn)內(nèi)在的靈魂和(hé)必然的升級方向。

3

大(dà)數(shù)據、數(shù)據分析和(hé)數(shù)據挖掘的區(qū)别

大(dà)數(shù)據、數(shù)據分析、數(shù)據挖掘的區(qū)别是,大(dà)數(shù)據是互聯網的海量數(shù)據挖掘,而數(shù)據挖掘更多(duō)是針對內(nèi)部企業行(xíng)業小(xiǎo)衆化的數(shù)據挖掘,數(shù)據分析就是進行(xíng)做(zuò)出針對性的分析和(hé)診斷,大(dà)數(shù)據需要分析的是趨勢和(hé)發展,數(shù)據挖掘主要發現的是問題和(hé)診斷:

1

大(dà)數(shù)據(big data):

指無法在可(kě)承受的時(shí)間(jiān)範圍內(nèi)用常規軟件工具進行(xíng)捕捉、管理(lǐ)和(hé)處理(lǐ)的數(shù)據集合,是需要新處理(lǐ)模式才能具有(yǒu)更強的決策力、洞察發現力和(hé)流程優化能力的海量、高(gāo)增長率和(hé)多(duō)樣化的信息資産;

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大(dà)數(shù)據時(shí)代》 中大(dà)數(shù)據指不用随機分析法(抽樣調查)這樣的捷徑,而采用所有(yǒu)數(shù)據進行(xíng)分析處理(lǐ)。大(dà)數(shù)據的5V特點(IBM提出):Volume(大(dà)量)、Velocity(高(gāo)速)、Variety(多(duō)樣)、Value(價值)Veracity(真實性) 。

2

數(shù)據分析:

是指用适當的統計(jì)分析方法對收集來(lái)的大(dà)量數(shù)據進行(xíng)分析,提取有(yǒu)用信息和(hé)形成結論而對數(shù)據加以詳細研究和(hé)概括總結的過程。這一過程也是質量管理(lǐ)體(tǐ)系的支持過程。在實用中,數(shù)據分析可(kě)幫助人(rén)們作(zuò)出判斷,以便采取适當行(xíng)動。

數(shù)據分析的數(shù)學基礎在20世紀早期就已确立,但(dàn)直到計(jì)算(suàn)機的出現才使得(de)實際操作(zuò)成為(wèi)可(kě)能,并使得(de)數(shù)據分析得(de)以推廣。數(shù)據分析是數(shù)學與計(jì)算(suàn)機科學相結合的産物。

3

數(shù)據挖掘(Data mining):

又譯為(wèi)資料探勘、數(shù)據采礦。它是數(shù)據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個(gè)步驟。數(shù)據挖掘一般是指從大(dà)量的數(shù)據中通(tōng)過算(suàn)法搜索隐藏于其中信息的過程。數(shù)據挖掘通(tōng)常與計(jì)算(suàn)機科學有(yǒu)關,并通(tōng)過統計(jì)、在線分析處理(lǐ)、情報檢索、機器(qì)學習、專家(jiā)系統(依靠過去的經驗法則)和(hé)模式識别等諸多(duō)方法來(lái)實現上(shàng)述目标。

簡而言之:

大(dà)數(shù)據是範圍比較廣的數(shù)據分析和(hé)數(shù)據挖掘。

按照數(shù)據分析的流程來(lái)說,數(shù)據挖掘工作(zuò)較數(shù)據分析工作(zuò)靠前些(xiē),二者又有(yǒu)重合的地方,數(shù)據挖掘側重數(shù)據的清洗和(hé)梳理(lǐ)。

數(shù)據分析處于數(shù)據處理(lǐ)的最末端,是最後階段。

數(shù)據分析和(hé)數(shù)據挖掘的分界、概念比較模糊,模糊的意思是二者很(hěn)難區(qū)分。

大(dà)數(shù)據概念更為(wèi)廣泛,是把創新的思維、信息技(jì)術(shù)、統計(jì)學等等技(jì)術(shù)的綜合體(tǐ),每個(gè)人(rén)限于學術(shù)背景、技(jì)術(shù)背景,概述的都不一樣。

4

大(dà)數(shù)據可(kě)以做(zuò)什麽?

1

對大(dà)數(shù)據的處理(lǐ)分析正成為(wèi)新一代信息技(jì)術(shù)融合應用的結點

移動互聯網、物聯網、社交網絡、數(shù)字家(jiā)庭、電(diàn)子商務等是新一代信息技(jì)術(shù)的應用形态,這些(xiē)應用不斷産生(shēng)大(dà)數(shù)據。雲計(jì)算(suàn)為(wèi)這些(xiē)海量、多(duō)樣化的大(dà)數(shù)據提供存儲和(hé)運算(suàn)平台。通(tōng)過對不同來(lái)源數(shù)據的管理(lǐ)、處理(lǐ)、分析與優化,将結果反饋到上(shàng)述應用中,将創造出巨大(dà)的經濟和(hé)社會(huì)價值。

大(dà)數(shù)據具有(yǒu)催生(shēng)社會(huì)變革的能量。但(dàn)釋放這種能量,需要嚴謹的數(shù)據治理(lǐ)、富有(yǒu)洞見的數(shù)據分析和(hé)激發管理(lǐ)創新的環境(Ramayya Krishnan,卡內(nèi)基·梅隆大(dà)學海因茲學院院長)。

2

大(dà)數(shù)據是信息産業持續高(gāo)速增長的新引擎

面向大(dà)數(shù)據市場(chǎng)的新技(jì)術(shù)、新産品、新服務、新業态會(huì)不斷湧現。在硬件與集成設備領域,大(dà)數(shù)據将對芯片、存儲産業産生(shēng)重要影(yǐng)響,還(hái)将催生(shēng)一體(tǐ)化數(shù)據存儲處理(lǐ)服務器(qì)、內(nèi)存計(jì)算(suàn)等市場(chǎng)。在軟件與服務領域,大(dà)數(shù)據将引發數(shù)據快速處理(lǐ)分析、數(shù)據挖掘技(jì)術(shù)和(hé)軟件産品的發展。

3

大(dà)數(shù)據利用将成為(wèi)提高(gāo)核心競争力的關鍵因素,各行(xíng)各業的決策正在從“業務驅動” 轉變“數(shù)據驅動”

在高(gāo)校(xiào)來(lái)說,對大(dà)數(shù)據的分析可(kě)以幫助制(zhì)定更加精準有(yǒu)效的管理(lǐ)策略提供決策支持;可(kě)以為(wèi)在校(xiào)師(shī)生(shēng)提供更加及時(shí)和(hé)個(gè)性化的服務,大(dà)大(dà)促進學校(xiào)綜合管理(lǐ)水(shuǐ)平的提升。

4

大(dà)數(shù)據時(shí)代科學研究的方法手段将發生(shēng)重大(dà)改變

例如,抽樣調查是社會(huì)科學的基本研究方法。在大(dà)數(shù)據時(shí)代,可(kě)通(tōng)過實時(shí)監測、跟蹤研究對象在互聯網上(shàng)産生(shēng)的海量行(xíng)為(wèi)數(shù)據,進行(xíng)挖掘分析,揭示出規律性的東西,提出研究結論和(hé)對策。

5

大(dà)數(shù)據的商業價值

1

對顧客群體(tǐ)細分

“大(dà)數(shù)據”可(kě)以對顧客群體(tǐ)細分,然後對每個(gè)群體(tǐ)量體(tǐ)裁衣般的采取獨特的行(xíng)動。瞄準特定的顧客群體(tǐ)來(lái)進行(xíng)營銷和(hé)服務是商家(jiā)一直以來(lái)的追求。雲存儲的海量數(shù)據和(hé)“大(dà)數(shù)據”的分析技(jì)術(shù)使得(de)對消費者的實時(shí)和(hé)極端的細分有(yǒu)了成本效率極高(gāo)的可(kě)能。

2

模拟實境

運用“大(dà)數(shù)據”模拟實境,發掘新的需求和(hé)提高(gāo)投入的回報率。現在越來(lái)越多(duō)的産品中都裝有(yǒu)傳感器(qì),汽車(chē)和(hé)智能手機的普及使得(de)可(kě)收集數(shù)據呈現爆炸性增長。微博等社交網絡也在産生(shēng)着海量的數(shù)據。

雲計(jì)算(suàn)和(hé)“大(dà)數(shù)據”分析技(jì)術(shù)使得(de)商家(jiā)可(kě)以在成本效率較高(gāo)的情況下,實時(shí)地把這些(xiē)數(shù)據連同交易行(xíng)為(wèi)的數(shù)據進行(xíng)儲存和(hé)分析。交易過程、産品使用和(hé)人(rén)類行(xíng)為(wèi)都可(kě)以數(shù)據化。“大(dà)數(shù)據”技(jì)術(shù)可(kě)以把這些(xiē)數(shù)據整合起來(lái)進行(xíng)數(shù)據挖掘,從而在某些(xiē)情況下通(tōng)過模型模拟來(lái)判斷不同變量(比如不同地區(qū)不同促銷方案)的情況下何種方案投入回報最高(gāo)。

3

提高(gāo)投入回報率

提高(gāo)“大(dà)數(shù)據”成果在各相關部門(mén)的分享程度,提高(gāo)整個(gè)管理(lǐ)鏈條和(hé)産業鏈條的投入回報率。“大(dà)數(shù)據”能力強的部門(mén)可(kě)以通(tōng)過雲計(jì)算(suàn)、互聯網和(hé)內(nèi)部搜索引擎把”大(dà)數(shù)據”成果和(hé)“大(dà)數(shù)據”能力比較薄弱的部門(mén)分享,幫助他們利用“大(dà)數(shù)據”創造商業價值。

4

數(shù)據儲存空(kōng)間(jiān)出租

企業和(hé)個(gè)人(rén)有(yǒu)着海量信息存儲的需求,隻有(yǒu)将數(shù)據妥善存儲,才有(yǒu)可(kě)能進一步挖掘其潛在價值。具體(tǐ)而言,這塊業務模式又可(kě)以細分為(wèi)針對個(gè)人(rén)文件存儲和(hé)針對企業用戶兩大(dà)類。主要是通(tōng)過易于使用的API,用戶可(kě)以方便地将各種數(shù)據對象放在雲端,然後再像使用水(shuǐ)、電(diàn)一樣按用量收費。

5

管理(lǐ)客戶關系

客戶管理(lǐ)應用的目的是根據客戶的屬性(包括自然屬性和(hé)行(xíng)為(wèi)屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高(gāo)客戶的忠誠度、降低(dī)客戶流失率、提高(gāo)客戶消費等。對中小(xiǎo)客戶來(lái)說,專門(mén)的CRM顯然大(dà)而貴。不少(shǎo)中小(xiǎo)商家(jiā)将聊天軟件作(zuò)為(wèi)初級CRM來(lái)使用。比如把老客戶加到群裏,在群朋友(yǒu)圈裏發布新産品預告、特價銷售通(tōng)知,完成售前售後服務等。

6

個(gè)性化精準推薦

在運營商內(nèi)部,根據用戶喜好推薦各類業務或應用是常見的,比如應用商店(diàn)軟件推薦等,而通(tōng)過關聯算(suàn)法、文本摘要抽取、情感分析等智能分析算(suàn)法後,可(kě)以将之延伸到商用化服務,利用數(shù)據挖掘技(jì)術(shù)幫助客戶進行(xíng)精準營銷,今後盈利可(kě)以來(lái)自于客戶增值部分的分成。

以高(gāo)校(xiào)日常管理(lǐ)為(wèi)例,通(tōng)過用戶行(xíng)為(wèi)數(shù)據進行(xíng)分析後,可(kě)以給需要的人(rén)發送需要的信息,這樣的信息就是有(yǒu)價值的。在成都大(dà)學,在校(xiào)師(shī)生(shēng)都可(kě)以通(tōng)過使用手機門(mén)戶,實時(shí)收到自己感興趣的消息推送。

7

數(shù)據搜索

數(shù)據搜索是一個(gè)并不新鮮的應用,随着“大(dà)數(shù)據”時(shí)代的到來(lái),實時(shí)性、全範圍搜索的需求也就變得(de)越來(lái)越強烈。我們需要能搜索各種社交網絡、用戶行(xíng)為(wèi)等數(shù)據。其商業應用價值是将實時(shí)的數(shù)據處理(lǐ)與分析和(hé)廣告聯系起來(lái),即實時(shí)廣告業務和(hé)應用內(nèi)移動廣告的社交服務。

6

大(dà)數(shù)據技(jì)術(shù)有(yǒu)哪些(xiē)?

  • 基礎階段:
    Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis。
    hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、曆史,HDFS工作(zuò)原理(lǐ),YARN介紹及組件介紹。
  • 大(dà)數(shù)據存儲階段:hbase、hive、sqoop。
  • 大(dà)數(shù)據架構設計(jì)階段:Flume分布式、Zookeeper、Kafka。
  • 大(dà)數(shù)據實時(shí)計(jì)算(suàn)階段:Mahout、Spark、storm。
  • 大(dà)數(shù)據數(shù)據采集階段:Python、Scala。
  • 大(dà)數(shù)據商業實戰階段:實操企業大(dà)數(shù)據處理(lǐ)業務場(chǎng)景,分析需求、解決方案實施,綜合技(jì)術(shù)實戰應用。

在掌握Java基礎的前提下,各階段的大(dà)數(shù)據學習需要掌握的專業技(jì)術(shù)。

7

大(dà)數(shù)據的趨勢

趨勢一:數(shù)據的資源化

何為(wèi)資源化,是指大(dà)數(shù)據成為(wèi)企業和(hé)社會(huì)關注的重要戰略資源,并已成為(wèi)大(dà)家(jiā)争相搶奪的新焦點。因而,企業必須要提前制(zhì)定大(dà)數(shù)據營銷戰略計(jì)劃,搶占市場(chǎng)先機。

趨勢二:與雲計(jì)算(suàn)的深度結合

大(dà)數(shù)據離不開(kāi)雲處理(lǐ),雲處理(lǐ)為(wèi)大(dà)數(shù)據提供了彈性可(kě)拓展的基礎設備,是産生(shēng)大(dà)數(shù)據的平台之一。自2013年開(kāi)始,大(dà)數(shù)據技(jì)術(shù)已開(kāi)始和(hé)雲計(jì)算(suàn)技(jì)術(shù)緊密結合,預計(jì)未來(lái)兩者關系将更為(wèi)密切。除此之外,物聯網、移動互聯網等新興計(jì)算(suàn)形态,也将一齊助力大(dà)數(shù)據革命,讓大(dà)數(shù)據營銷發揮出更大(dà)的影(yǐng)響力。

趨勢三:科學理(lǐ)論的突破

随着大(dà)數(shù)據的快速發展,就像計(jì)算(suàn)機和(hé)互聯網一樣,大(dà)數(shù)據很(hěn)有(yǒu)可(kě)能是新一輪的技(jì)術(shù)革命。随之興起的數(shù)據挖掘、機器(qì)學習和(hé)人(rén)工智能等相關技(jì)術(shù),可(kě)能會(huì)改變數(shù)據世界裏的很(hěn)多(duō)算(suàn)法和(hé)基礎理(lǐ)論,實現科學技(jì)術(shù)上(shàng)的突破。

趨勢四:數(shù)據科學和(hé)數(shù)據聯盟的成立

未來(lái),數(shù)據科學将成為(wèi)一門(mén)專門(mén)的學科,被越來(lái)越多(duō)的人(rén)所認知。各大(dà)高(gāo)校(xiào)将設立專門(mén)的數(shù)據科學類專業,也會(huì)催生(shēng)一批與之相關的新的就業崗位。與此同時(shí),基于數(shù)據這個(gè)基礎平台,也将建立起跨領域的數(shù)據共享平台,之後,數(shù)據共享将擴展到企業層面,并且成為(wèi)未來(lái)産業的核心一環。

趨勢五:數(shù)據洩露泛濫

未來(lái)幾年數(shù)據洩露事件的增長率也許會(huì)達到100%,除非數(shù)據在其源頭就能夠得(de)到安全保障。可(kě)以說,在未來(lái),每個(gè)财富500強企業都會(huì)面臨數(shù)據攻擊,無論他們是否已經做(zuò)好安全防範。而所有(yǒu)企業,無論規模大(dà)小(xiǎo),都需要重新審視(shì)今天的安全定義。在财富500強企業中,超過50%将會(huì)設置首席信息安全官這一職位。企業需要從新的角度來(lái)确保自身以及客戶數(shù)據,所有(yǒu)數(shù)據在創建之初便需要獲得(de)安全保障,而并非在數(shù)據保存的最後一個(gè)環節,僅僅加強後者的安全措施已被證明(míng)于事無補。

趨勢六:數(shù)據管理(lǐ)成為(wèi)核心競争力

數(shù)據管理(lǐ)成為(wèi)核心競争力,直接影(yǐng)響财務表現。當“數(shù)據資産是企業核心資産”的概念深入人(rén)心之後,企業對于數(shù)據管理(lǐ)便有(yǒu)了更清晰的界定,将數(shù)據管理(lǐ)作(zuò)為(wèi)企業核心競争力,持續發展,戰略性規劃與運用數(shù)據資産,成為(wèi)企業數(shù)據管理(lǐ)的核心。數(shù)據資産管理(lǐ)效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對于具有(yǒu)互聯網思維的企業而言,數(shù)據資産競争力所占比重為(wèi)36.8%,數(shù)據資産的管理(lǐ)效果将直接影(yǐng)響企業的财務表現。

趨勢七:數(shù)據質量是BI(商業智能)成功的關鍵

采用自助式商業智能工具進行(xíng)大(dà)數(shù)據處理(lǐ)的企業将會(huì)脫穎而出。其中要面臨的一個(gè)挑戰是,很(hěn)多(duō)數(shù)據源會(huì)帶來(lái)大(dà)量低(dī)質量數(shù)據。想要成功,企業需要理(lǐ)解原始數(shù)據與數(shù)據分析之間(jiān)的差距,從而消除低(dī)質量數(shù)據并通(tōng)過BI獲得(de)更佳決策。

趨勢八:數(shù)據生(shēng)态系統複合化程度加強

大(dà)數(shù)據的世界不隻是一個(gè)單一的、巨大(dà)的計(jì)算(suàn)機網絡,而是一個(gè)由大(dà)量活動構件與多(duō)元參與者元素所構成的生(shēng)态系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數(shù)據服務使能者、數(shù)據服務提供商、觸點服務、數(shù)據服務零售商等等一系列的參與者共同構建的生(shēng)态系統。而今,這樣一套數(shù)據生(shēng)态系統的基本雛形已然形成,接下來(lái)的發展将趨向于系統內(nèi)部角色的細分,也就是市場(chǎng)的細分;系統機制(zhì)的調整,也就是商業模式的創新;系統結構的調整,也就是競争環境的調整等等,從而使得(de)數(shù)據生(shēng)态系統複合化程度逐漸增強。

8

大(dà)數(shù)據和(hé)數(shù)據大(dà)集中有(yǒu)什麽區(qū)别?

大(dà)數(shù)據實質是數(shù)據量到了一定程度,怎麽獲取、處理(lǐ)和(hé)分析的事情。其他問題比如數(shù)據中心怎麽建設、是否采用數(shù)據大(dà)集中的形式可(kě)以說和(hé)大(dà)數(shù)據的實質關系不大(dà)。大(dà)數(shù)據使用的數(shù)據可(kě)以是集中的一處拿(ná)來(lái)的,更可(kě)能是分布在多(duō)地或者一地的多(duō)處的。

數(shù)據大(dà)集中是一種建設模式。意思主要是不搞分級分地區(qū)的部署,而把數(shù)據中心統一在一處。比如銀行(xíng)的中國南北兩大(dà)數(shù)據中心、稅務部門(mén)的大(dà)集中建設,這樣數(shù)據庫在物理(lǐ)上(shàng)是位于一處彙總的(當然為(wèi)了數(shù)據安全,可(kě)有(yǒu)異地備份),對銀行(xíng)和(hé)稅務等部門(mén)來(lái)說,便于提取和(hé)統計(jì),特别是便于總行(xíng)總局之類的上(shàng)級部門(mén)直接拿(ná)到各地業務數(shù)據。

9

數(shù)據挖掘與統計(jì)學的關系

1

什麽是數(shù)據挖掘

數(shù)據挖掘(Data Mining)是采用數(shù)學的、統計(jì)的、人(rén)工智能和(hé)神經網絡等領域的科學方法,如記憶推理(lǐ)、聚類分析、關聯分析、決策樹(shù)、神經網絡、基因算(suàn)法等技(jì)術(shù),從大(dà)量數(shù)據中挖掘出隐含的、先前未知的、對決策有(yǒu)潛在價值的關系、模式和(hé)趨勢,并用這些(xiē)知識和(hé)規則建立用于決策支持的模型,提供預測性決策支持的方法、工具和(hé)過程。

數(shù)據挖掘綜合了各個(gè)學科技(jì)術(shù),有(yǒu)很(hěn)多(duō)的功能,當前的主要功能如下:

(1)分類:按照分析對象的屬性、特征,建立不同的組類來(lái)描述事物。例如:銀行(xíng)部門(mén)根據以前的數(shù)據将客戶分成了不同的類别,現在就可(kě)以根據這些(xiē)來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應的貸款方案。

(2)聚類:識别出分析對內(nèi)在的規則,按照這些(xiē)規則把對象分成若幹類。例如:将申請(qǐng)人(rén)分為(wèi)高(gāo)度風險申請(qǐng)者,中度風險申請(qǐng)者,低(dī)度風險申請(qǐng)者。

(3)關聯規則:關聯是某種事物發生(shēng)時(shí)其他事物會(huì)發生(shēng)的這樣一種聯系。例如:每天購買啤酒的人(rén)也有(yǒu)可(kě)能購買香煙,比重有(yǒu)多(duō)大(dà),可(kě)以通(tōng)過關聯的支持度和(hé)可(kě)信度來(lái)描述。

(4)預測:把握分析對象發展的規律,對未來(lái)的趨勢做(zuò)出預見。例如:對未來(lái)經濟發展的判斷。

(5)偏差的檢測:對分析對象的少(shǎo)數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行(xíng)的100萬筆交易中有(yǒu)500例的欺詐行(xíng)為(wèi),銀行(xíng)為(wèi)了穩健經營,就要發現這500例的內(nèi)在因素,減小(xiǎo)以後經營的風險。

當然除了以上(shàng)所列出的還(hái)有(yǒu)時(shí)間(jiān)序列分析等一些(xiē)其他的功能,需要注意的是:數(shù)據挖掘的各項功能不是獨立存在的,在數(shù)據挖掘中互相聯系,發揮作(zuò)用。

2

數(shù)據挖掘與統計(jì)學的關系

數(shù)據挖掘技(jì)術(shù)是計(jì)算(suàn)機技(jì)術(shù)、人(rén)工智能技(jì)術(shù)和(hé)統計(jì)技(jì)術(shù)等構成的一種新學科。數(shù)據挖掘來(lái)源于統計(jì)分析,而又不同于統計(jì)分析。數(shù)據挖掘不是為(wèi)了替代傳統的統計(jì)分析技(jì)術(shù),相反,數(shù)據挖掘是統計(jì)分析方法的擴展和(hé)延伸。大(dà)多(duō)數(shù)的統計(jì)分析技(jì)術(shù)都基于完善的數(shù)學理(lǐ)論和(hé)高(gāo)超的技(jì)巧,其預測的準确程度還(hái)是令人(rén)滿意的,但(dàn)對于使用者的知識要求比較高(gāo)。而随着計(jì)算(suàn)機能力的不斷發展,數(shù)據挖掘可(kě)以利用相對簡單和(hé)固定程序完成同樣的功能。新的計(jì)算(suàn)算(suàn)法的産生(shēng)如神經網絡、決策樹(shù)使人(rén)們不需了解到其內(nèi)部複雜的原理(lǐ)也可(kě)以通(tōng)過這些(xiē)方法獲得(de)良好的分析和(hé)預測效果。

由于數(shù)據挖掘和(hé)統計(jì)分析根深蒂固的聯系,通(tōng)常的據挖掘工具都能夠通(tōng)過可(kě)選件或自身提供統計(jì)分析功能。這些(xiē)功能對于數(shù)據挖掘的前期數(shù)據探索和(hé)數(shù)據挖掘之後對數(shù)據進行(xíng)總結和(hé)分析都是十分必要的。統計(jì)分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時(shí)間(jiān)序列分析等功能都有(yǒu)助于數(shù)據挖掘前期對數(shù)據進行(xíng)探索,發現數(shù)據挖掘的題目、找出數(shù)據挖掘的目标、确定數(shù)據挖掘所需涉及的變量、對數(shù)據源進行(xíng)抽樣等等。所有(yǒu)這些(xiē)前期工作(zuò)對數(shù)據挖掘的效果産生(shēng)重大(dà)影(yǐng)響。而數(shù)據挖掘的結果也需要統計(jì)分析的描述功能(最大(dà)值、最小(xiǎo)值、平均值、方差、四分位、個(gè)數(shù)、概率分配)進行(xíng)具體(tǐ)描述,使數(shù)據挖掘的結果能夠被用戶了解。因此,統計(jì)分析和(hé)數(shù)據挖掘是相輔相成的過程,兩者的合理(lǐ)配合是數(shù)據挖掘成功的重要條件。

3

數(shù)據挖掘與統計(jì)學的區(qū)别

統計(jì)學目前有(yǒu)一種趨勢是越來(lái)越精确。當然,這本身并不是壞事,隻有(yǒu)越精确才能避免錯誤,發現真理(lǐ)。統計(jì)學在采用一個(gè)方法之前先要證明(míng),而不是象計(jì)算(suàn)機科學和(hé)機器(qì)學習那(nà)樣注重經驗。有(yǒu)時(shí)候同一問題的其它領域的研究者提出一個(gè)很(hěn)明(míng)顯有(yǒu)用的方法,但(dàn)它卻不能被統計(jì)學家(jiā)證明(míng)(或者現在還(hái)沒有(yǒu)證明(míng))。統計(jì)雜志(zhì)傾向于發表經過數(shù)學證明(míng)的方法而不是一些(xiē)特殊方法。數(shù)據挖掘作(zuò)為(wèi)幾門(mén)學科的綜合,已經從機器(qì)學習那(nà)裏繼承了實驗的态度。這并不意味着數(shù)據挖掘工作(zuò)者不注重精确,而隻是說明(míng)如果方法不能産生(shēng)結果的話(huà)就會(huì)被放棄。

正是由于統計(jì)學的數(shù)學精确性,而且其對推理(lǐ)的側重,盡管統計(jì)學的一些(xiē)分支也側重于描述,但(dàn)是浏覽一下統計(jì)論文的話(huà)就會(huì)發現這些(xiē)論文的核心問題就是在觀察了樣本的情況下如何去推斷總體(tǐ)。當然這也常常是數(shù)據挖掘所關注的。下面我們會(huì)提到數(shù)據挖掘的一個(gè)特定屬性就是要處理(lǐ)的是一個(gè)大(dà)數(shù)據集。這就意味着,傳統統計(jì)學由于可(kě)行(xíng)性的原因,我們常常得(de)到的隻是一個(gè)樣本,但(dàn)是需要描述樣本取自的那(nà)個(gè)大(dà)數(shù)據集。然而,數(shù)據挖掘問題常常可(kě)以得(de)到數(shù)據總體(tǐ),例如關于一個(gè)公司的所有(yǒu)職工數(shù)據,數(shù)據庫中的所有(yǒu)客戶資料,去年的所有(yǒu)業務。在這種情形下,統計(jì)學的推斷就沒有(yǒu)價值了。

很(hěn)多(duō)情況下,數(shù)據挖掘的本質是很(hěn)偶然的發現非預期但(dàn)很(hěn)有(yǒu)價值的信息。這說明(míng)數(shù)據挖掘過程本質上(shàng)是實驗性的。這和(hé)确定性的分析是不同的。(實際上(shàng),一個(gè)人(rén)是不能完全确定一個(gè)理(lǐ)論的,隻能提供證據和(hé)不确定的證據。)确定性分析着眼于最适合的模型-建立一個(gè)推薦模型,這個(gè)模型也許不能很(hěn)好的解釋觀測到的數(shù)據。大(dà)部分統計(jì)分析提出的是确定性的分析。

如果數(shù)據挖掘的主要目的是發現,那(nà)它就不關心統計(jì)學領域中的在回答(dá)一個(gè)特定的問題之前,如何很(hěn)好的搜集數(shù)據,例如實驗設計(jì)和(hé)調查設計(jì)。數(shù)據挖掘本質上(shàng)假想數(shù)據已經被搜集好,關注的隻是如何發現其中的秘密。

10

數(shù)據倉庫,大(dà)數(shù)據和(hé)雲計(jì)算(suàn)有(yǒu)什麽區(qū)别和(hé)聯系?

首先我們先簡單來(lái)看一下概念:

1

數(shù)據倉庫

數(shù)據倉庫,是為(wèi)企業所有(yǒu)級别的決策制(zhì)定過程,提供所有(yǒu)類型數(shù)據支持的戰略集合。它是單個(gè)數(shù)據存儲,出于分析性報告和(hé)決策支持目的而創建。 為(wèi)需要業務智能的企業,提供指導業務流程改進、監視(shì)時(shí)間(jiān)、成本、質量以及控制(zhì)。數(shù)據倉庫是決策支持系統(dss)和(hé)聯機分析應用數(shù)據源的結構化數(shù)據環境。數(shù)據倉庫研究和(hé)解決從數(shù)據庫中獲取信息的問題。數(shù)據倉庫的特征在于面向主題、集成性、穩定性和(hé)時(shí)變性。

2

大(dà)數(shù)據

大(dà)數(shù)據(big data),指無法在一定時(shí)間(jiān)範圍內(nèi)用常規軟件工具進行(xíng)捕捉、管理(lǐ)和(hé)處理(lǐ)的數(shù)據集合,是需要新處理(lǐ)模式才能具有(yǒu)更強的決策力、洞察發現力和(hé)流程優化能力的海量、高(gāo)增長率和(hé)多(duō)樣化的信息資産。

3

雲計(jì)算(suàn)

雲計(jì)算(suàn)(cloud computing)是基于互聯網的相關服務的增加、使用和(hé)交付模式,通(tōng)常涉及通(tōng)過互聯網來(lái)提供動态易擴展且經常是虛拟化的資源。雲是網絡、互聯網的一種比喻說法。過去在圖中往往用雲來(lái)表示電(diàn)信網,後來(lái)也用來(lái)表示互聯網和(hé)底層基礎設施的抽象。因此,雲計(jì)算(suàn)甚至可(kě)以讓你(nǐ)體(tǐ)驗每秒(miǎo)10萬億次的運算(suàn)能力,擁有(yǒu)這麽強大(dà)的計(jì)算(suàn)能力可(kě)以模拟核爆炸、預測氣候變化和(hé)市場(chǎng)發展趨勢。用戶通(tōng)過電(diàn)腦(nǎo)、筆記本、手機等方式接入數(shù)據中心,按自己的需求進行(xíng)運算(suàn)。

接下來(lái)我們來(lái)看一下他們的關系:

  • 數(shù)據庫和(hé)數(shù)據倉庫都是數(shù)據的一種存儲方式,大(dà)數(shù)據處理(lǐ)更多(duō)的是一種需求(問題),而雲計(jì)算(suàn)是一種比較綜合的需求(問題)解決方案。
  • 由于雲計(jì)算(suàn)本身的特性,天生(shēng)就面臨大(dà)數(shù)據處理(lǐ)(存儲、計(jì)算(suàn)等)問題,因為(wèi)雲計(jì)算(suàn)的基本架構模式是C/S模式,其中S相對集中,而C是廣泛分布。所有(yǒu)用戶的數(shù)據和(hé)絕大(dà)部分的計(jì)算(suàn)都是在S端完成的(數(shù)據量大(dà),計(jì)算(suàn)量大(dà)),加上(shàng)用戶也天然具有(yǒu)多(duō)樣性(地域,文化,需求,個(gè)性化等),因此需求(也包括計(jì)算(suàn)量)就非常大(dà)。
  • 雲計(jì)算(suàn)當然會(huì)涉及到數(shù)據的存儲技(jì)術(shù),但(dàn)數(shù)據庫技(jì)術(shù)對于雲計(jì)算(suàn)來(lái)說要視(shì)具體(tǐ)的情況來(lái)分析:

A)對于IaaS而言,數(shù)據庫技(jì)術(shù)不是必需的,也不是必備的功能;

B)對于PaaS來(lái)說,數(shù)據庫功能應該是必備的功能

C)對于SaaS而言,必然會(huì)用到數(shù)據庫技(jì)術(shù)(包括傳統關系數(shù)據庫和(hé)NoSQL數(shù)據庫)。

而對于數(shù)據倉庫技(jì)術(shù),并不是雲計(jì)算(suàn)所必需的,但(dàn)由于雲數(shù)據的信息價值極大(dà),類似一座金礦,我想雲服務商是不可(kě)能放過從這些(xiē)金礦中提取金子的.

  • 大(dà)數(shù)據首先所面臨的問題就是大(dà)數(shù)據的存儲問題,一般都會(huì)綜合運用各種存儲技(jì)術(shù)(文件存儲,數(shù)據庫存儲),當然,你(nǐ)完全用文件存儲或者數(shù)據庫存儲來(lái)解決,也是沒問題的。與雲計(jì)算(suàn)類似,數(shù)據倉庫技(jì)術(shù)不是必需的,但(dàn)對于數(shù)據倉庫技(jì)術(shù)對于結構化數(shù)據進行(xíng)淘金還(hái)是非常有(yǒu)用的,當然,你(nǐ)不用數(shù)據倉庫技(jì)術(shù)也可(kě)以,比如Hadoop模式。

在雲計(jì)算(suàn)和(hé)大(dà)數(shù)據處理(lǐ)中,最基礎的技(jì)術(shù)其實是分布式計(jì)算(suàn)技(jì)術(shù)。而對于構建分布式計(jì)算(suàn)而言,多(duō)線程,同步,遠程調用(RPC,RMI等),進程管理(lǐ)與通(tōng)信是其基本技(jì)術(shù)點。分布式計(jì)算(suàn)編程是一種綜合性應用編程,不僅需要有(yǒu)基本的技(jì)術(shù)點,還(hái)需要一定的組織管理(lǐ)知識。


文章推薦

廣州藍凱智慧科技有限公司

地址 :廣州市番禺區(qū)番禺大(dà)道(dào)北555号天安總部中心1号樓605單元     電(diàn)話(huà):020-8582 1817   手機:136 0306 0175  馬先生(shēng)       郵箱:tlwisdom@tsing-lan.com

COPYRIGHT (©) 廣州藍凱智慧科技有限公司

添加微信好友(yǒu),詳細了解産品
使用企業微信
“掃一掃”加入群聊
複制(zhì)成功
添加微信好友(yǒu),詳細了解産品
我知道(dào)了