大數(shù)據(jù)入門,這10點(diǎn)你是必須要知道的
1、云計(jì)算與大數(shù)據(jù)是什么關(guān)系?
云計(jì)算的關(guān)鍵詞在于“整合”,無論你是通過現(xiàn)在已經(jīng)很成熟的傳統(tǒng)的虛擬機(jī)切分型技術(shù),還是通過google后來所使用的海量節(jié)點(diǎn)聚合型技術(shù),他都是通過將海量的服務(wù)器資源通過網(wǎng)絡(luò)進(jìn)行整合,調(diào)度分配給用戶,從而解決用戶因?yàn)榇鎯?chǔ)計(jì)算資源不足所帶來的問題。
大數(shù)據(jù)正是因?yàn)閿?shù)據(jù)的爆發(fā)式增長帶來的一個(gè)新的課題內(nèi)容,如何存儲(chǔ)如今互聯(lián)網(wǎng)時(shí)代所產(chǎn)生的海量數(shù)據(jù),如何有效的利用分析這些數(shù)據(jù)等等。
他倆之間的關(guān)系你可以這樣來理解,云計(jì)算技術(shù)就是一個(gè)容器,大數(shù)據(jù)正是存放在這個(gè)容器中的水,大數(shù)據(jù)是要依靠云計(jì)算技術(shù)來進(jìn)行存儲(chǔ)和計(jì)算的。
兩者關(guān)系:
首先,云計(jì)算是提取大數(shù)據(jù)的前提。
信息社會(huì),數(shù)據(jù)量在不斷增長,技術(shù)在不斷進(jìn)步,大部分企業(yè)都能通過大數(shù)據(jù)獲得額外利益。在海量數(shù)據(jù)的前提下,如果提取、處理和利用數(shù)據(jù)的成本超過了數(shù)據(jù)價(jià)值本身,那么有價(jià)值相當(dāng)于沒價(jià)值。來自公有云、私有云以及混合云之上的強(qiáng)大的云計(jì)算能力,對(duì)于降低數(shù)據(jù)提取過程中的成本不可或缺。
其次,云計(jì)算是過濾無用信息的“神器”.
首次收集的數(shù)據(jù)中,一般而言,90%屬于無用數(shù)據(jù),因此需要過濾出能為企業(yè)提供經(jīng)濟(jì)利益的可用數(shù)據(jù)。在大量無用數(shù)據(jù)中,重點(diǎn)需過濾出兩大類,一是大量存儲(chǔ)著的臨時(shí)信息,幾乎不存在投入必要;二是從公司防火墻外部接入到內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù),價(jià)值極低。云計(jì)算可以提供按需擴(kuò)展的計(jì)算和存儲(chǔ)資源,可用來過濾掉無用數(shù)據(jù),其中公有云是處理防火墻外部網(wǎng)絡(luò)數(shù)據(jù)的最佳選擇。
再次,云計(jì)算可高效分析數(shù)據(jù)。
數(shù)據(jù)分析階段,可引入公有云和混合云技術(shù),此外,類似Hadoop的分布式處理軟件平臺(tái)可用于數(shù)據(jù)集中處理階段。當(dāng)完成數(shù)據(jù)分析后,提供分析的原始數(shù)據(jù)不需要一直保留,可以使用私有云把分析處理結(jié)果,即可用信息導(dǎo)入公司內(nèi)部。
最后,云計(jì)算助力企業(yè)管理虛擬化。
可用信息最終用來指導(dǎo)決策,通過將軟件即服務(wù)應(yīng)用于云平臺(tái)中,可將可用信息轉(zhuǎn)化到企業(yè)現(xiàn)有系統(tǒng)中,幫助企業(yè)強(qiáng)化管理模式。
上升到我國互聯(lián)網(wǎng)整體發(fā)展層面,雖然我國在互聯(lián)網(wǎng)服務(wù)方面具有領(lǐng)先的優(yōu)勢(shì),然而,越來越多的企業(yè)認(rèn)識(shí)到,與云計(jì)算的結(jié)合將使大數(shù)據(jù)分析變得更簡單,未來幾年,如能在大數(shù)據(jù)與云計(jì)算結(jié)合領(lǐng)域進(jìn)行深入探索,將使我們?cè)谌蚴袌?chǎng)更具競(jìng)爭力,這是非常關(guān)鍵的問題。
2、大數(shù)據(jù)需要什么人才?
大數(shù)據(jù)需要以下六類人才:
(1)大數(shù)據(jù)系統(tǒng)研發(fā)工程師
這一專業(yè)人才負(fù)責(zé)大數(shù)據(jù)系統(tǒng)研發(fā),包括大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)業(yè)務(wù)模型構(gòu)建、大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)庫構(gòu)設(shè)、優(yōu)化數(shù)據(jù)庫構(gòu)架、解決數(shù)據(jù)庫中心設(shè)計(jì)等,同時(shí),還要負(fù)責(zé)數(shù)據(jù)集群的日常運(yùn)作和系統(tǒng)的監(jiān)測(cè)等,這一類人才是任何構(gòu)設(shè)大數(shù)據(jù)系統(tǒng)的機(jī)構(gòu)都必須的。
(2)大數(shù)據(jù)應(yīng)用開發(fā)工程師
此類人才負(fù)責(zé)搭建大數(shù)據(jù)應(yīng)用平臺(tái)以及開發(fā)分析應(yīng)用程序,他們必須熟悉工具或算法、編程、優(yōu)化以及部署不同的MapReduce,他們研發(fā)各種基于大數(shù)據(jù)技術(shù)的應(yīng)用程序及行業(yè)解決方案。其中,ETL開發(fā)者是很搶手的人才,他們所做的是從不同的源頭抽取數(shù)據(jù),轉(zhuǎn)換并導(dǎo)入數(shù)據(jù)倉庫以滿足企業(yè)的需要,將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ),為提取各類型的需要數(shù)據(jù)創(chuàng)造條件。
(3)大數(shù)據(jù)分析師
此類人才主要從事數(shù)據(jù)挖掘工作,運(yùn)用算法來解決和分析問題,讓數(shù)據(jù)顯露出真相,同時(shí),他們還推動(dòng)數(shù)據(jù)解決方案的不斷更新。隨著數(shù)據(jù)集規(guī)模不斷增大,企業(yè)對(duì)Hadoop及相關(guān)的廉價(jià)數(shù)據(jù)處理技術(shù)如Hive、HBase、MapReduce、Pig等的需求將持續(xù)增長,具備Hadoop框架經(jīng)驗(yàn)的技術(shù)人員是最搶手的大數(shù)據(jù)人才,他們所從事的是熱門的分析師工作。
(4)數(shù)據(jù)可視化工程師
此類人才負(fù)責(zé)在收集到的高質(zhì)量數(shù)據(jù)中,利用圖形化的工具及手段的應(yīng)用,清楚地揭示數(shù)據(jù)中的復(fù)雜信息,幫助用戶更好地進(jìn)行大數(shù)據(jù)應(yīng)用開發(fā),如果能使用新型數(shù)據(jù)可視化工具如Spotifre,Qlikview和Tableau,那么,就成為很受歡迎的人才。
(5)數(shù)據(jù)安全研發(fā)人才
此類人才主要負(fù)責(zé)企業(yè)內(nèi)部大型服務(wù)器、存儲(chǔ)、數(shù)據(jù)安全管理工作,并對(duì)網(wǎng)絡(luò)、信息安全項(xiàng)目進(jìn)行規(guī)劃、設(shè)計(jì)和實(shí)施,而對(duì)于數(shù)據(jù)安全方面的具體技術(shù)的人才就更需要了,如果數(shù)據(jù)安全技術(shù),同時(shí)又具有較強(qiáng)的管理經(jīng)驗(yàn),能有效地保證大數(shù)據(jù)構(gòu)設(shè)和應(yīng)用單位的數(shù)據(jù)安全,那就是搶手的人才
(6)數(shù)據(jù)科學(xué)研究人才
數(shù)據(jù)科學(xué)研究是一個(gè)全新的工作,夠?qū)挝弧⑵髽I(yè)的數(shù)據(jù)和技術(shù)轉(zhuǎn)化為有用的商業(yè)價(jià)值,隨著大數(shù)據(jù)時(shí)代的到來,越來越多的工作、事務(wù)直接涉及或針對(duì)數(shù)據(jù),這就需要有數(shù)據(jù)科學(xué)方面的研究專家來進(jìn)行研究,通過研究,他們能將數(shù)據(jù)分析結(jié)果解釋給IT部門和業(yè)務(wù)部門管理者聽,數(shù)據(jù)科學(xué)專家是聯(lián)通海量數(shù)據(jù)和管理者之間的橋梁,需要有數(shù)據(jù)專業(yè)、分析師能力和管理者的知識(shí),這也是搶手的人才。
3、大數(shù)據(jù)行業(yè)的從業(yè)者是從哪獲得數(shù)據(jù)的?
大數(shù)據(jù)行業(yè)的從業(yè)者有多種途徑獲得數(shù)據(jù),也就是我們常說的數(shù)據(jù)源,具體有一下幾種:
(1)官方數(shù)據(jù)(政府部門或企業(yè)直接提供的數(shù)據(jù)或數(shù)據(jù)接口);
(2)半官方數(shù)據(jù):如各類行業(yè)協(xié)會(huì),俱樂部;
(3)各個(gè)平臺(tái)的數(shù)據(jù):如淘寶網(wǎng)、京東、唯品會(huì),有些會(huì)免費(fèi)開發(fā)數(shù)據(jù),還有一部分是付費(fèi)的數(shù)據(jù)軟件;
(4)再然后就是從業(yè)者自己收集的數(shù)據(jù),一般都是用一些數(shù)據(jù)采集工具或軟件,工具如:爬蟲軟件,百度蜘蛛等;
(5)最后就是購買的數(shù)據(jù),一般有一些專門數(shù)據(jù)采集的機(jī)構(gòu),像像艾瑞、浪潮,以及傳統(tǒng)的調(diào)研企業(yè)。
數(shù)據(jù)的獲取方式有很多種,同樣,數(shù)據(jù)的使用方式也有很多種,比如說行業(yè)銷售趨勢(shì),有人用銷售額數(shù)據(jù),有人用銷量數(shù)據(jù)。數(shù)據(jù)就像一個(gè)任人打扮的姑娘,使用的人會(huì)選取自己想要的數(shù)據(jù)來展示,所以考量數(shù)據(jù)的真實(shí)性,一個(gè)是數(shù)據(jù)來源,還有就是數(shù)據(jù)的選擇是否合理。
4、大數(shù)據(jù)分析的常用方法有哪些?
(1)Analytic Visualizations(可視化分析)
不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
(2)Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
(3)Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。
(4)Semantic Engines(語義引擎)
由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
(5)Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
5、央行征信和大數(shù)據(jù)征信的不同之處
(1)確實(shí)有不同之處,央行征信是傳統(tǒng)征信方式,大數(shù)據(jù)征信是伴隨互聯(lián)網(wǎng)金融發(fā)展起來的。
(2)央行征信與大數(shù)據(jù)征信差異主要從征信數(shù)據(jù)來源、權(quán)威性、數(shù)據(jù)完整性、用途等維度區(qū)分。
(3)央行征信特點(diǎn):數(shù)據(jù)主要來自銀行、證券、保險(xiǎn)、社保等體系里構(gòu)成一個(gè)數(shù)據(jù)循環(huán),權(quán)威性高,數(shù)據(jù)基本完整,主要用于資產(chǎn)評(píng)估、銀行放貸、信用卡額度等。
(4)大數(shù)據(jù)征信特點(diǎn):數(shù)據(jù)主要來自互聯(lián)網(wǎng)各大平臺(tái),使用互聯(lián)網(wǎng)技術(shù)抓取或接口合作獲取征信數(shù)據(jù),資質(zhì)再好一點(diǎn)的企業(yè)可以申請(qǐng)接入央行征信,權(quán)威性不如央行征信,但隨著互聯(lián)網(wǎng)金融的發(fā)展會(huì)越來越重要,數(shù)據(jù)完整性各大數(shù)據(jù)征信平臺(tái)不同,主要用于互聯(lián)網(wǎng)金融,例如P2P,如果p2p拿不到央行征信數(shù)據(jù)風(fēng)險(xiǎn)會(huì)很大。
(5)展望未來:隨著互聯(lián)網(wǎng)金融的發(fā)展,大數(shù)據(jù)征信與央行征信會(huì)不斷融合直至融為一體,真正的滿足數(shù)據(jù)的完整性,那違法犯罪基本就真的大大減少了,信用真的就是錢!
6、如何構(gòu)建銀行業(yè)大數(shù)據(jù)分析平臺(tái) ?
一是銀行與電商平臺(tái)形成戰(zhàn)略合作。銀行業(yè)共享小微企業(yè)在電商平臺(tái)上的經(jīng)營數(shù)據(jù)和經(jīng)營者的個(gè)人信息,由電商平臺(tái)向銀行推薦有貸款意向的優(yōu)質(zhì)企業(yè),銀行通過交易流水、買賣雙方評(píng)價(jià)等信息,確定企業(yè)資信水平,給予授信額度。建設(shè)銀行曾在這方面做過有益的嘗試。此外也有銀行參股電商、開展數(shù)據(jù)合作的案例。
二是銀行自主搭建電商平臺(tái)。銀行自建電商平臺(tái),獲得數(shù)據(jù)資源的獨(dú)立話語權(quán)。在為客戶提供增值服務(wù)的同時(shí),獲得客戶的動(dòng)態(tài)商業(yè)信息,為發(fā)展小微信貸奠定基礎(chǔ),是銀行搭建電商平臺(tái)的驅(qū)動(dòng)力。2012年,建設(shè)銀行率先上線“善融商務(wù)”,提供B2B和B2C客戶操作模式,涵蓋商品批發(fā)、商品零售、房屋交易等領(lǐng)域,為客戶提供信息發(fā)布、交易撮合、社區(qū)服務(wù)、在線財(cái)務(wù)管理、在線客服等配套服務(wù),提供的金融服務(wù)已從支付結(jié)算、托管、擔(dān)保擴(kuò)展到對(duì)商戶和消費(fèi)者線上融資服務(wù)的全過程。
三是銀行建立第三方數(shù)據(jù)分析中介,專門挖掘金融數(shù)據(jù)。例如,有的銀行將其與電商平臺(tái)一對(duì)一的合作擴(kuò)展為“三方合作”,在銀行與電商之間,加入第三方公司來負(fù)責(zé)數(shù)據(jù)的對(duì)接,為銀行及其子公司提供數(shù)據(jù)分析挖掘的增值服務(wù)。其核心是對(duì)客戶的交易數(shù)據(jù)進(jìn)行分析,準(zhǔn)確預(yù)測(cè)客戶短時(shí)間內(nèi)的消費(fèi)和交易需求,從而精準(zhǔn)掌握客戶的信貸需求和其他金融服務(wù)需求。
銀行業(yè)有處理數(shù)據(jù)的經(jīng)驗(yàn)和人才。數(shù)據(jù)分析和計(jì)量模型技術(shù)在傳統(tǒng)數(shù)據(jù)領(lǐng)域已得到較充分運(yùn)用,同時(shí)也培養(yǎng)出大批精通計(jì)量分析技術(shù)的人才。如在風(fēng)險(xiǎn)管理方面,我國金融監(jiān)管部門在與國際接軌過程中,引入巴塞爾新資本協(xié)議等國際準(zhǔn)則,為銀行業(yè)提供了一套風(fēng)險(xiǎn)管理工具體系。銀行在此框架下,利用歷史數(shù)據(jù)測(cè)度信用、市場(chǎng)、操作、流動(dòng)性等各類風(fēng)險(xiǎn),內(nèi)部評(píng)級(jí)相關(guān)技術(shù)工具已發(fā)揮出效果,廣泛應(yīng)用于貸款評(píng)估、客戶準(zhǔn)入退出、授信審批、產(chǎn)品定價(jià)、風(fēng)險(xiǎn)分類、經(jīng)濟(jì)資本管理、績效考核等重要領(lǐng)域。
7、為什么需要大數(shù)據(jù)技術(shù)?
大數(shù)據(jù)到底是什么?我們?yōu)槭裁葱枰髷?shù)據(jù)技術(shù)?
Mike Jude:從本質(zhì)上來說,大數(shù)據(jù)就是曾經(jīng)被稱為數(shù)據(jù)倉庫的邏輯延伸。顧名思義,大數(shù)據(jù)就是一個(gè)大型的數(shù)據(jù)倉庫,一般有一個(gè)能支持業(yè)務(wù)決策的業(yè)務(wù)重點(diǎn)。但是,它和傳統(tǒng)數(shù)據(jù)庫不同的是,大數(shù)據(jù)不用構(gòu)建。
在典型的數(shù)據(jù)庫中,數(shù)據(jù)會(huì)被組織成標(biāo)準(zhǔn)的字段,并使用特定的密鑰索引。如果你熟悉Microsoft Access應(yīng)用程序,那么你就能完全理解這個(gè)概念。比如,一個(gè)顧客記錄可以由姓氏、名字、地址和其它信息組成有通用標(biāo)簽的字段。每個(gè)顧客記錄樣式都是相同的,這樣可以通過使用搜索關(guān)鍵詞來檢索,比如搜索姓氏。
現(xiàn)在,如果你想鏈接到這些客戶記錄需要怎么做?鏈接到客戶的圖片或者視頻呢?如果是鏈接到客戶的所有記錄呢?
將這么多不同的數(shù)據(jù)源互相映射,一般的數(shù)據(jù)庫還做不到。另外,需要鏈接的數(shù)據(jù)量是非常巨大的。這就產(chǎn)生了“大數(shù)據(jù)”的概念。大數(shù)據(jù)使用特殊的數(shù)據(jù)結(jié)構(gòu)來組織和訪問巨大數(shù)量的數(shù)據(jù),可能達(dá)到多個(gè)艾字節(jié)的范圍。一般情況下,這需要跨多個(gè)服務(wù)器和離散數(shù)據(jù)存儲(chǔ)進(jìn)行并行計(jì)算,而小企業(yè)往往難以維持這種大數(shù)據(jù)的存儲(chǔ)庫。但是,大數(shù)據(jù)正逐漸成為云服務(wù)提供商能提供的一種服務(wù),從而把大數(shù)據(jù)應(yīng)用推向更多的公司。
但是,還有一個(gè)“大”問題,就是我們?yōu)槭裁葱枰髷?shù)據(jù)?答案就是相關(guān)性的價(jià)值。如果你能看到乍一看似乎沒什么關(guān)系的數(shù)據(jù)設(shè)置之間的關(guān)系,你會(huì)獲取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多個(gè)應(yīng)用程序和數(shù)據(jù)中心檢查無數(shù)條交易。這時(shí)如果沒有大數(shù)據(jù)技術(shù)和相關(guān)的分析技術(shù),這幾乎是不可能完成的。
最終,隨著數(shù)據(jù)量的增長、業(yè)務(wù)的可用性和重要性的增加,大數(shù)據(jù)的定義可能會(huì)用來描述大多數(shù)數(shù)據(jù)庫應(yīng)用。IT專業(yè)人士應(yīng)該掌握大數(shù)據(jù)相關(guān)概念和術(shù)語,以免遇到困難。
8、企業(yè)大數(shù)據(jù)如何起步?
大數(shù)據(jù)應(yīng)該是從小數(shù)據(jù)逐漸演變上去的,是一個(gè)正常的生態(tài),而不是瞬間變化的。
大數(shù)據(jù)這個(gè)概念跟自媒體的概念類似,需要企業(yè)自己去建設(shè),而不是從一開始就想著依靠別人。很多企業(yè)在談自媒體的時(shí)候,像談別人的事情一樣。比如一談自媒體,就覺得那是第三方提供的一個(gè)平臺(tái),大家在那兒發(fā)發(fā)牢騷。自媒體是自己的媒體,企業(yè)自己也要參與進(jìn)去。同樣大數(shù)據(jù)不是別人的大數(shù)據(jù),我們假設(shè)有一個(gè)第三方提供了大量的數(shù)據(jù),有很多很多信息,CI、BI之類的很多模塊化東西供我們來用。如果這樣的話,你有,競(jìng)爭對(duì)手也有,你能得到的東西,競(jìng)爭對(duì)手也能得到的情況下,就不能稱之為核心競(jìng)爭力。
大數(shù)據(jù)作為企業(yè)來說要變成自身的一個(gè)競(jìng)爭力,企業(yè)必須得建立自己的企業(yè)級(jí)的數(shù)據(jù)。
要做大數(shù)據(jù),首先要了解自己的企業(yè),或者自己所在的行業(yè)的核心是什么。我們現(xiàn)在經(jīng)常發(fā)現(xiàn),有很多企業(yè)在競(jìng)爭的過程中,最終不是被現(xiàn)在的競(jìng)爭對(duì)手打敗,而是被很多不是你的競(jìng)爭對(duì)手所打敗。很簡單的一個(gè)例子,大家都認(rèn)為亞馬遜是做電商的,但這是錯(cuò)的,它現(xiàn)在最主要的收入來自于云(云服務(wù))。也就是說企業(yè)需要找到自己的核心數(shù)據(jù)(價(jià)值),這個(gè)是最關(guān)鍵的。只有在這個(gè)基礎(chǔ)上,建立自己的大數(shù)據(jù)才有可能,才能做一些延伸。其次,要找到內(nèi)部的一些外圍相關(guān)數(shù)據(jù),去慢慢地成長它。有點(diǎn)像滾雪球,第一層是核心,第二層是外圍相關(guān)的數(shù)據(jù)。第三層是什么?就是外部機(jī)構(gòu)的一些結(jié)構(gòu)化數(shù)據(jù)。第四層是社會(huì)化的,以及各種現(xiàn)在所謂的非結(jié)構(gòu)化的數(shù)據(jù)。這幾層要一層一層地找到它,而且要找到與自己相關(guān)的有價(jià)值的東西。這樣你的大數(shù)據(jù)才能建立起來。
第一步,找到核心數(shù)據(jù)。核心數(shù)據(jù)現(xiàn)在對(duì)很多企業(yè)來說實(shí)際上就是CRM,自己的用戶系統(tǒng),這是最重要的。
第二步,常規(guī)渠道的數(shù)據(jù)。舉例來說一個(gè)銷售快銷品的企業(yè),能不能夠得到沃爾瑪?shù)臄?shù)據(jù),家樂福的數(shù)據(jù)?很多國外大數(shù)據(jù)的案例,說消費(fèi)者買啤酒的時(shí)候也會(huì)購買剃須刀之類,或者一個(gè)母嬰產(chǎn)品的消費(fèi)者她今天在買這個(gè)產(chǎn)品,預(yù)示著她后面必然會(huì)買另一個(gè)產(chǎn)品。這就有一個(gè)前期的挖掘。這些價(jià)值怎么來的,這就需要企業(yè)去找常規(guī)渠道里面的數(shù)據(jù),跟自己的CRM結(jié)合起來,才能為自己下一步做市場(chǎng)營銷、做推廣、產(chǎn)品創(chuàng)新等建立基礎(chǔ)。
第三步,外部的社會(huì)化的或者非結(jié)構(gòu)化的數(shù)據(jù),即現(xiàn)在所謂的社會(huì)化媒體數(shù)據(jù)。這方面信息的主要特征是非結(jié)構(gòu)化,而且非常龐大。這對(duì)企業(yè)來說最大的價(jià)值是什么?當(dāng)你的用戶在社會(huì)化媒體上發(fā)言的時(shí)候,你有沒有跟他建立聯(lián)系?這里有個(gè)概念叫做DC(digital connection)。所謂的互聯(lián)網(wǎng)實(shí)際就是一種DC,但是通?;ヂ?lián)網(wǎng)上的那種DC是在娛樂層面。用到商業(yè)里面的話,就是企業(yè)必須得跟消費(fèi)者建立這種DC關(guān)系,它的價(jià)值才能發(fā)揮出來。否則,你的數(shù)據(jù)以及很多的CRM數(shù)據(jù)都是死的。就像國外CRM之父Paul Greenberg寫的四本CRM相關(guān)書籍,前面三本都是在講數(shù)據(jù)庫、系統(tǒng)之類的。第四本書的時(shí)候,就沒有再講那些東西,講什么?講互動(dòng),講DC,講怎么跟消費(fèi)者建立關(guān)系。
有了這個(gè)數(shù)據(jù)庫去進(jìn)行數(shù)據(jù)挖掘,或者在建立數(shù)據(jù)的過程中,企業(yè)需要從什么方向去探索,也不是漫無目的的。首先應(yīng)該跟著你的業(yè)務(wù),業(yè)務(wù)現(xiàn)在有哪些問題,或者說這個(gè)行業(yè)里面主要的競(jìng)爭點(diǎn)在哪里,這是很關(guān)鍵的。有了這個(gè)業(yè)務(wù)關(guān)系以后,再形成假設(shè),也就是說未來的競(jìng)爭點(diǎn)可能在哪里,大到未來的戰(zhàn)略競(jìng)爭,小到哪些方面。然后下一步要怎么做,這些形成一個(gè)假設(shè),其次做一些小樣本的測(cè)試。
很多企業(yè)一看大數(shù)據(jù)就很恐怖,說我也買不起那些大數(shù)據(jù),也雇不起那么專業(yè)的團(tuán)隊(duì),怎么辦?
自己做一些小樣本的測(cè)試,甚至通過電子表格Excel都可以做數(shù)據(jù)挖掘。不一定非要那么龐大、那么貴的數(shù)據(jù)。然后再做大樣本的驗(yàn)證,驗(yàn)證出來的結(jié)果就可以應(yīng)用到現(xiàn)實(shí)中去。在大數(shù)據(jù)尤其是互聯(lián)網(wǎng)時(shí)代還有一個(gè)最重要的點(diǎn),就是失效預(yù)警。即你發(fā)現(xiàn)一個(gè)規(guī)律,在現(xiàn)實(shí)中應(yīng)用了,但是你一定要設(shè)立一些預(yù)警指標(biāo)。就是當(dāng)指標(biāo)達(dá)到什么程度的時(shí)候,之前發(fā)現(xiàn)的規(guī)律失效,那你就必須發(fā)現(xiàn)新的、相關(guān)的,否則也會(huì)造成一種浪費(fèi)。筆者看到一篇文章,其中有一個(gè)重要結(jié)論。大家都在說大數(shù)據(jù)的價(jià)值很有用的時(shí)候,很多企業(yè)說我積累了多少TB,多少PB,但是你基于老的數(shù)據(jù)得出的很多結(jié)論實(shí)際是在浪費(fèi)你的資源。你挖掘出來很多數(shù)據(jù)、很多規(guī)律,如果錯(cuò)了,明天按這個(gè)去做,就是浪費(fèi)。因此需要有一個(gè)失效預(yù)警。在這樣的過程中,最終你需要對(duì)應(yīng)建立起內(nèi)部團(tuán)隊(duì),他們對(duì)數(shù)據(jù)的敏感度也才能培養(yǎng)起來。這時(shí)候你再去買大數(shù)據(jù)服務(wù)的時(shí)候才是有價(jià)值的。
所有這些工作作為企業(yè)來說是需要內(nèi)部去做的,最終才能開花結(jié)果,有一些收獲。企業(yè)大數(shù)據(jù)起步,要從小數(shù)據(jù)開始。
9、大數(shù)據(jù)處理中數(shù)據(jù)質(zhì)量監(jiān)控從哪幾個(gè)方面進(jìn)行?
大數(shù)據(jù)處理中數(shù)據(jù)質(zhì)量監(jiān)控,從以下幾個(gè)方面進(jìn)行:
數(shù)據(jù)容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值的和潛在的信息;
數(shù)據(jù)種類(Variety):數(shù)據(jù)類型的多樣性; 數(shù)據(jù)速度(Velocity):指獲得數(shù)據(jù)的速度;
數(shù)據(jù)可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程;
數(shù)據(jù)真實(shí)性(Veracity):數(shù)據(jù)的質(zhì)量;
數(shù)據(jù)復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道。 “大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
10、大數(shù)據(jù)是否存在泡沫呢?
這是必然的,任何一個(gè)影響極大的“概念”被炒作起來后,都會(huì)在一段時(shí)間內(nèi)形成強(qiáng)大的原動(dòng)力,使各行各業(yè)的人們?yōu)橹冻龌蛘婊蚣?、或?qū)嵒蛱摰呐?,群眾的力量是龐大的,因此這一新事物將有力的推動(dòng)一下歷史的進(jìn)程,當(dāng)又一個(gè)新的技術(shù)或理論出來后,前一個(gè)被推向高潮的概念就成了泡沫了。
“大數(shù)據(jù)”是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,靠人腦是無法進(jìn)行處理的,結(jié)論的真假優(yōu)劣完全取決于使用的軟件,所以其結(jié)果絕非完美無瑕,作為商業(yè)用途,能夠提供一些參考,既然只能作為一個(gè)參考,那么將之推高到一定程度的時(shí)候就會(huì)形成泡沫,漸漸被人遺棄和遺忘。
沒有常青的技術(shù)。推陳出新才是歷史的必然。
更多大數(shù)據(jù)與分析相關(guān)行業(yè)資訊、解決方案、案例、教程等請(qǐng)點(diǎn)擊查看>>>
詳情請(qǐng)咨詢在線客服!
客服熱線:023-66090381