久久电影免费精品_色老板精品无码免费视频_精品自在线观看影片天天看_欧洲老熟妇喷水

解鎖我國(guó)大數(shù)據(jù)行業(yè)發(fā)展現(xiàn)狀及趨勢(shì)

2020-06-13 12:02:38 信息技術(shù)

一、行業(yè)發(fā)展概況

1、相關(guān)定義

對(duì)于大數(shù)據(jù)的概念,目前尚無(wú)業(yè)界所廣泛接受的明確定義。各權(quán)威機(jī)構(gòu)及普遍理解大致如下:

麥肯錫在研究報(bào)告《大數(shù)據(jù)的下一個(gè)前言:創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力》中認(rèn)為:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫(kù)軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集;美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology,NIST)的大數(shù)據(jù)工作組在《大數(shù)據(jù):定義和分類(lèi)》中認(rèn)為:大數(shù)據(jù)是指那些傳統(tǒng)數(shù)據(jù)架構(gòu)無(wú)法有效地處理的新數(shù)據(jù)集。維基百科列示的定義是:大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類(lèi)所能解讀的信息。Gartner 列示的定義是:大數(shù)據(jù)是體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、作出決策和優(yōu)化流程的能力。國(guó)內(nèi)普遍的理解是:大數(shù)據(jù)是具有數(shù)據(jù)量巨大、來(lái)源多樣、生成極快、且多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系結(jié)構(gòu)有效處理的包含大數(shù)據(jù)集的數(shù)據(jù)。

2、大數(shù)據(jù)的特征

傳統(tǒng)的數(shù)據(jù)處理只有兩個(gè)環(huán)節(jié):從“數(shù)據(jù)源”到“應(yīng)用”,數(shù)據(jù)源需要經(jīng)過(guò)處理存到一個(gè)結(jié)構(gòu)化數(shù)據(jù)庫(kù)進(jìn)行管理,然后再使用諸如數(shù)理統(tǒng)計(jì)、結(jié)果可視化等技術(shù)完成對(duì)數(shù)據(jù)的應(yīng)用。

與傳統(tǒng)的數(shù)據(jù)處理周期不同,大數(shù)據(jù)處理需要在傳統(tǒng)的 “數(shù)據(jù)源”到“應(yīng)用”這一流程上增加“數(shù)據(jù)管理”這一步驟,以應(yīng)對(duì)海量大數(shù)據(jù)帶來(lái)的新挑戰(zhàn)。

對(duì)于大數(shù)據(jù)的數(shù)據(jù)特征,業(yè)界通常引用國(guó)際數(shù)據(jù)公司定義的 4V 進(jìn)行描述:

(1)數(shù)據(jù)量大(Volume):雖然對(duì)大數(shù)據(jù)量的統(tǒng)計(jì)和預(yù)測(cè)結(jié)果并不完全相同,但是一致認(rèn)為數(shù)據(jù)量將急劇增長(zhǎng)。

(2)類(lèi)型繁多(Variety):除了結(jié)構(gòu)化數(shù)據(jù)外,大數(shù)據(jù)還包括各類(lèi)非結(jié)構(gòu)化數(shù)據(jù),例如文本、音頻、視頻、點(diǎn)擊流量、文件記錄等,以及半結(jié)構(gòu)化數(shù)據(jù),例如電子郵件、辦公處理文檔等。

(3)數(shù)據(jù)價(jià)值(Value):從海量?jī)r(jià)值密度低的數(shù)據(jù)中挖掘出具有高價(jià)值的數(shù)據(jù)。這一特性突出表現(xiàn)了大數(shù)據(jù)的本質(zhì)是獲取數(shù)據(jù)價(jià)值,關(guān)鍵在于商業(yè)價(jià)值,即如何有效利用好這些數(shù)據(jù)。

(4)處理速度快(Velocity):通常具有時(shí)效性,企業(yè)只有把握好對(duì)數(shù)據(jù)流的掌握應(yīng)用,才能最大化地挖掘利用大數(shù)據(jù)所潛藏的商業(yè)價(jià)值。

3、我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展歷程

我國(guó)的大數(shù)據(jù)產(chǎn)業(yè)目前已經(jīng)歷了三個(gè)時(shí)期:

(1)探索期:大約從 2004 年前后,隨著數(shù)據(jù)庫(kù)等技術(shù)的進(jìn)步,數(shù)據(jù)挖掘概念 開(kāi)始普及,越來(lái)越多的企業(yè)將信息管理作為單獨(dú)的業(yè)務(wù)部門(mén)。但由于當(dāng)時(shí)企業(yè)數(shù) 據(jù)采集能力的限制,以及企業(yè)信息化時(shí)間較短,本身管理軟件中積累的歷史數(shù)據(jù) 有限,一些廠商推出的領(lǐng)先數(shù)據(jù)管理方案并不容易獲得企業(yè)認(rèn)可,業(yè)務(wù)尚不足以推動(dòng)技術(shù)的快速進(jìn)步。

(2)市場(chǎng)啟動(dòng)期:2008 年金融危機(jī)后,國(guó)內(nèi)企業(yè)為了盡快從業(yè)務(wù)低迷的狀態(tài)中恢復(fù),獲得市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),對(duì)商業(yè)智能(BI)以及商業(yè)分析(BA)的需求出現(xiàn)快速提升,主要應(yīng)用在決策支持、業(yè)務(wù)優(yōu)化、銷(xiāo)售機(jī)會(huì)挖掘預(yù)測(cè)等領(lǐng)域。但在隨后的 2010-2011 年,領(lǐng)先企業(yè)擁有優(yōu)勢(shì)后并不甘愿放棄,而落后企業(yè)更急于尋求方案快速趕上,使得共同作用下,企業(yè)級(jí)市場(chǎng)對(duì)商業(yè)智能及商業(yè)分析的需求并未減退,反而成為一種常態(tài)。

(3)高速發(fā)展期:到了 2012 年以后,由于企業(yè)信息化及互聯(lián)網(wǎng)應(yīng)用的日益完善,對(duì)消費(fèi)者及企業(yè)內(nèi)外部所積累的數(shù)據(jù)日益豐富,大數(shù)據(jù)的概念迅速為各類(lèi)人 群所接受。而在企業(yè)領(lǐng)域,包括營(yíng)銷(xiāo)、風(fēng)險(xiǎn)管控、預(yù)測(cè)、客戶挖掘、海量數(shù)據(jù)實(shí) 時(shí)處理、可視化展現(xiàn)、數(shù)據(jù)倉(cāng)庫(kù)建設(shè)等方面的多樣化需求迅速擴(kuò)張,業(yè)務(wù)推動(dòng)技 術(shù)進(jìn)入高速創(chuàng)新期。而進(jìn)入 2015 年后,企業(yè)深度利用數(shù)據(jù)價(jià)值的意識(shí)迅速提高, 數(shù)據(jù)資產(chǎn)管理成為熱門(mén)概念,企業(yè)開(kāi)始愿意通過(guò)數(shù)據(jù)交易進(jìn)行變現(xiàn),各種與大數(shù)據(jù)有關(guān)的政策及法律法規(guī)不斷完善。

預(yù)計(jì),中國(guó)大數(shù)據(jù)市場(chǎng)將在 2020 年前后進(jìn)入成熟期。一方面業(yè)務(wù)需求的變化將推動(dòng)細(xì)分領(lǐng)域出現(xiàn)豐富的商業(yè)模式,并使得新產(chǎn)品和服務(wù)具有穩(wěn)定的剛性需求;另一方面隨著產(chǎn)業(yè)鏈的完善,專(zhuān)注于細(xì)分行業(yè)及細(xì)分應(yīng)用領(lǐng)域廠商競(jìng)爭(zhēng)逐漸穩(wěn)固,而不善于充分利用數(shù)據(jù)的企業(yè)將被快速淘汰出局。

二、行業(yè)發(fā)展情況分析

1、市場(chǎng)規(guī)模

目前,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展在經(jīng)歷初期探索、市場(chǎng)啟動(dòng)等階段后,大數(shù)據(jù)的技術(shù)、應(yīng)用以及社會(huì)公眾的接受度等方面逐步趨于成熟,整個(gè)產(chǎn)業(yè)開(kāi)始步入快速發(fā)展階段,行業(yè)規(guī)模增長(zhǎng)迅速。根據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布的數(shù)據(jù)顯示,2018 年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)的市場(chǎng)規(guī)模約為 4,384.5 億元人民幣,同比增長(zhǎng)23.50%。隨著國(guó)家政策激勵(lì)以及大數(shù)據(jù)應(yīng)用模式的逐步成熟,未來(lái)幾年中國(guó)大數(shù)據(jù)市場(chǎng)仍將保持快速增長(zhǎng),預(yù)計(jì)到 2021 年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模將達(dá)到 8,070.60 億元。

當(dāng)前,國(guó)內(nèi)大數(shù)據(jù)正在被越來(lái)越廣泛地應(yīng)用到政府公共管理、金融、交通、零售、醫(yī)療、工業(yè)制造等領(lǐng)域,隨著大數(shù)據(jù)應(yīng)用范圍的不斷擴(kuò)大,大數(shù)據(jù)所形成的市場(chǎng)價(jià)值將不斷提升。

2、區(qū)域結(jié)構(gòu)

當(dāng)前,由于各地區(qū)發(fā)展基礎(chǔ)和起步時(shí)間不同,全國(guó)各省市大數(shù)據(jù)發(fā)展水平存在明顯的差異性。從區(qū)域角度來(lái)看,華北、華東、中南是大數(shù)據(jù)企業(yè)主要集中區(qū)域,這些區(qū)域集中了中國(guó)主要的互聯(lián)網(wǎng)企業(yè)和金融、消費(fèi)品、制造等行業(yè)用戶。其中,2018 年華北地區(qū)份額最高,占 27.60%。

3、行業(yè)結(jié)構(gòu)

大數(shù)據(jù)市場(chǎng)剛剛邁入中國(guó)之時(shí),國(guó)內(nèi)對(duì)大數(shù)據(jù)的應(yīng)用領(lǐng)域主要集中在互聯(lián)網(wǎng),智能交通、電子政務(wù)、金融理財(cái)、電商物流等方面雖然得到了發(fā)展,但應(yīng)用領(lǐng)域仍然較為狹窄。近年來(lái),隨著泛互聯(lián)網(wǎng)的發(fā)展,各行業(yè)的數(shù)據(jù)量激增,金融科技、征信、工業(yè)、醫(yī)療等更多領(lǐng)域開(kāi)始關(guān)注并利用大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)價(jià)值,并逐步成為大數(shù)據(jù)行業(yè)的主流下游應(yīng)用領(lǐng)域。

4、在征信領(lǐng)域應(yīng)用

隨著我國(guó)社會(huì)信用體系建設(shè)的步伐不斷加快以及計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的不斷提高,征信業(yè)的發(fā)展也需要適應(yīng)大數(shù)據(jù)時(shí)代發(fā)展所帶來(lái)的技術(shù)變革。征信機(jī)構(gòu)在積累征信數(shù)據(jù)的同時(shí),也需要提升自身的數(shù)據(jù)存儲(chǔ)能力,豐富所積累數(shù)據(jù)的維度,提升數(shù)據(jù)分析挖掘、處理速度等各方面能力,從而促進(jìn)大數(shù)據(jù)技術(shù)在征信領(lǐng)域的應(yīng)用。

隨著云計(jì)算、數(shù)據(jù)挖掘等信息技術(shù)的發(fā)展和應(yīng)用,為征信產(chǎn)品的創(chuàng)新和升級(jí)奠定了技術(shù)基礎(chǔ)。數(shù)據(jù)處理能力的提升,使得征信機(jī)構(gòu)可以對(duì)數(shù)據(jù)資源進(jìn)行更充分地挖掘和分析,開(kāi)發(fā)出具有更高技術(shù)含量的產(chǎn)品和服務(wù),滿足銀行、保險(xiǎn)等金融機(jī)構(gòu)多層次、全方位、專(zhuān)業(yè)化的征信需求。

此外,以互聯(lián)網(wǎng)金融為代表的新型互聯(lián)網(wǎng)服務(wù)行業(yè)的快速發(fā)展也帶來(lái)大量新的征信需求。對(duì)于互聯(lián)網(wǎng)金融企業(yè),需要借助信用信息共享來(lái)防范信用風(fēng)險(xiǎn)、降低交易成本。大數(shù)據(jù)技術(shù)在征信領(lǐng)域的應(yīng)用,可以幫助其甄別和防范可能發(fā)生的風(fēng)險(xiǎn)。

三、 行業(yè)主要特點(diǎn)

大數(shù)據(jù)行業(yè)的下游應(yīng)用領(lǐng)域極其廣泛,例如金融科技、征信等領(lǐng)域,下游應(yīng)用領(lǐng)域市場(chǎng)規(guī)模的增長(zhǎng)代表著大數(shù)據(jù)行業(yè)市場(chǎng)需求的上升。

1、金融科技

金融科技是基于大數(shù)據(jù)、云計(jì)算、人工智能等一系列技術(shù)創(chuàng)新,全面應(yīng)用支付清算、借貸融資、財(cái)富管理、零售銀行、保險(xiǎn)、交易結(jié)算等六大金融領(lǐng)域,是金融業(yè)未來(lái)的主流趨勢(shì)。回顧人類(lèi)金融發(fā)展史,科技創(chuàng)新與金融創(chuàng)新始終緊密相連,特別是進(jìn)入信息社會(huì)以來(lái),在摩爾定律的作用下,新技術(shù)的出現(xiàn)速度不斷加快,而金融與科技的共生式成長(zhǎng)也使得現(xiàn)代金融體系伴隨信息技術(shù)共同經(jīng)歷著指數(shù)級(jí)增長(zhǎng)。

大數(shù)據(jù)在金融業(yè)的應(yīng)用場(chǎng)景相當(dāng)廣泛。如在銀行業(yè),大數(shù)據(jù)應(yīng)用場(chǎng)景集中在數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)、用戶經(jīng)營(yíng)、數(shù)據(jù)風(fēng)控、產(chǎn)品設(shè)計(jì)和決策支持等;在證券業(yè),證券企業(yè)可以運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)挖掘和分析以找到高頻交易服務(wù)對(duì)象、資產(chǎn)較高的服務(wù)對(duì)象和理財(cái)服務(wù)對(duì)象,然后證券公司就可以根據(jù)服務(wù)對(duì)象的特點(diǎn)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),推薦針對(duì)性服務(wù)。

根據(jù)艾瑞咨詢統(tǒng)計(jì),2018 年我國(guó)金融機(jī)構(gòu)技術(shù)資金投入達(dá) 2,297.3 億元,其中投入到以大數(shù)據(jù)、云計(jì)算為代表的前沿科技資金為 675.2 億元,占總體投入的 比重為 29.4%。另外,艾瑞咨詢預(yù)計(jì),到 2022 年中國(guó)金融機(jī)構(gòu)技術(shù)資金投入將 達(dá)到 4,034.7 億元,其中前沿科技投入占比將增至 35.1%。

雖然我國(guó)目前與歐美發(fā)達(dá)國(guó)家相比,金融基礎(chǔ)比較薄弱,但正是我國(guó)金融市場(chǎng)尚未成熟的特點(diǎn)給予我國(guó)金融科技快速發(fā)展的土壤,未來(lái)相關(guān)金融機(jī)構(gòu)投入到以大數(shù)據(jù)、云計(jì)算為代表的前沿科技資金投入也會(huì)不斷加大,這也會(huì)在相當(dāng)程度上推動(dòng)大數(shù)據(jù)行業(yè)的發(fā)展。

2、征信

征信是依法收集、整理、保存、加工自然人、法人及其他組織的信用信息,并對(duì)外提供信用報(bào)告、信用評(píng)估、信用信息咨詢等服務(wù),幫助客戶判斷、控制信用風(fēng)險(xiǎn),進(jìn)行信用管理的活動(dòng)。黨的十八大以來(lái),在黨中央、國(guó)務(wù)院統(tǒng)一部署下,我國(guó)征信業(yè)發(fā)展明顯提速,初步形成了“政府+市場(chǎng)”雙輪驅(qū)動(dòng),金融信用信息基礎(chǔ)數(shù)據(jù)庫(kù)與市場(chǎng)化征信機(jī)構(gòu)錯(cuò)位發(fā)展、功能互補(bǔ)的市場(chǎng)格局,征信體系在市場(chǎng)經(jīng)濟(jì)中發(fā)揮了更為重要的基礎(chǔ)性作用。

從征信企業(yè)業(yè)務(wù)流程看,信息收集、信息加工處理、信用產(chǎn)品輸出、商業(yè)化應(yīng)用是征信業(yè)務(wù)開(kāi)展的四大關(guān)鍵環(huán)節(jié),而大數(shù)據(jù)的應(yīng)用貫徹于征信企業(yè)業(yè)務(wù)流程四大關(guān)鍵環(huán)節(jié)始終。特別是央行在 2009 年 1 月發(fā)布了征信行業(yè)數(shù)據(jù)標(biāo)準(zhǔn):《征信數(shù)據(jù)元 信用評(píng)級(jí)數(shù)據(jù)元》、《征信數(shù)據(jù)交換格式信用評(píng)級(jí)違約率數(shù)據(jù)采集格式》,該標(biāo)準(zhǔn)格式的發(fā)布帶動(dòng)了大數(shù)據(jù)風(fēng)控技術(shù)的快速發(fā)展。同時(shí),以機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)為代表的大數(shù)據(jù)算法的不斷完善,也極大地推動(dòng)我國(guó)征信行業(yè)的發(fā)展。

根據(jù)央行征信中心統(tǒng)計(jì),截至2019年底,征信系統(tǒng)共收錄10.2億自然人、2,834.1萬(wàn)戶企業(yè)和其他組織的信息,規(guī)模已位居世界前列。此外,我國(guó)央行征 信中心 2011、2015 和 2019 年征信查詢總次數(shù)分別為 3.09 億次、7.19 億次和 25.1 億次,增長(zhǎng)速度較快,特別是 2015 年到 2019 年,征信查詢總次數(shù)增長(zhǎng)了近 2.5 倍,年復(fù)合增長(zhǎng)率達(dá)到 36.69%。

雖然我國(guó)目前征信查詢次數(shù)增長(zhǎng)較快,但是對(duì)于中國(guó)龐大的人口基數(shù)來(lái)說(shuō),人均查詢次數(shù)仍然偏少,且考慮到我國(guó)目前金融市場(chǎng)尚未成熟的特點(diǎn),未來(lái)我國(guó)征信行業(yè)市場(chǎng)需求巨大。

綜上所述,以金融科技、征信等領(lǐng)域?yàn)榇淼拇髷?shù)據(jù)下游應(yīng)用領(lǐng)域市場(chǎng)規(guī)模的增長(zhǎng)一方面對(duì)大數(shù)據(jù)產(chǎn)業(yè)提供了穩(wěn)健的需求保障,另一方面也對(duì)大數(shù)據(jù)技術(shù)提出了更高的需求。這就要求大數(shù)據(jù)相關(guān)企業(yè)不僅要不斷加大技術(shù)研發(fā)投入,而且要更加深入了解、分析下游應(yīng)用領(lǐng)域市場(chǎng)訴求,從而提供更加貼合市場(chǎng)需求的大數(shù)據(jù)技術(shù)解決方案。

四、行業(yè)上下游產(chǎn)業(yè)的關(guān)聯(lián)性

大數(shù)據(jù)產(chǎn)業(yè)鏈覆蓋從數(shù)據(jù)采集挖掘到數(shù)據(jù)應(yīng)用服務(wù),當(dāng)前大數(shù)據(jù)及相關(guān)應(yīng)用的產(chǎn)業(yè)鏈日益完善。

1、數(shù)據(jù)來(lái)源

(1)產(chǎn)業(yè)概況

近年來(lái),官方數(shù)據(jù)開(kāi)放程度逐漸提高,行業(yè)聯(lián)盟興起,第三方數(shù)據(jù)服務(wù)蓬勃發(fā)展,各大企業(yè)(以互聯(lián)網(wǎng)核心企業(yè)為主)也開(kāi)始逐步開(kāi)放群體畫(huà)像數(shù)據(jù),不同口徑單一數(shù)據(jù)的跨界融合成倍放大了數(shù)據(jù)價(jià)值。從整體趨勢(shì)上來(lái)講,數(shù)據(jù)來(lái)源已較為多元,數(shù)據(jù)產(chǎn)生量爆炸式增長(zhǎng),可供分析的數(shù)據(jù)維度越來(lái)越豐富。

據(jù) Forrester 的研究結(jié)果,目前在線或移動(dòng)金融交易、社交媒體、GPS 坐標(biāo)等數(shù)據(jù)源每天要產(chǎn)生超過(guò) 2.5EB(1EB 為 2 的 60 次方字節(jié))的海量數(shù)據(jù)。據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation)預(yù)計(jì),全球數(shù)據(jù)總量增長(zhǎng)率將維持50%左右,2020 年全球數(shù)據(jù)總量將達(dá)到 40ZB(1ZB=1024EB);中國(guó)將達(dá)到 8.6ZB, 占全球的 21%。

伴隨著數(shù)據(jù)資源價(jià)值逐步得到認(rèn)可,數(shù)據(jù)流通的需求不斷上升,除企業(yè)直接合作外,數(shù)據(jù)交易市場(chǎng)開(kāi)始出現(xiàn),建立數(shù)據(jù)需求方與供給方之間成規(guī)?;穆?lián)系。數(shù)據(jù)的開(kāi)放需要多方助力,數(shù)據(jù)的流通與分享能夠成倍提升大數(shù)據(jù)的經(jīng)濟(jì)價(jià)值和 社會(huì)價(jià)值。

當(dāng)前大數(shù)據(jù)應(yīng)用的數(shù)據(jù)源仍以自由數(shù)據(jù)為主,尚未形成完善統(tǒng)一的監(jiān)管政策與行業(yè)規(guī)則,企業(yè)之間的數(shù)據(jù)孤島情況仍然存在,數(shù)據(jù)交易方面,數(shù)據(jù)交易模式與數(shù)據(jù)資產(chǎn)定價(jià)標(biāo)準(zhǔn)有待建立,發(fā)展程度尚不成熟。

數(shù)據(jù)源是大數(shù)據(jù)應(yīng)用的起點(diǎn)與核心,用戶的自有數(shù)據(jù)資源是后續(xù)開(kāi)發(fā)應(yīng)用的基礎(chǔ)資產(chǎn)。在大數(shù)據(jù)的背景下,除了自有數(shù)據(jù)的不斷增大之外,打破數(shù)據(jù)孤島,實(shí)現(xiàn)數(shù)據(jù)開(kāi)放,大數(shù)據(jù)的價(jià)值才能最大地顯現(xiàn)。用戶的自有數(shù)據(jù)與外部服務(wù)商的數(shù)據(jù)相結(jié)合,將成為各個(gè)垂直行業(yè)價(jià)值開(kāi)發(fā)的起點(diǎn)。

(2)關(guān)鍵技術(shù):數(shù)據(jù)庫(kù)技術(shù)

在解決大數(shù)據(jù)問(wèn)題時(shí),首先需要解決的問(wèn)題是針對(duì)不同數(shù)據(jù)的分類(lèi)選擇不同方法進(jìn)行數(shù)據(jù)的整理與存儲(chǔ)。當(dāng)前,來(lái)自各領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng),包括網(wǎng)頁(yè)與社交媒體、機(jī)器數(shù)據(jù)、內(nèi)部數(shù)據(jù)、交易數(shù)據(jù)、生物數(shù)據(jù)、來(lái)自數(shù)據(jù)提供商的數(shù)據(jù)等。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最重要的區(qū)別即是數(shù)據(jù)類(lèi)別由原來(lái)的結(jié)構(gòu)化數(shù)據(jù),加入了半結(jié)構(gòu)/非結(jié)構(gòu)化的數(shù)據(jù)。為解決半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā),NoSQL 數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。

NoSQL(Not Only SQL)數(shù)據(jù)庫(kù)泛指非關(guān)系型數(shù)據(jù)庫(kù),能夠解決大規(guī)模數(shù)據(jù)集合的處理問(wèn)題,特別是針對(duì)非關(guān)聯(lián)性數(shù)據(jù)。NoSQL 數(shù)據(jù)庫(kù)包括 Key-Value 存儲(chǔ)、列存儲(chǔ)、文檔型等多種類(lèi)型,適用于多種場(chǎng)景。

2、數(shù)據(jù)管理

(1)產(chǎn)業(yè)概況

數(shù)據(jù)管理是利用計(jì)算機(jī)硬件和軟件技術(shù)對(duì)數(shù)據(jù)進(jìn)行有效的收集、存儲(chǔ)、處理和應(yīng)用的過(guò)程,經(jīng)歷了人工管理、文件系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)三個(gè)發(fā)展階段。狹義的數(shù)據(jù)管理包括數(shù)據(jù)準(zhǔn)備、存儲(chǔ)管理、計(jì)算處理及數(shù)據(jù)安全等環(huán)節(jié)。隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)時(shí)代的到來(lái),非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng),繼而對(duì)數(shù)據(jù)的處理和管控提出了更高的要求,將對(duì)非結(jié)構(gòu)化數(shù)據(jù)的清洗、加工、挖掘、集成和可視化被納入廣義數(shù)據(jù)管理過(guò)程,以滿足更深入的數(shù)據(jù)處理需要,在此過(guò)程中,數(shù)據(jù)管理的外延還將持續(xù)拓展。

(2)關(guān)鍵技術(shù):分布式架構(gòu)

與傳統(tǒng)數(shù)據(jù)“數(shù)據(jù)簡(jiǎn)單、算法復(fù)雜”的計(jì)算不同,大數(shù)據(jù)計(jì)算是數(shù)據(jù)密集型計(jì)算,對(duì)計(jì)算單元和存儲(chǔ)單元間的數(shù)據(jù)吞吐率要求極高,對(duì)性價(jià)比和擴(kuò)展性要求也非常高。因此傳統(tǒng)以來(lái)大型機(jī)和小型機(jī)的并行計(jì)算不能滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)體量、規(guī)模、類(lèi)型的變化。由此,分布式計(jì)算被大規(guī)模應(yīng)用到了大數(shù)據(jù)領(lǐng)域。分布式計(jì)算系統(tǒng)是一組自治的計(jì)算機(jī)集合,通過(guò)通信網(wǎng)絡(luò)相互連接,實(shí)現(xiàn)資源共享和協(xié)同工作,從而呈現(xiàn)給用戶的是單個(gè)完整的計(jì)算機(jī)系統(tǒng)。

2004 年,Google 公布了 MapReduce 分布式并行編程架構(gòu);而后,Yahoo 提出 S4 系統(tǒng)、Twitter 提出 Storm 系統(tǒng);Google 隨后提出了將 MapReduce 內(nèi)存化 以提高實(shí)時(shí)性的 Spark。

①Hadoop

MapReduce Hadoop是一個(gè)由 ASF 所開(kāi)源的發(fā)布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解底層分布式細(xì)節(jié)的情況下,基于 Hadoop 開(kāi)發(fā)分布式的大數(shù)據(jù)存儲(chǔ)與處理應(yīng)用程序,并利用分布式集群進(jìn)行高速運(yùn)算和海量存儲(chǔ)。主要特點(diǎn)是擴(kuò)展能力強(qiáng)、成本低、 高效率、可靠。

②Storm

Storm 是 Twitter 正式開(kāi)源的一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)流計(jì)算系統(tǒng),能夠逐條接收和處理數(shù)據(jù)記錄,具有很好的實(shí)時(shí)響應(yīng)特性。Storm 實(shí)時(shí)計(jì)算提供了一組通用原語(yǔ),可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數(shù)據(jù)。借助實(shí)時(shí)的信息交互與通訊組件(如 Kafka、ZeroMQ、Netty 等),Storm 對(duì)大數(shù)據(jù)中的記錄進(jìn)行逐條處理,響應(yīng)實(shí)時(shí)性可以達(dá)到秒級(jí)別甚至更短。

③Spark

Spark 是 Hadoop MapReduce 的一個(gè)替代方案,可以在 Hadoop 文件系統(tǒng)中并 行運(yùn)行。Spark 克服了 MapReduce 在迭代計(jì)算和交互式計(jì)算方面的不足,同時(shí)能 夠充分利用內(nèi)存資源提高計(jì)算效率。

3、數(shù)據(jù)應(yīng)用

(1)產(chǎn)業(yè)概況

大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果,為用戶提供輔助決策,發(fā)掘潛在價(jià)值的過(guò)程。近年來(lái),大數(shù)據(jù)應(yīng)用從獨(dú)立的工具產(chǎn)品向完整的行業(yè)解決方案發(fā)展,相關(guān)產(chǎn)品和企業(yè)數(shù)量越來(lái)越多,涉及的領(lǐng)域越來(lái)越廣,大數(shù)據(jù)正在政府決策、交通物流、 醫(yī)療健康、公共服務(wù)、人力資源、廣告營(yíng)銷(xiāo)、影視娛樂(lè)、能源、金融、農(nóng)業(yè)、電信、零售等領(lǐng)域得到越來(lái)越深入的應(yīng)用。但由于各行業(yè)自身的信息化和數(shù)字化發(fā)展程度不均勻,大數(shù)據(jù)的行業(yè)應(yīng)用的深度仍需加強(qiáng)。從趨勢(shì)上看,除通用型工具外,其他獨(dú)立數(shù)據(jù)產(chǎn)品的可適用范圍將越來(lái)越小,基于行業(yè)的定制,結(jié)合平臺(tái)的解決方案將成為大數(shù)據(jù)產(chǎn)業(yè)的必然趨勢(shì)。

大數(shù)據(jù)的本質(zhì),不在于研究如何處理數(shù)據(jù),而是更好的發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的價(jià)值,當(dāng)前,在全球范圍內(nèi),大數(shù)據(jù)的應(yīng)用已經(jīng)具備了初步的實(shí)踐基礎(chǔ),在政府決策、醫(yī)療健康、金融、電信、零售、廣告營(yíng)銷(xiāo)等領(lǐng)域得到了較為深入的應(yīng)用。在數(shù)據(jù)處理與應(yīng)用之間,必要的過(guò)程即是數(shù)據(jù)分析與解釋。分析與解釋是用于幫助解釋過(guò)去和預(yù)測(cè)未來(lái)的一系列方法。數(shù)據(jù)分析與解釋橫跨了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)和數(shù)學(xué)、專(zhuān)業(yè)領(lǐng)域知識(shí)等多個(gè)領(lǐng)域。近年來(lái),傳統(tǒng)的數(shù)學(xué)和統(tǒng)計(jì)學(xué)數(shù)據(jù)分析越來(lái)越難以滿足大數(shù)據(jù)時(shí)代的需求,機(jī)器學(xué)習(xí)和人工智能漸漸流行。

①機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來(lái)模擬人類(lèi)學(xué)習(xí)活動(dòng)的一門(mén)學(xué)科。稍為嚴(yán)格的提法是:機(jī)器學(xué)習(xí)是一門(mén)研究機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的學(xué)問(wèn)。當(dāng)把機(jī)器學(xué)習(xí)算法應(yīng)用在大量數(shù)據(jù)集時(shí),機(jī)器就可能“學(xué)習(xí)”到一些有價(jià)值的新的關(guān)系,這些關(guān)系原本隱藏在浩瀚的數(shù)據(jù)海洋之中,依賴人腦根本無(wú)法發(fā)現(xiàn)。

②人工智能

人工智能則是高于機(jī)器學(xué)習(xí)的一個(gè)范疇?,F(xiàn)代公認(rèn)的人工智能主要研究課題有:推理、知識(shí)表示、自動(dòng)規(guī)劃、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、機(jī)器人學(xué)、通用智能或強(qiáng)人工智能。在這八項(xiàng)研究課題里,自然語(yǔ)言處理,計(jì)算視覺(jué)都是用來(lái)處理人類(lèi)交互環(huán)境中信息,可以用來(lái)處理大數(shù)據(jù)庫(kù)中非結(jié)構(gòu)化的圖片/視頻/語(yǔ)音數(shù)據(jù)。而推理/知識(shí)表示/機(jī)器學(xué)習(xí)則是用來(lái)發(fā)掘大量數(shù) 據(jù)中隱藏關(guān)系的利器。人工智能領(lǐng)域的研究自然而然的被認(rèn)為是解決大數(shù)據(jù)分析 這一難題的答案。

五、行業(yè)競(jìng)爭(zhēng)格局

目前,根據(jù)自身核心競(jìng)爭(zhēng)力與商業(yè)模式情況,我國(guó)大數(shù)據(jù)企業(yè)主要呈現(xiàn)數(shù)據(jù)優(yōu)勢(shì)型、技術(shù)擁有型、應(yīng)用服務(wù)型三大特征,行業(yè)內(nèi)企業(yè)均具備一項(xiàng)或多項(xiàng)上述特征。

1、數(shù)據(jù)優(yōu)勢(shì)型企業(yè)

具備數(shù)據(jù)優(yōu)勢(shì)型特征的企業(yè)即先天擁有或以收集數(shù)據(jù)資源為目標(biāo)的企業(yè),類(lèi)企業(yè)占據(jù)一定的先發(fā)優(yōu)勢(shì),可利用手中的數(shù)據(jù)資源提升自身的企業(yè)競(jìng)爭(zhēng)力,或主導(dǎo)數(shù)據(jù)交易平臺(tái)機(jī)制的形成。具備數(shù)據(jù)優(yōu)勢(shì)型特征的企業(yè)以在自身行業(yè)積累了豐富數(shù)據(jù)資源以及力圖匯聚開(kāi)放網(wǎng)絡(luò)數(shù)據(jù)的企業(yè)為代表。

2、技術(shù)擁有型企業(yè)

具有技術(shù)擁有型特征的企業(yè)是以技術(shù)見(jiàn)長(zhǎng)的,專(zhuān)注于數(shù)據(jù)采集、存儲(chǔ)、分析以及可視化工具的企業(yè),主要為軟件企業(yè)、硬件企業(yè)和解決方案服務(wù)商。

3、應(yīng)用服務(wù)型企業(yè)

具有應(yīng)用服務(wù)型特征的企業(yè)是指為客戶提供云服務(wù)和數(shù)據(jù)服務(wù)的企業(yè),這類(lèi)企業(yè)廣泛對(duì)接各個(gè)行業(yè),專(zhuān)注于產(chǎn)品的便捷化和可維護(hù)性,同時(shí)針對(duì)不同行業(yè)客戶的需求提供差異化的服務(wù)。

大數(shù)據(jù)技術(shù)在征信領(lǐng)域應(yīng)用的主要企業(yè)包括上海華夏鄧白氏、益博睿、中誠(chéng)信征信、金電聯(lián)行、芝麻信用、前海征信、蘇州朗動(dòng)、北京金堤等。

行業(yè)未來(lái)發(fā)展趨勢(shì)

1、各行各業(yè)對(duì)數(shù)據(jù)分析的需求將更加旺盛

隨著計(jì)算機(jī)技術(shù)的發(fā)展普及,各種信息系統(tǒng)的廣泛運(yùn)用,各類(lèi)系統(tǒng)中積累了大量的原始數(shù)據(jù),各行各業(yè)對(duì)于數(shù)據(jù)分析的需求越來(lái)越急迫,除了分析這些數(shù)據(jù)內(nèi)部所蘊(yùn)含的規(guī)律、預(yù)測(cè)相關(guān)系統(tǒng)的運(yùn)行趨勢(shì)以外,對(duì)于數(shù)據(jù)分析的廣度和速度都有了越來(lái)越高的要求。

這些需求促使 IT、互聯(lián)網(wǎng)廠商不斷加快對(duì)于數(shù)據(jù)分析技術(shù)的研發(fā)創(chuàng)新。一方面,大數(shù)據(jù)分析不再局限于結(jié)構(gòu)化的歷史數(shù)據(jù),而更傾向于分析來(lái)自社交網(wǎng)絡(luò)、各種傳感器采集的非結(jié)構(gòu)化數(shù)據(jù);另一方面,激烈的市場(chǎng)競(jìng)爭(zhēng)促使大數(shù)據(jù)解決方案廠商加大了對(duì)數(shù)據(jù)的快速、實(shí)時(shí)分析、智能決策技術(shù)的研發(fā)投入。

2、人工智能化是大數(shù)據(jù)的發(fā)展方向

人工智能的實(shí)現(xiàn)以大數(shù)據(jù)和深度學(xué)習(xí)算法為基礎(chǔ)。深度學(xué)習(xí)依托于模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),通過(guò)模仿人腦的思維方式進(jìn)行數(shù)據(jù)的分析和處理。大數(shù)據(jù)則為人工智能提供的海量數(shù)據(jù)進(jìn)行算法的驗(yàn)證和模型的構(gòu)建。在沒(méi)有海量數(shù)據(jù)支持的情況下,僅依靠深度學(xué)習(xí)算法上的革新是無(wú)法實(shí)現(xiàn)人工智能的。而近期人工智能之所以能取得突飛猛進(jìn)的進(jìn)展,是因?yàn)檫@些年來(lái)大數(shù)據(jù)長(zhǎng)足發(fā)展的結(jié)果。正是由于各類(lèi)感應(yīng)器和數(shù)據(jù)采集技術(shù)的發(fā)展,我們開(kāi)始擁有以往難以想象的海量數(shù)據(jù),并開(kāi)始在某一領(lǐng)域擁有深度的、精細(xì)化的數(shù)據(jù)。而這些,都是訓(xùn)練某一領(lǐng)域智能的前提。

大數(shù)據(jù)是讓人們通過(guò)數(shù)據(jù)看到未來(lái),幫助人類(lèi)決策;而人工智能則是為了徹底將人們從勞動(dòng)中解放出來(lái),幫助或者替代人類(lèi)完成任務(wù)。大數(shù)據(jù)為人工智能提供數(shù)據(jù)支持,人工智能通過(guò)主動(dòng)學(xué)習(xí)、處理、分析大數(shù)據(jù),自發(fā)得到可以指導(dǎo)人類(lèi)決策的依據(jù),指導(dǎo)或者直接替代人類(lèi)進(jìn)行決策和行動(dòng)。人工智能將是各個(gè)領(lǐng)域 的大數(shù)據(jù)應(yīng)用的發(fā)展方向。

3、產(chǎn)業(yè)鏈的分工將日益清晰和細(xì)化

隨著數(shù)據(jù)價(jià)值認(rèn)知的深化,用戶對(duì)于數(shù)據(jù)的質(zhì)量要求越來(lái)越高,標(biāo)簽的準(zhǔn)確性、無(wú)效或錯(cuò)誤值的比例、數(shù)據(jù)檢索的效率和數(shù)據(jù)關(guān)聯(lián)的精準(zhǔn)度等指標(biāo)對(duì)產(chǎn)業(yè)鏈上各類(lèi)產(chǎn)品或服務(wù)價(jià)格的影響日漸加大。同時(shí),在綜合性的大型數(shù)據(jù)交易平臺(tái)帶動(dòng)下,圍繞數(shù)據(jù)所產(chǎn)生的各類(lèi)需求能夠得到最大程度的凸顯,必然會(huì)促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)鏈的劃分逐漸清晰和細(xì)化,諸如數(shù)據(jù)采集、匯聚、加工、交易和分析等環(huán)節(jié)在內(nèi)的細(xì)分產(chǎn)業(yè)都將得到極大的推動(dòng)。

此外,企業(yè)在大數(shù)據(jù)產(chǎn)業(yè)鏈中的定位將會(huì)更加明確和聚焦。當(dāng)前很多跨越了多個(gè)環(huán)節(jié)的企業(yè),將會(huì)根據(jù)自身的優(yōu)勢(shì)和特點(diǎn)來(lái)重新定位在大數(shù)據(jù)產(chǎn)業(yè)鏈中的角色,可以預(yù)見(jiàn)的是某些數(shù)據(jù)擁有者將專(zhuān)注于對(duì)外提供數(shù)據(jù)服務(wù),而目前橫跨分析和應(yīng)用環(huán)節(jié)的企業(yè)將會(huì)有很大一部分成為專(zhuān)業(yè)的分析技術(shù)提供商。

4、數(shù)據(jù)處理外包行業(yè)將興起

當(dāng)前,有大量公司將各種 IT 和業(yè)務(wù)功能外包給服務(wù)提供商,這其中包含數(shù)據(jù)分析。數(shù)據(jù)外包將是繼軟件外包之后的另一大產(chǎn)業(yè)。從歷史上來(lái)看,我國(guó)的軟件外包產(chǎn)業(yè)始于 20 世紀(jì)八十年代,此后一直保持持續(xù)穩(wěn)定增長(zhǎng),軟件外包已經(jīng)成為發(fā)達(dá)國(guó)家的軟件公司降低成本的一種重要的手段。而數(shù)據(jù)外包作為一個(gè)新興的大數(shù)據(jù)產(chǎn)業(yè),即為企業(yè)和科研客戶提供海量數(shù)據(jù)處理的外包服務(wù),幫助客戶完成海量數(shù)據(jù)作業(yè)任務(wù),并最終交付精準(zhǔn)無(wú)誤的數(shù)據(jù)成果。使用戶最小成本、最大利益獲得處理后的數(shù)據(jù)資產(chǎn),從而可以將更多的人力和資本投入到生產(chǎn)和科研活動(dòng)中。

市場(chǎng)研究和咨詢公司 Hexa Research 于 2017 年公布的報(bào)告稱,全球數(shù)據(jù)分析 外包市場(chǎng)將在 2016 年至 2024 年間的復(fù)合年增長(zhǎng)率超過(guò) 30%,年收入超過(guò) 60 億美元。

大數(shù)據(jù)的價(jià)值體現(xiàn)在基于海量數(shù)據(jù)形成的洞見(jiàn)以指導(dǎo)人類(lèi)行為。海量數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)體量上,還體現(xiàn)在關(guān)聯(lián)性上。分離數(shù)據(jù)形成的“數(shù)據(jù)孤島”是大數(shù)據(jù)行業(yè)面臨的重要問(wèn)題,其阻礙了數(shù)據(jù)的連接融合,使數(shù)據(jù)無(wú)法形成知識(shí)體系產(chǎn)生洞見(jiàn),降低了數(shù)據(jù)的利用價(jià)值。只有跨領(lǐng)域的數(shù)據(jù)分析才更有可能形成真正的知識(shí)和智能從而產(chǎn)生更大的價(jià)值。同時(shí),大數(shù)據(jù)本身具有非常強(qiáng)的資產(chǎn)屬性,大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是金錢(qián)。因此,基于各類(lèi)大數(shù)據(jù)的共享與交易也將得到蓬勃的發(fā)展。


(來(lái)源:鵬瀾財(cái)經(jīng)