大數(shù)據(jù)時代,人人都在談大數(shù)據(jù)。但當(dāng)我們談大數(shù)據(jù)的時候我們在談什么呢?
在談到大數(shù)據(jù)的時候,人們往往知道的就是數(shù)據(jù)很大,但大數(shù)據(jù)≠大的數(shù)據(jù)。對外經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院副院長華迎教授介紹:“現(xiàn)在的大數(shù)據(jù)主要是指網(wǎng)絡(luò)數(shù)據(jù)。數(shù)據(jù)分析不是新的,一直都有,但是為什么叫大數(shù)據(jù)呢?主要是因為網(wǎng)絡(luò)數(shù)據(jù)的格式、體量、價值,都超出了傳統(tǒng)數(shù)據(jù)的規(guī)模.”大量的數(shù)據(jù)只是大數(shù)據(jù)這一名詞的特征之一,要看待大數(shù)據(jù)必須辯證、全面的看待。
進(jìn)入互聯(lián)網(wǎng)時代,中國的網(wǎng)民人數(shù)已超7億,大數(shù)據(jù)的應(yīng)用涉及到生活的方方面面。例如,你在網(wǎng)站上買書,商家就會根據(jù)你的喜好和其他購書者的評價給你推薦另外的書籍;手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)可以幫助城市規(guī)劃;甚至用戶的搜索習(xí)慣和股市都有很大關(guān)系。而這些與大數(shù)據(jù)相關(guān)的應(yīng)用,都離不開大數(shù)據(jù)技術(shù)在日常生活中的應(yīng)用,可以確定的是大數(shù)據(jù)從來不是高大上的名詞,大數(shù)據(jù)技術(shù)也不是技術(shù)人員專有的技術(shù),今天小億就和大家聊聊大數(shù)據(jù)技術(shù)究竟是什么。

一、大數(shù)據(jù)的概念
1、大數(shù)據(jù)的含義
大數(shù)據(jù)(Big Data),又稱巨量資料或海量資料,通常是指巨大而復(fù)雜的數(shù)據(jù)集合。
大數(shù)據(jù)超出傳統(tǒng)工具或單臺計算機(jī)的處理能力,因此無法用常規(guī)軟件對數(shù)據(jù)進(jìn)行采集、存儲、挖掘、分析及應(yīng)用管理,而是必須用新的數(shù)據(jù)處理模式才能具有更強(qiáng)的洞察力、決策力和優(yōu)化能力,大數(shù)據(jù)處理技術(shù)包括數(shù)據(jù)接入、數(shù)據(jù)持久存儲、數(shù)據(jù)計算和分析、數(shù)據(jù)展示(可視化)等等。
眾所周知,世界的本質(zhì)是數(shù)據(jù),大數(shù)據(jù)仍然是數(shù)據(jù),只不過是“大”一點的數(shù)據(jù)。在大數(shù)據(jù)時代,數(shù)據(jù)量空前增長,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、成千上萬的傳感器、穿戴設(shè)備、GPS等,都在推動大數(shù)據(jù)處理技術(shù)快速發(fā)展。隨著大數(shù)據(jù)的產(chǎn)生,原本的數(shù)據(jù)世界也被劃分為兩個時代,即大數(shù)據(jù)時代和小數(shù)據(jù)時代。小數(shù)據(jù)采用隨機(jī)樣本分析,大數(shù)據(jù)采用全體數(shù)據(jù)分析;小數(shù)據(jù)講求精確性分析,大數(shù)據(jù)注重效率性分析;小數(shù)據(jù)講求因果關(guān)系,大數(shù)據(jù)注重相關(guān)性分析。隨著小數(shù)據(jù)時代向大數(shù)據(jù)時代轉(zhuǎn)移,樣本思維必然向整體思維過渡,或者說,抽樣調(diào)查將成為過去,整體數(shù)據(jù)分析將成為主流的思維方式。
2、大數(shù)據(jù)的特征
一般通常用“4V”來概括大數(shù)據(jù)的基本特征,即數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多(Variety)、處理速度快(Velocity)和價值密度低(Value)四大特征。
(1)數(shù)據(jù)體量大(Volume)
只有數(shù)據(jù)體量達(dá)到PB級別以上,才能稱為大數(shù)據(jù)。
但人類社會現(xiàn)存所有印刷材料的數(shù)據(jù)總量僅為200PB,然而百度搜索每天提供的數(shù)據(jù)量超過1.5PB,如果將這些數(shù)據(jù)打印出來,將會超過5千億張A4紙;阿里巴巴網(wǎng)購每天產(chǎn)生的商品交易數(shù)據(jù)量約為20TB;臉書用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。在網(wǎng)絡(luò)時代,大數(shù)據(jù)的體量是非常大的。
(2)數(shù)據(jù)類別多(Variety)
數(shù)據(jù)共分為三種類型:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。在大數(shù)據(jù)時代,越來越多的數(shù)據(jù)的出現(xiàn)也使得數(shù)據(jù)的類別越來越多,從結(jié)構(gòu)化數(shù)據(jù)到不規(guī)律不規(guī)則的非結(jié)構(gòu)化數(shù)據(jù),出現(xiàn)了越來越多的數(shù)據(jù)類別。
(3)處理速度快(Velocity)
處理速度快或數(shù)據(jù)快速流轉(zhuǎn)是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。
在數(shù)據(jù)量非常龐大的情況下,大數(shù)據(jù)處理工具通過算法邏輯對數(shù)據(jù)信息進(jìn)行快速處理,并從各種類型的數(shù)據(jù)中及時獲得高價值信息。但其實很多平臺都需要做到實時處理和分析,誰的速度更快,誰就更占優(yōu)勢,“1秒定律”顯示了大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的本質(zhì)不同。
(4)價值密度低(Value)
價值密度的高低與數(shù)據(jù)總量的大小成反比,數(shù)據(jù)總量越大,無效的數(shù)據(jù)可能越多。大數(shù)據(jù)是海量的數(shù)據(jù)集合,在大海中尋找寶藏猶如大海撈針,大數(shù)據(jù)的作用就是通過強(qiáng)大的機(jī)器算法快速挖掘或提純出高價值的數(shù)據(jù),這既是大數(shù)據(jù)的難點所在,又是大數(shù)據(jù)的優(yōu)勢所在。
二、大數(shù)據(jù)技術(shù)的概念與應(yīng)用場景
1、大數(shù)據(jù)技術(shù)的概念
大數(shù)據(jù)技術(shù),簡而言之,就是提取大數(shù)據(jù)價值的技術(shù),是根據(jù)特定目標(biāo),經(jīng)過數(shù)據(jù)收集與存儲、數(shù)據(jù)篩選、算法分析與預(yù)測、數(shù)據(jù)分析結(jié)果展示等,為做出正確決策提供依據(jù),其處理的數(shù)據(jù)量通常是TB級,甚至是PB或EB級的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)處理手段所無法完成的,其涉及的技術(shù)有分布式計算、高并發(fā)處理、高可用處理、集群、實時性計算等,匯集了當(dāng)前IT領(lǐng)域熱門流行的IT技術(shù)。
大數(shù)據(jù)技術(shù)體系龐大而復(fù)雜,基礎(chǔ)技術(shù)包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、并行計算、數(shù)據(jù)可視化等。大數(shù)據(jù)的最終目標(biāo)是數(shù)據(jù)分析處理,失去數(shù)據(jù)處理環(huán)節(jié),大數(shù)據(jù)就毫無價值可言,數(shù)據(jù)處理是大數(shù)據(jù)產(chǎn)業(yè)的核心技術(shù)流程,再加上末端環(huán)節(jié)的數(shù)據(jù)可視化,整個鏈條才能呈現(xiàn)為完整的閉環(huán)系統(tǒng)。
說了這么多概念,也許仍然有人不理解大數(shù)據(jù)技術(shù)究竟是什么,離我們遠(yuǎn)嗎?下面小億想舉一些場景中的例子和大家說明。
2、大數(shù)據(jù)技術(shù)的應(yīng)用場景
其實大數(shù)據(jù)無處不在,并被應(yīng)用于各個行業(yè),包括金融、證券、保險、航空、政務(wù)、零售、交通、醫(yī)療、教育、酒店、餐飲、電信、能源、健康、娛樂、服務(wù)業(yè)以及社會治理等各個領(lǐng)域,下面小億和大家聊一下大數(shù)據(jù)技術(shù)的一些應(yīng)用場景。
(1)人工智能(AI)應(yīng)用場景
大數(shù)據(jù)能夠促進(jìn)人工智能(AI)產(chǎn)業(yè)的進(jìn)化與發(fā)展,從而產(chǎn)生一些意想不到的結(jié)果。AI影響幅度很大,比如媒體業(yè),現(xiàn)在計算機(jī)跟機(jī)器人可以寫出很好的文章,而且1小時產(chǎn)出好幾百篇,成本也很低。比如經(jīng)濟(jì)領(lǐng)域,AI對經(jīng)濟(jì)發(fā)展會產(chǎn)生巨大影響,很多知識產(chǎn)業(yè)跟白領(lǐng)工作也可能被機(jī)器人取代。再比如無人駕駛等高科技領(lǐng)域, AI會讓駕車更安全,讓生活更美好。

(2)智慧城市應(yīng)用場景
智慧城市管理,可以利用大數(shù)據(jù)實現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。比如交通領(lǐng)域,實時分析城市交通數(shù)據(jù),指導(dǎo)駕車者選擇最佳路徑,有效改善城市擁堵狀況;再比如,大數(shù)據(jù)和物聯(lián)網(wǎng)支持的無人駕駛汽車,在不遠(yuǎn)的未來也會走入我們的生活。
(3)商務(wù)領(lǐng)域應(yīng)用場景
借助大數(shù)據(jù)技術(shù),可以分析客戶行為,進(jìn)行有針對性的商品推薦和廣告投放;電信行業(yè),利用大數(shù)據(jù)技術(shù)實現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。
(4)制造業(yè)應(yīng)用場景
工業(yè)大數(shù)據(jù)可以提升制造業(yè)水平,包括產(chǎn)品故障診斷與預(yù)測、分析工藝流程、改進(jìn)生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應(yīng)鏈分析與優(yōu)化、生產(chǎn)計劃與進(jìn)程。

(5)金融行業(yè)應(yīng)用場景
大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。
(6)能源行業(yè)應(yīng)用場景
智能電網(wǎng)可以讓電力公司掌握海量用戶的用電信息,利用大數(shù)據(jù)技術(shù),分析用戶用電模式,改進(jìn)電網(wǎng)運行,合理設(shè)計電力需求響應(yīng)系統(tǒng),確保電網(wǎng)安全運行。
(7)物流行業(yè)應(yīng)用場景
利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。
(8)生物醫(yī)學(xué)應(yīng)用場景
大數(shù)據(jù)促進(jìn)城市精準(zhǔn)醫(yī)療發(fā)展,比如降低醫(yī)院誤診誤判率。僅憑醫(yī)生判斷,難免產(chǎn)生誤診誤判,如果把一個城市每一年的所有醫(yī)療病例數(shù)據(jù)匯集起來,然后去掉敏感的個人隱私數(shù)據(jù),就可以做出一個超大樣本的誤診誤判的數(shù)據(jù)庫,從中分析原因,提高病人的治愈率。大數(shù)據(jù)可以實現(xiàn)流行病預(yù)測、智慧醫(yī)療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。

(9)安全領(lǐng)域應(yīng)用場景
政府可以利用大數(shù)據(jù)技術(shù)構(gòu)建強(qiáng)大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡(luò)攻擊,警察可以借助大數(shù)據(jù)預(yù)防犯罪。
(10)個人生活應(yīng)用場景
大數(shù)據(jù)還可以應(yīng)用于個人生活,利用與每個人相關(guān)聯(lián)的“個人大數(shù)據(jù)”,分析個人生活行為習(xí)慣,為其提供更加周到的個性化服務(wù)。
(11)社會治理應(yīng)用場景
政府掌握著社會生產(chǎn)和民眾生活相關(guān)的海量數(shù)據(jù)。大數(shù)據(jù)可以應(yīng)用于政府治理中的各個環(huán)節(jié),并推動政府治理模式的改變。大數(shù)據(jù)在政府治理方面已經(jīng)有很多成熟的應(yīng)用案例,比如城市應(yīng)急管理、河道治理等。
(12)大數(shù)據(jù)防止企業(yè)逃漏稅
很多地區(qū)的稅務(wù)局,利用大數(shù)據(jù)“治稅”。比如,把發(fā)改委、經(jīng)信委、稅務(wù)局和法院的數(shù)據(jù)擰合在一起,就可能會發(fā)現(xiàn)某家企業(yè)的稅務(wù)是有異常的。通過對多方面數(shù)據(jù)的綜合分析,甚至可以發(fā)現(xiàn)某些公司人為造成虧損的假象,進(jìn)而實現(xiàn)偷逃漏稅的目的。當(dāng)發(fā)現(xiàn)公司的稅務(wù)異常跡象時,就可以做出一些數(shù)據(jù)分析,確認(rèn)企業(yè)逃稅漏稅的可能性,促進(jìn)相關(guān)部門公正合理執(zhí)法。
三、大數(shù)據(jù)技術(shù)的具體應(yīng)用
大數(shù)據(jù)技術(shù)其實在這個時代更多的表現(xiàn)在技術(shù)集合的工具或者平臺上,今天小億想以億信華辰開發(fā)的億信ABI為例,給大家分享大數(shù)據(jù)技術(shù)在現(xiàn)在究竟是怎么應(yīng)用的。

億信ABI(ALL in one BI)是億信華辰歷經(jīng)十五年匠心打造的國產(chǎn)化BI工具,技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個數(shù)據(jù)應(yīng)用全鏈路,可滿足企業(yè)經(jīng)營中各類復(fù)雜的分析需求,幫助企業(yè)實現(xiàn)高效數(shù)字化轉(zhuǎn)型。
從數(shù)據(jù)處理方面看,億信ABI平臺內(nèi)置了數(shù)倉實施工具,其中豐富的處理轉(zhuǎn)換組件,通過拖拽式的流程設(shè)計,實現(xiàn)了數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載及調(diào)度,用于幫助政府和企業(yè)構(gòu)建數(shù)據(jù)倉庫,完成數(shù)據(jù)融合,提升數(shù)據(jù)質(zhì)量,服務(wù)數(shù)據(jù)分析。同時可以構(gòu)建數(shù)據(jù)倉庫,用于幫助政府和企業(yè)構(gòu)建數(shù)據(jù)倉庫。通過拖拽式的流程設(shè)計,實現(xiàn)了數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載及調(diào)度。

從數(shù)據(jù)可視化方面看,億信ABI內(nèi)置了近百種組件特效任意組合即可制作酷炫靈動的大屏駕駛艙。并且其可視化的表現(xiàn)形式支持各類地圖應(yīng)用,包括圖片式地圖,GIS地圖,動態(tài)3D地圖;通過這些方式完成領(lǐng)導(dǎo)駕駛艙,以圖表結(jié)合的形式生動直觀地展示企業(yè)KPI指標(biāo),為領(lǐng)導(dǎo)提供的“一站式”決策支持。并且逼真的動態(tài)模型仿真、擬實場景交互和實時數(shù)據(jù)監(jiān)控,輕松掌握城市一手信息,賦能智慧城市高效運營。

從預(yù)測挖掘方面來看, 億信ABI內(nèi)置了多樣的算法,包括分類分析,關(guān)聯(lián)分析,回歸分析,聚類分析,時間序列預(yù)測等等。并且在預(yù)測挖掘過程中可以全程做到可視化,不懂算法也不用擔(dān)心,拖拽式操作輕松掌握數(shù)據(jù)挖掘。在模型評估上,其提供科學(xué)的模型評估方法,根據(jù)評估結(jié)果智能的推薦最佳模型。
上面這些就是大數(shù)據(jù)技術(shù)在億信ABI平臺的體現(xiàn)方式,希望能夠?qū)Υ蠹移鸬揭恍椭?/p>
四、小結(jié)
眾所周知,大數(shù)據(jù)帶來了信息技術(shù)的巨大變革,對社會生產(chǎn)和人們生活的各個領(lǐng)域都產(chǎn)生著深刻的影響,所到之處,或是顛覆,或是提升,讓人們深切感受到了大數(shù)據(jù)實實在在的價值和意義。大數(shù)據(jù)的價值,在生活,在生產(chǎn)也在學(xué)習(xí),我們的整個社會和時代在疫情之后迅速的走上數(shù)字化的道路,大數(shù)據(jù)的價值也逐漸的被挖掘出來。
但大數(shù)據(jù)的價值,遠(yuǎn)遠(yuǎn)不止于此,大數(shù)據(jù)對各行各業(yè)的滲透,大大推動了社會生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠(yuǎn)的影響。
作者:億信華辰
鏈接:https://www.zhihu.com/question/403508693/answer/2224311544
來源:知乎
頂部
客服
微信掃碼聯(lián)系客服