新聞中心
時間:2019-03-27 13:22:05 次數:3938
近幾十年來,科學技術的迅猛發(fā)展和信息化的推進,使得人類社會所積累的數據量已經超過了以往過去幾千年的所有總和,數據采集、存儲、處理和傳播的數量也與日俱增。如何對數據進行有效的集成管理已成為行業(yè)關注的焦點。
數據集成2.0的現(xiàn)在時
隨著大數據、云計算、人工智能的快速落地,未來信息技術變化風云莫測,大數據、云計算、人工智能、區(qū)塊鏈等技術的快速落地,也在加速數據集成形態(tài)發(fā)生改變。首先我們來舉一個例子:某客戶擁有上萬個數據源,主要類型分為業(yè)務系統(tǒng)和物聯(lián)網監(jiān)控數據,根據發(fā)展需要把這些基礎設施的數據和業(yè)務系統(tǒng)數據匯集到數據中心,數據中心的目標源主要有Mpp、Hive、HDFS、HBase等分布式存儲源;如果每天需要把這些數據完成采集,需要每小時具備1TB數據處理能力;基于此客戶拋出幾個需求:
需求一
需要針對數據量進行實時增量同步,每小時需要具備處理增量數據5TB能力。
需求二
針對每類數據同步流量可實現(xiàn)流控,在必要時可犧牲一些無關緊要數據來保證整個數據集成平臺的穩(wěn)定運行。
需求三
客戶希望面對復雜數據處理工作能夠提供面向業(yè)務人員可操作的界面;減少實施人員環(huán)節(jié),加快數據處理工作效率。
需求四
客戶希望在使用過程中由于網絡、斷電、服務器崩潰等因素導致數據同步中斷的時候,實現(xiàn)數據斷點續(xù)傳能力。
這幾個需求是典型大數據時代數據集成面臨的挑戰(zhàn),客戶就是希望統(tǒng)通過技術手段實現(xiàn)數據實時治理,提升決策效率和數據價值。目前我們也正在處于這個時代,這個時期的數據集成產品如果要有競爭力,應該為數據集成賦予人工智能、分布式計算技術等能力;基于上述需求進行提煉,歸結為以下幾個特點:
基于人工智能技術實現(xiàn)數據開發(fā)設計,基于大數據技術實現(xiàn)海量數據實時采集、實時計算、實時同步;目前市面上有些廠商也逐步推出了新一代的數據集成平臺產品,基本設計思路都是基于Kafka+分布式計算引擎(SparkStreaming+Storm+Filnk)+調度平臺,實現(xiàn)新一代的數據集成平臺全新技術架構,從目前這些廠商推出的產品,筆者也進行相關試用,無論是國外的還是國內的,平臺還需要待完善;主要存在以下幾個方面:
問題:目前數據接入都是標準接入能力,基于物聯(lián)網的協(xié)議和數據庫的實時增量,新一代的設備廠商大部分都解析成了文本數據,但是基于數據庫的實時數據還是得需要平臺自身提供能力,否則站在整個業(yè)務閉環(huán)的角度,實時集成的第一公里,這個平臺是沒有解決的。
解決方法:逐步增強輸入源組件的能力,解決第一公里。
問題:新一代的數據集成平臺大部分的組件使用較為復雜,大部分組件需要具備大數據技術能力和開發(fā)經驗的人上手會比較快,其他運維和實施工程師學習成本較大。
解決方法:引入人工智能技術,傻瓜式的組件使用。
問題:數據集成平臺采集大部分是未遵循相關標準,采集過程沒有遵循相關配置規(guī)范,導致后續(xù)運維困難。
解決方法:引入數據標準體系,針對數據采集、數據處理、數據同步定義相關標準和規(guī)范,給數據開發(fā)定義軟件工程設計思路,實現(xiàn)數據開發(fā)工程管理。
問題:針對數據采集過程中,數據時代,數據的價值和安全越發(fā)重要,數據集成平臺依據互聯(lián)網思維延伸過來,安全體系缺失,會出現(xiàn)嚴重泄露情況。
解決方法:做到“三權分立”的原則,即數據操作權、數據使用權、資源管理權;數據操作員依據資源管理員分配相關數據操作權限,數據使用員依據資源管理員的權限使用和查看相關數據,資源管理員只能知道平臺具備什么資源,具體數據無法查看。
綜上所述,新一代的數據集成平臺用“海量、實時、智能、標準、安全”這五個關鍵詞針對數據集成平臺進行立體化的評估。
通過圖中可以得出,在發(fā)展初期平臺廠商目前更多主要基于海量數據處理和實時計算兩部分進行了重點打造,另外三個板塊還處于研究和探索階段,預估在未來兩年左右會趨向成熟。
數據集成3.0的未來史
全球智能手機的快速發(fā)展,推動了移動終端和“邊緣計算”的發(fā)展。而萬物互聯(lián)、萬物感知的智能社會,則是跟物聯(lián)網發(fā)展相伴而生,邊緣計算系統(tǒng)也因此應聲而出。事實上,物聯(lián)網的概念已經提出有超過15年的歷史,然而,物聯(lián)網卻并未成為一個火熱的應用。一個概念到真正的應用有一個較長的過程,與之匹配的技術、產品設備的成本、接受程度、試錯過程都是漫長的,因此往往不能很快形成大量使用的市場。5G時代已經吹響號角,多家廠商密集發(fā)布5G手機 ,外加折疊屏等新技術帶來潛在換機需求,出貨持續(xù)下滑的智能機市場能否迎來一線生機,這個還需要市場檢驗。
前面加了一些偏離主題的內容,看似偏離,其實也是在引入一個問題,未來的數據集成平臺還存在嗎?如果存在,他將會是什么形態(tài)呢?我們可以結合行業(yè)發(fā)展趨勢和信息技術發(fā)展情況進行大膽猜想。
根據Gartner的技術成熟曲線理論來說,在2015年IoT從概念上而言,已經到達頂峰位置。因此,物聯(lián)網的大規(guī)模應用也開始加速。因此未來5-10年內IoT會進入一個應用爆發(fā)期,邊緣計算也隨之被預期將得到更多的應用。估計還是有人對這個詞語比較陌生,按照百度百科的解釋:“邊緣計算是指在靠近物或數據源頭的一側,采用網絡、計算、存儲、應用核心能力為一體的開放平臺,就近提供最近端服務”。
隨著5G+邊緣計算+區(qū)塊鏈+云計算+人工智能等新技術快速商用,我們針對這個世界更加感知為一個由數據產生的信息時代;邊緣計算解決就近應用問題,提升用戶感知,區(qū)塊鏈解決邊緣計算與云計算中心的信息安全問題,5G解決雙方之間的傳輸效率問題,人工智能技術應用到每一個邊緣計算應用中,提升智能化商業(yè)應用落地。
數據集成平臺主要解決異構數據源數據整合的問題,假如我們未來的相關應用基本按照標準的思路進行建設,還會存在異構源數據整合問題嗎?答案是肯定存在的,我們大膽猜想,所有的應用已經完全標準化,所有行業(yè)的標準也規(guī)范化了,但是每個行業(yè)的標準必然是不一致的,未來可能存在某些行業(yè)的顛覆和消失,但一個國家的綱領必然存在,一個國家各個機構需要獨立運轉,那么運轉的數據規(guī)范必然存在差異,有差異就需要數據治理,那么就需要針對數據進行融合。故未來數據集成平臺必然還會存在,那么它將是以什么形態(tài)存在呢?
未來數據集成能力主要還是解決異構數據標準的整合問題,平臺部分能力需要前移,交由前端應用完成,數據集成平臺會考慮把維護的相關標準下發(fā)到各個應用中,而它盡可能的去實現(xiàn)標準管控的能力,盡量減少邊緣計算應用與云計算之間的交互響應時間。