综合色图自拍|97se亚洲综合一区|日韩AV高清在线|亚洲AV无码精品一区二区

×
NEWS CENTER

新聞中心

漫畫:什么是數(shù)據(jù)倉庫和ETL?

時間:2018-09-25 13:53:46 次數(shù):5252


一個故事

在很久很久以前,世界上生活著許多種族,有人類,有矮人,有精靈......他們有著不同的信仰,不同的文化,彼此相安無事??墒?,有一個猥瑣男卻偏偏想要統(tǒng)治整個世界。

如何統(tǒng)治這么多不同文化信仰的種族呢?猥瑣男想出一個餿主意,打造出幾枚擁有魔力的戒指,免費送給不同種族的領袖,讓他們可以更好地統(tǒng)治各自的族人。

當各個種族的領袖美滋滋地戴上各自的魔戒,走上人生巔峰的時候,猥瑣男又打造出一枚獨一無二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,從而控制了各個種族的領袖,繼而控制了整個世界。

這個故事告訴我們:數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的關系。

如果說,那個世界的每一個生命個體都是一條數(shù)據(jù)記錄,那么普通的魔戒的地位就好比是數(shù)據(jù)庫,而至尊魔戒的地位就好比是數(shù)據(jù)倉庫。

什么是數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫,英文名稱Data Warehouse,簡寫為DW。數(shù)據(jù)倉庫顧名思義,是一個很大的數(shù)據(jù)存儲集合,出于企業(yè)的分析性報告和決策支持目的而創(chuàng)建,對多樣的業(yè)務數(shù)據(jù)進行篩選與整合。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導業(yè)務流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。

數(shù)據(jù)倉庫的輸入方是各種各樣的數(shù)據(jù)源,最終的輸出用于企業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)報表等方向。

那么,數(shù)據(jù)倉庫都有什么特點呢?

1.主題性

不同于傳統(tǒng)數(shù)據(jù)庫對應于某一個或多個項目,數(shù)據(jù)倉庫根據(jù)使用者實際需求,將不同數(shù)據(jù)源的數(shù)據(jù)在一個較高的抽象層次上做整合,所有數(shù)據(jù)都圍繞某一主題來組織。

這里的主題怎么來理解呢?比如對于滴滴出行,“司機行為分析”就是一個主題,對于鏈家網(wǎng),“成交分析”就是一個主題。

2.集成性

數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是來源于多個數(shù)據(jù)源的集成,原始數(shù)據(jù)來自不同的數(shù)據(jù)源,存儲方式各不相同。要整合成為最終的數(shù)據(jù)集合,需要從數(shù)據(jù)源經(jīng)過一系列抽取、清洗、轉(zhuǎn)換的過程。

3.穩(wěn)定性

數(shù)據(jù)倉庫中保存的數(shù)據(jù)是一系列歷史快照,不允許被修改。用戶只能通過分析工具進行查詢和分析。

4.時變性

數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù),反應出最新的數(shù)據(jù)變化。這和特點并不矛盾。

什么是ETL?

ETL的英文全稱是 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源遷移到目標的幾個過程:

1.Extract,數(shù)據(jù)抽取,也就是把數(shù)據(jù)從數(shù)據(jù)源讀出來。

2.Transform,數(shù)據(jù)轉(zhuǎn)換,把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式和維度。如果用在數(shù)據(jù)倉庫的場景下,Transform也包含數(shù)據(jù)清洗,清洗掉噪音數(shù)據(jù)。

3.Load 數(shù)據(jù)加載,把處理后的數(shù)據(jù)加載到目標處,比如數(shù)據(jù)倉庫。

主流的數(shù)據(jù)倉庫有哪些?

這個Hive又是何方神圣呢?

確切地說,Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以對存儲在HDFS上的文件數(shù)據(jù)集進行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語言 HiveQL,在做查詢時將HQL語句轉(zhuǎn)換成MapReduce任務,在Hadoop層進行執(zhí)行。

這里有幾個名詞需要解釋:

1.HDFS

Hadoop的分布式文件系統(tǒng),在這里作為數(shù)據(jù)倉庫的存儲層。圖中的Data Node就是HDFS的眾多工作節(jié)點。

2.MapReduce

一種針對海量數(shù)據(jù)的并行計算模型,可以簡單理解為對多個數(shù)據(jù)分片的數(shù)據(jù)轉(zhuǎn)換和合并。

關于HDFS和MapReduce的具體知識,這一期暫時不做展開,小灰會在后續(xù)的漫畫中詳細介紹。

幾點補充:

1.對于大數(shù)據(jù)方向,小灰也僅僅了解皮毛,漫畫中若存在錯誤或是描述不全面的地方,還請大家多多指正補充。

2.關于Teradata,小灰曾經(jīng)有幸在這里工作過,雖然不是從事數(shù)據(jù)倉庫領域。Teradata 的確是一款很強大的商業(yè)數(shù)據(jù)倉庫,對此有興趣的同學,可以百度學習一下具體知識。



掃一掃分享當前頁面
分享到