大數據平臺建設培訓大綱
大數據發展歷程及主流技術棧構成
1. 為什么會出現大數據,大數據的演進過程是怎么樣的
2. 商業智能BI、數據倉庫DW、數據湖DL、數據中臺的原理、區別和核心職能
3. 支撐大數據平臺的主流框架技術介紹:Spark、Flink、HDFS、HBase、Hive、Kylin、Presto、Kafka、ClickHouse 等
整體大數據平臺核心板塊構成及架構設計
1. 整體大數據處理鏈路介紹及每個環節的技術選型方案
2. 五大核心板塊介紹:數據接入處理(收集、接收、解析、標準化 等)、數據治理與管理(安全脫敏、ID-Mapping血緣圖譜、主體式數據倉庫 等)、數據消費提取(批量、實時、T+1、API 等)、數據鏈路跟蹤(數據回溯、中間狀態追蹤、數據服務保障 等)、數據工具支撐(可視化建模、任務調度、數據搬遷 等)
3. 整體大數據架構設計介紹:技術架構、存儲與計算架構、部署架構、容災架構,實時流計算,離線存儲的核心本質,如何監測實時流處理過程中的問題回溯
4. HDFS、HBase、Hive、Kylin、Spark Streaming/SQL、Flink的底層核心原理及適用業務場景(結合實際工程代碼方式講解)
大型分布式數據倉庫建模思路與實踐
1. 軟件系統建模方法:(結構型)類圖、對象圖、構件圖、部署圖、包圖;(行為型)動圖、狀態機圖、順序圖、通信圖、用例圖、時間圖
2. 常用數據建模方法:實體建模法、維度建模法、范式建模法(結合案例講解)
3. 基于中臺思想,數據分層的主體思路與重要性介紹
4. 基于分布式數據倉庫,針對數據的采集、處理、建模的佳實踐介紹
5. 數據倉庫建設方法論,星型模型(非關系型DB存儲,以空間換時間)和雪花模型(關系型DB存儲,以時間還空間)兩種建模思想的核心差異和適用場景
數據建模與處理行業案例分析(思路、方法、技術選型)
1. 基于事件驅動U-E建模,結合業務分拆數據處理粒度、維度、范圍、邊界,如:主題式抽取,數據標簽化定義 等
2. 結合業務講解E-R模型構建,動態、靜態屬性識別,數據客觀事實關系識別與定義
3. 基于車聯網領域秒級、毫秒級數據上報如何接收與處理
4. 如何解決數據擠壓問題,有哪些成熟的方法和技術手段
5. 數據接入云端后,如何防丟失,如何做削峰處理,如何保障后續服務健康運行
6. 案例分析:數據接收、解析、建模、存儲、計算、提取全流程中行業 |