Cloudera 數(shù)據(jù)分析師培訓(xùn)
培訓(xùn)班型: 公開課
課程長度: 3天/18小時(shí)
培訓(xùn)日期: 待定
認(rèn)證考試: 暫無
培訓(xùn)地點(diǎn): 博學(xué)國際教育培訓(xùn)中心
環(huán)境要求: 投影儀、白板、大白紙
培訓(xùn)形式: 實(shí)例講授,現(xiàn)場演、練、及時(shí)溝通
培訓(xùn)資料: 培訓(xùn)教材
課程內(nèi)容
課程概述:
了解Apache Pig、Apache Hive及Apache Impala如何通過刪選、連接進(jìn)行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)分析,以及利用其它常見技術(shù)自定義用戶功能。
培訓(xùn)前提:
建議需具備SQL、簡單Unix/Linux命令和腳本編程經(jīng)驗(yàn)。無需Hadoop基礎(chǔ)和其他經(jīng)驗(yàn)。
授課對象:
需要使用Hadoop來進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)分析員,商業(yè)分析員,開發(fā)員以及 系統(tǒng)管理員。
培訓(xùn)目標(biāo):
Apache Hadoop基礎(chǔ)及數(shù)據(jù)ETL(包括數(shù)據(jù)提取、轉(zhuǎn)換及加載)、如何通過使用Hadoop相關(guān)工具將數(shù)據(jù)載入Hadoop并進(jìn)行分析處理
如何使用Apache Pig對多個(gè)關(guān)聯(lián)的數(shù)據(jù)集進(jìn)行join操作以及如何分析不同的獨(dú)立數(shù)據(jù)
如何使用Apache Hive:通過定義合適的表來組織數(shù)據(jù)、執(zhí)行各種數(shù)據(jù)變換、簡化復(fù)雜查詢
如何使用Impala來對存儲(chǔ)在HDFS里的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)和交互式的分析查詢
如何根據(jù)數(shù)據(jù)分析任務(wù)來選擇合適的數(shù)據(jù)分析工具
環(huán)境準(zhǔn)備:
1、操作系統(tǒng):Linux
2、java環(huán)境:jdk6以上
3、硬件環(huán)境:電腦內(nèi)存4G以上
課程內(nèi)容:
> 關(guān)于該課程
> 關(guān)于 Cloudera
> 課程的邏輯介紹
Hadoop 基礎(chǔ)
> Hadoop的動(dòng)機(jī)
> Hadoop 概況
> HDFS
> MapReduce
> Hadoop 生態(tài)圈
> 實(shí)驗(yàn)場景介紹
> 實(shí)驗(yàn): 用Hadoop工具導(dǎo)入數(shù)據(jù)
Pig簡介
> 什么是 Pig?
> Pig的特性
> Pig使用案例
> 和Pig交互
用Pig進(jìn)行基本數(shù)據(jù)分析
> Pig Latin 語法
> 數(shù)據(jù)裝載
> 簡單數(shù)據(jù)類型
> Field 定義
> 數(shù)據(jù)輸出
> 表結(jié)構(gòu)視圖
> 數(shù)據(jù)過濾和排序
> 常用功能
> 實(shí)驗(yàn): 用Pig 執(zhí)行ETL流程
Pig處理復(fù)雜數(shù)據(jù)
> 存儲(chǔ)格式
> 復(fù)雜/Nested嵌套的數(shù)據(jù)類型
> 成群
> 處理復(fù)雜數(shù)據(jù)的內(nèi)置功能
> 迭代成群的數(shù)據(jù)
> 實(shí)驗(yàn): 用Pig分析廣告戰(zhàn)役的數(shù)據(jù)
Pig的多數(shù)據(jù)組操作
> 集成多數(shù)據(jù)組的技術(shù)
> Pig鏈接多數(shù)據(jù)組
> 組操作
> 數(shù)據(jù)組分裂
> 實(shí)驗(yàn): 用Pig分析離散的數(shù)據(jù)組
擴(kuò)展 Pig
> 用參數(shù)帶來靈活性
> Macros 和 Imports
> UDFs
> Contributed Functions
> 用其他語言和Pig一起處理數(shù)據(jù)
> 實(shí)驗(yàn): 用流處理和UDFs擴(kuò)展Pig
Pig 故障排查和優(yōu)化
> Pig故障排查> 記錄日志
> 使用Hadoop Web 界面
> 演示: 用Web 界面排查一個(gè)故障的任務(wù)
> Data 采樣和故障排查
> 性能簡介
> 理解執(zhí)行計(jì)劃(Execution Plan)
> 提高你Pig任務(wù)性能的竅門
Hive簡介
> 什么是 Hive?
> Hive 表結(jié)構(gòu)和數(shù)據(jù)存儲(chǔ)
> 對比Hive和傳統(tǒng)數(shù)據(jù)庫
> Hive vs. Pig
> Hive 使用案例
> 和Hive的互操作
Hive的關(guān)系數(shù)據(jù)分析
> Hive 數(shù)據(jù)庫和表
> 基本HiveQL 語法
> 數(shù)據(jù)類型
> 鏈接數(shù)據(jù)組
> 通用內(nèi)建功能
> 實(shí)驗(yàn): 在Shell, 腳本和Hue上運(yùn)行運(yùn)行Hive 查詢
Hive 數(shù)據(jù)管理
> Hive 數(shù)據(jù)格式
> 創(chuàng)建數(shù)據(jù)庫和 由 Hive管理的表
> 向 Hive裝載 數(shù)據(jù)
> 改變數(shù)據(jù)庫和表
> 自治表格
> 用視圖簡化查詢
> 排列查詢結(jié)果
> 數(shù)據(jù)的訪問控制
> 實(shí)驗(yàn): Hive的數(shù)據(jù)管理
Hive 的文本處理
> 文本處理簡介
> 重要的字符串(String)功能
> 使用Hive 的標(biāo)準(zhǔn)表達(dá)式(Regular Expressions)
> Sentiment Analysis and N-Grams
> 實(shí)驗(yàn): 通過敏感性分析(Sentiment Analysis)收獲洞察
Hive 優(yōu)化
> 理解查詢性能
> 控制任務(wù)執(zhí)行計(jì)劃
> 分區(qū)
> Bucketing
> 索引數(shù)據(jù)
Hive擴(kuò)展
> SerDes
> 用定制腳本完成數(shù)據(jù)轉(zhuǎn)型
> 自定義功能
> Parameterized Queries
> 實(shí)驗(yàn): Hive的數(shù)據(jù)轉(zhuǎn)型
Impala 簡介
> 什么是 Impala?
> Impala 和 Hive和 Pig的不同
> 局限和未來方向
> 使用Impala Shell
采樣Impala分析數(shù)據(jù)
> 基本語法
> 數(shù)據(jù)類型
> 過濾, 排序, and Limiting Results
> 鏈接和組隊(duì)數(shù)據(jù)
> 提升 Impala 性能
> 實(shí)驗(yàn): Impala的交互式分析
為任務(wù)選擇*的工具
> 對比 MapReduce, Pig, Hive, Impala和關(guān)系數(shù)據(jù)庫
> 選擇哪個(gè)?