114培訓(xùn)網(wǎng)歡迎您來到杭州博學(xué)國際教育培訓(xùn)中心!

400-850-8622

全國統(tǒng)一學(xué)習(xí)專線 8:30-21:00

杭州Cloudera 數(shù)據(jù)分析師培訓(xùn)

授課機(jī)構(gòu):杭州博學(xué)國際教育培訓(xùn)中心

關(guān)注度:128

課程價(jià)格: 請咨詢客服

上課地址:請咨詢客服

開課時(shí)間:滾動(dòng)開班

咨詢熱線:400-850-8622

在線報(bào)名

課程詳情在線報(bào)名

更新時(shí)間:2024-12-28
Cloudera 數(shù)據(jù)分析師培訓(xùn) 培訓(xùn)班型: 公開課 課程長度: 3天/18小時(shí) 培訓(xùn)日期: 待定 認(rèn)證考試: 暫無 培訓(xùn)地點(diǎn): 博學(xué)國際教育培訓(xùn)中心 環(huán)境要求: 投影儀、白板、大白紙 培訓(xùn)形式: 實(shí)例講授,現(xiàn)場演、練、及時(shí)溝通 培訓(xùn)資料: 培訓(xùn)教材 課程內(nèi)容 課程概述: 了解Apache Pig、Apache Hive及Apache Impala如何通過刪選、連接進(jìn)行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)分析,以及利用其它常見技術(shù)自定義用戶功能。 培訓(xùn)前提: 建議需具備SQL、簡單Unix/Linux命令和腳本編程經(jīng)驗(yàn)。無需Hadoop基礎(chǔ)和其他經(jīng)驗(yàn)。 授課對象: 需要使用Hadoop來進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)分析員,商業(yè)分析員,開發(fā)員以及 系統(tǒng)管理員。 培訓(xùn)目標(biāo): Apache Hadoop基礎(chǔ)及數(shù)據(jù)ETL(包括數(shù)據(jù)提取、轉(zhuǎn)換及加載)、如何通過使用Hadoop相關(guān)工具將數(shù)據(jù)載入Hadoop并進(jìn)行分析處理 如何使用Apache Pig對多個(gè)關(guān)聯(lián)的數(shù)據(jù)集進(jìn)行join操作以及如何分析不同的獨(dú)立數(shù)據(jù) 如何使用Apache Hive:通過定義合適的表來組織數(shù)據(jù)、執(zhí)行各種數(shù)據(jù)變換、簡化復(fù)雜查詢 如何使用Impala來對存儲(chǔ)在HDFS里的大規(guī)模數(shù)據(jù)進(jìn)行實(shí)時(shí)和交互式的分析查詢 如何根據(jù)數(shù)據(jù)分析任務(wù)來選擇合適的數(shù)據(jù)分析工具 環(huán)境準(zhǔn)備: 1、操作系統(tǒng):Linux 2、java環(huán)境:jdk6以上 3、硬件環(huán)境:電腦內(nèi)存4G以上 課程內(nèi)容: > 關(guān)于該課程 > 關(guān)于 Cloudera > 課程的邏輯介紹 Hadoop 基礎(chǔ) > Hadoop的動(dòng)機(jī) > Hadoop 概況 > HDFS > MapReduce > Hadoop 生態(tài)圈 > 實(shí)驗(yàn)場景介紹 > 實(shí)驗(yàn): 用Hadoop工具導(dǎo)入數(shù)據(jù) Pig簡介 > 什么是 Pig? > Pig的特性 > Pig使用案例 > 和Pig交互 用Pig進(jìn)行基本數(shù)據(jù)分析 > Pig Latin 語法 > 數(shù)據(jù)裝載 > 簡單數(shù)據(jù)類型 > Field 定義 > 數(shù)據(jù)輸出 > 表結(jié)構(gòu)視圖 > 數(shù)據(jù)過濾和排序 > 常用功能 > 實(shí)驗(yàn): 用Pig 執(zhí)行ETL流程 Pig處理復(fù)雜數(shù)據(jù) > 存儲(chǔ)格式 > 復(fù)雜/Nested嵌套的數(shù)據(jù)類型 > 成群 > 處理復(fù)雜數(shù)據(jù)的內(nèi)置功能 > 迭代成群的數(shù)據(jù) > 實(shí)驗(yàn): 用Pig分析廣告戰(zhàn)役的數(shù)據(jù) Pig的多數(shù)據(jù)組操作 > 集成多數(shù)據(jù)組的技術(shù) > Pig鏈接多數(shù)據(jù)組 > 組操作 > 數(shù)據(jù)組分裂 > 實(shí)驗(yàn): 用Pig分析離散的數(shù)據(jù)組 擴(kuò)展 Pig > 用參數(shù)帶來靈活性 > Macros 和 Imports > UDFs > Contributed Functions > 用其他語言和Pig一起處理數(shù)據(jù) > 實(shí)驗(yàn): 用流處理和UDFs擴(kuò)展Pig Pig 故障排查和優(yōu)化 > Pig故障排查> 記錄日志 > 使用Hadoop Web 界面 > 演示: 用Web 界面排查一個(gè)故障的任務(wù) > Data 采樣和故障排查 > 性能簡介 > 理解執(zhí)行計(jì)劃(Execution Plan) > 提高你Pig任務(wù)性能的竅門 Hive簡介 > 什么是 Hive? > Hive 表結(jié)構(gòu)和數(shù)據(jù)存儲(chǔ) > 對比Hive和傳統(tǒng)數(shù)據(jù)庫 > Hive vs. Pig > Hive 使用案例 > 和Hive的互操作 Hive的關(guān)系數(shù)據(jù)分析 > Hive 數(shù)據(jù)庫和表 > 基本HiveQL 語法 > 數(shù)據(jù)類型 > 鏈接數(shù)據(jù)組 > 通用內(nèi)建功能 > 實(shí)驗(yàn): 在Shell, 腳本和Hue上運(yùn)行運(yùn)行Hive 查詢 Hive 數(shù)據(jù)管理 > Hive 數(shù)據(jù)格式 > 創(chuàng)建數(shù)據(jù)庫和 由 Hive管理的表 > 向 Hive裝載 數(shù)據(jù) > 改變數(shù)據(jù)庫和表 > 自治表格 > 用視圖簡化查詢 > 排列查詢結(jié)果 > 數(shù)據(jù)的訪問控制 > 實(shí)驗(yàn): Hive的數(shù)據(jù)管理 Hive 的文本處理 > 文本處理簡介 > 重要的字符串(String)功能 > 使用Hive 的標(biāo)準(zhǔn)表達(dá)式(Regular Expressions) > Sentiment Analysis and N-Grams > 實(shí)驗(yàn): 通過敏感性分析(Sentiment Analysis)收獲洞察 Hive 優(yōu)化 > 理解查詢性能 > 控制任務(wù)執(zhí)行計(jì)劃 > 分區(qū) > Bucketing > 索引數(shù)據(jù) Hive擴(kuò)展 > SerDes > 用定制腳本完成數(shù)據(jù)轉(zhuǎn)型 > 自定義功能 > Parameterized Queries > 實(shí)驗(yàn): Hive的數(shù)據(jù)轉(zhuǎn)型 Impala 簡介 > 什么是 Impala? > Impala 和 Hive和 Pig的不同 > 局限和未來方向 > 使用Impala Shell 采樣Impala分析數(shù)據(jù) > 基本語法 > 數(shù)據(jù)類型 > 過濾, 排序, and Limiting Results > 鏈接和組隊(duì)數(shù)據(jù) > 提升 Impala 性能 > 實(shí)驗(yàn): Impala的交互式分析 為任務(wù)選擇*的工具 > 對比 MapReduce, Pig, Hive, Impala和關(guān)系數(shù)據(jù)庫 > 選擇哪個(gè)?
姓名不能為空
手機(jī)號(hào)格式錯(cuò)誤