關(guān)于舉辦“Hadoop大數(shù)據(jù)處理高級工程師”
實戰(zhàn)培訓(xùn)班的通知
各有關(guān)單位:
為貫徹落實黨中央國務(wù)院“十二五”規(guī)劃指導(dǎo)精神,云計算作為戰(zhàn)略重點項目新興產(chǎn)業(yè),*和業(yè)界都表現(xiàn)出了極大的熱情。日前發(fā)改委、工信部、財政部支持的云計算項目正式啟動,云計算平臺和云計算服務(wù)模式已成為今后IT服務(wù)的主流。云計算服務(wù)應(yīng)用的種類不斷增多,普及程度逐漸深入,使用者正向普通用戶拓展。未來,云計算及其基礎(chǔ)設(shè)施將是信息產(chǎn)業(yè)的核心平臺,其所蘊含的技術(shù)變革和創(chuàng)新服務(wù)模式,將深刻影響全球產(chǎn)業(yè)技術(shù)創(chuàng)新的發(fā)展。
目前,互聯(lián)網(wǎng)正從數(shù)據(jù)爆炸進(jìn)一步發(fā)展到海量數(shù)據(jù)分析和挖掘的時代,而基于Hadoop技術(shù)的解決方案為海量數(shù)據(jù)存儲和處理提供了經(jīng)濟、高效、高安全性和高可靠性的保障,Apache Hadoop也因此成為大數(shù)據(jù)行業(yè)發(fā)展背后的驅(qū)動力。由于Hadoop技術(shù)已成為當(dāng)下最火熱的云計算技術(shù)之一,各行業(yè)中希望深入了解并掌握這門技術(shù)的人也越來越多,*軟件行業(yè)產(chǎn)業(yè)培訓(xùn)網(wǎng)決定開展“大數(shù)據(jù)處理Hadoop應(yīng)用與開發(fā)”實戰(zhàn)培訓(xùn)班,本次培訓(xùn)由中聯(lián)軟博(北京)科技有限公司具體承辦,望相關(guān)單位收到通知后積極參加。相關(guān)培訓(xùn)事宜如下:
一、課程目標(biāo)
1、了解Hadoop的歷史及目前發(fā)展的現(xiàn)狀、以及Hadoop的技術(shù)特點,從而把握分布式計算框架及未來發(fā)展方向,在大數(shù)據(jù)時代能為企業(yè)的技術(shù)選型及架構(gòu)設(shè)計提供決策參考。
2、全面掌握Hadoop的架構(gòu)原理和使用場景,并通過貫穿課程的項目進(jìn)行實戰(zhàn)鍛煉,從而熟練使用Hadoop進(jìn)行MapReduce程序開發(fā)。課程還涵蓋了分布式計算領(lǐng)域的常用算法介紹,幫助學(xué)員為企業(yè)在利用大數(shù)據(jù)方面體現(xiàn)自身價值。
3、深入理解Hadoop技術(shù)架構(gòu),對Hadoop運作機制有清晰全面的認(rèn)識,可以獨立規(guī)劃及部署生產(chǎn)環(huán)境的Hadoop集群,掌握Hadoop基本運維思路和方法,對Hadoop集群進(jìn)行管理和優(yōu)化。
二、培訓(xùn)時間及地點
北京 上海 廣州 成都 月月開課 常年開課
三、培訓(xùn)對象
各地*云計算物聯(lián)網(wǎng)產(chǎn)業(yè)相關(guān)負(fù)責(zé)人,各企業(yè)CIO、信息中心負(fù)責(zé)人、技術(shù)總監(jiān),云計算中心負(fù)責(zé)人,云計算產(chǎn)業(yè)投資團隊,云計算應(yīng)用開發(fā)商,云計算硬件設(shè)備供應(yīng)商,云服務(wù)提供商,高校、科研院所云計算項目負(fù)責(zé)人。
各企業(yè)大數(shù)據(jù)架構(gòu)師、技術(shù)總監(jiān)、數(shù)據(jù)挖掘負(fù)責(zé)人、數(shù)據(jù)挖掘開發(fā)工程師
四、師資力量
張老師:阿里大數(shù)據(jù)高級專家,國內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實際項目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經(jīng)驗。近年主要典型的項目有:某電信集團網(wǎng)絡(luò)優(yōu)化、*移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、*銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商*用戶上網(wǎng)記錄、某省交通*違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺項目等。
五、培訓(xùn)特色
注重應(yīng)用:分析國內(nèi)實際情況,結(jié)合國際、國內(nèi)成功經(jīng)驗。Hadoop采用實戰(zhàn)的項目,讓學(xué)員在短時間內(nèi)掌握Hadoop的搭建與配置。并進(jìn)行高效的大數(shù)據(jù)清洗和分析。
形式靈活:互動課堂、免費技術(shù)沙龍、提供云計算項目建設(shè)咨詢、大數(shù)據(jù)Hadoop平臺的搭建。
六、頒發(fā)證書
參加相關(guān)培訓(xùn)并通過考試的學(xué)員,可以獲得:
工業(yè)和信息化部頒發(fā)的-大數(shù)據(jù)處理高級工程師。該證書可作為專業(yè)技術(shù)人員職業(yè)能力考核的證明,以及專業(yè)技術(shù)人員崗位聘用、任職、定級和晉升職務(wù)的重要依據(jù)。
注:請學(xué)員帶一寸彩照2張(背面注明姓名)、身份證復(fù)印件一張。
七、培訓(xùn)費用及須知
5800 元/人(含教材、培訓(xùn)費、以及學(xué)習(xí)用具等費用) 食宿統(tǒng)一安排,費用自理。
八、培訓(xùn)內(nèi)容(3天課程)
課程模塊 課程主題 主要內(nèi)容 案例和演示
模塊一 Hadoop在云計算技術(shù)的作用和地位 ? 傳統(tǒng)大規(guī)模系統(tǒng)存在的問題
? Hadoop概述
? Hadoop分布式文件系統(tǒng)
? MapReduce工作原理
? Hadoop集群剖析
? Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求
? Hadoop的行業(yè)應(yīng)用案例分析
? Hadoop在云計算和大數(shù)據(jù)的位置和關(guān)系 ? 數(shù)據(jù)開放,數(shù)據(jù)云服務(wù)平臺(DAAS)時代
? Hadoop平臺在數(shù)據(jù)云平臺(DAAS)上的天然優(yōu)勢
? 數(shù)據(jù)云平臺(DAAS 平臺)組成部分
? 互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)案例
? Hadoop構(gòu)建構(gòu)建游戲云(Web Game Daas)平臺
模塊二 Hadoop生態(tài)系統(tǒng)介紹和演示 ? Hadoop HDFS 和 MapReduce
? Hadoop數(shù)據(jù)庫之HBase
? Hadoop數(shù)據(jù)倉庫之Hive
? Hadoop數(shù)據(jù)處理腳本Pig
? Hadoop數(shù)據(jù)接口Sqoop和Flume,Scribe DataX
? Hadoop工作流引擎 Oozie ? 運用Hadoop自下而上構(gòu)建大規(guī)模企業(yè)數(shù)據(jù)倉庫
? 暴風(fēng)影音數(shù)據(jù)倉庫實戰(zhàn)解析
模塊三 Hadoop組件詳解 ? Hadoop HDFS 基本結(jié)構(gòu)
? Hadoop HDFS 副本存放策略
? Hadoop NameNode 詳解
? HadoopSecondaryNameNode 詳解
? Hadoop DataNode 詳解
? Hadoop JobTracker 詳解
? Hadoop TaskTracker 詳解 ? Hadoop Mapper類核心代碼
? Hadoop Reduce類核心代碼
? Hadoop 核心代碼
模塊四 Hadoop安裝和部署 ? Hadoop系統(tǒng)模塊組件概述
? Hadoop試驗集群的部署結(jié)構(gòu)
? Hadoop 安裝依賴關(guān)系
? Hadoop 生產(chǎn)環(huán)境的部署結(jié)構(gòu)
? Hadoop集群部署
? Hadoop 高可用配置方法
? Hadoop 集群簡單測試方法
? Hadoop 集群異常Debug方法 ? Hadoop安裝部署實驗
? Red hat Linux基礎(chǔ)環(huán)境搭建
? Hadoop 單機系統(tǒng)版本安裝配置
? Hadoop 集群系統(tǒng)版本安裝和啟動配置
? 使用 Hadoop MapReduce Streaming 快速測試系統(tǒng)
? Hadoopcore-site,hdfs-site,mapred-site 配置詳解
模塊五 Hadoop集群規(guī)劃 ? Hadoop 集群內(nèi)存要求
? Hadoop集群磁盤分區(qū)
? 集群和網(wǎng)絡(luò)拓?fù)湟?
? 集群軟件的端口配置 ? 針對NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組件需求推薦服務(wù)器配置
模塊六 MapReduce 算法原理 ? Hadoop MapReduce 算法的原理和優(yōu)化思想
? 靈活運用MapReduce 實現(xiàn)算法 ? 運用MapReduce 構(gòu)建數(shù)據(jù)庫算法
? Select Sort GrougBy Sum Count
? Join 新進(jìn)流失算法
? 使用 Y-Smart 快速轉(zhuǎn)換SQL 為MapReduce 代碼
模塊七 編寫MapReduce高級程序 ? 使用 Hadoop MapReduce Streaming 編程
? MapReduce流程
? 剖析一個MapReduce程序
? 基本MapReduceAPI概念
? 驅(qū)動代碼 Mapper、Reducer
? Hadoop流
? API 使用Eclipse進(jìn)行快速開發(fā)
? 新MapReduce API
? MapReduce的優(yōu)化
? MapReduce的任務(wù)調(diào)度
? MapReduce編程實戰(zhàn)
? 如何利用其他Hadoop相關(guān)技術(shù),包括Apache Hive, Apache Pig,Sqoop和Oozie等
? 滿足解決實際數(shù)據(jù)分析問題的高級Hadoop API ? Hadoop Streaming 和 Java MapReduce Api 差異。
? MapReduce 實現(xiàn)數(shù)據(jù)庫功能
? 利用Combiners來減少中間數(shù)據(jù)
? 編寫Partitioner來優(yōu)化負(fù)載平衡
? 直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
? Hadoop的join操作
? 輔助排序在Reducer方的合并
? 定制Writables和WritableComparables
? 使用SequenceFiles和Avro文件保存二進(jìn)制數(shù)據(jù)
? 創(chuàng)建InputFormats OutputFormats
? Hadoop的二次排序
? Hadoop的海量日志分析
? 在Map方的合并
模塊八 集成Hadoop到現(xiàn)有工作流
及Hadoop API深入探討 ? 存儲系統(tǒng)
? 利用Sqoop從關(guān)系型數(shù)據(jù)庫系統(tǒng)中導(dǎo)入數(shù)據(jù)到Hadoop
? 利用Flume導(dǎo)入實時數(shù)據(jù)到Hadoop
? ToolRunner介紹、使用MRUnit進(jìn)行測試
? 使用Configure和Close方法來進(jìn)行Map/Reduce設(shè)置和關(guān)閉 ? 使用FuseDFS和Hadoop訪問HDFS
? 使用分布式緩存(Distributed Cache)
? 直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
? 利用Combiners來減少中間數(shù)據(jù)
? 編寫Partitioner來優(yōu)化負(fù)載平衡
模塊九 使用Hive和Pig開發(fā)及技巧 ? Hive和Pig基礎(chǔ)
? Hive的作用和原理說明
? Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系
? Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流
? Hive 部署和安裝
? Hive Cli 的基本用法
? HQL基本語法
? 運用Pig 過濾用戶數(shù)據(jù) ? 使用JDBC 連接Hive進(jìn)行查詢和分析
? 使用正則表達(dá)式加載數(shù)據(jù)
? HQL高級語法
? 編寫UDF函數(shù)
? 編寫UDAF自定義函數(shù)
? 基于Hive腳本內(nèi)嵌Streaming 編程
模塊十 Hbase安裝和使用 ? Hbase 安裝部署
? Hbase原理和結(jié)構(gòu)
? Hbase 運維和管理 ? 使用Hbase+Hive 提供 OLAP SQL查詢能力
? 使用Hbase+Phoenix提供 OLTP SQL能力
? 基于Hbase 的時間序列數(shù)據(jù)庫 OpenTsDb 結(jié)構(gòu)解析
模塊十一 Hadoop2.0 集群探索 ? Hadoop2.0 HDFS 原理
? Hadoop2.0 Yarn 原理
? Hadoop2.0 生態(tài)系統(tǒng) ? 基于Hadoop2.0 構(gòu)建分布式系統(tǒng)
模塊十二 Hadoop企業(yè)級別案例解析 ? Hadoop 結(jié)構(gòu)化數(shù)據(jù)案例
? Hadoop 非結(jié)構(gòu)化案例
? Hbase 數(shù)據(jù)庫案例
? Hadoop 視頻分析案例 ? 利用大數(shù)據(jù)分析改進(jìn)交通管理
? 區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用案例
? 銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺
? 廣東移動省公司請賬單系統(tǒng)
? 上海電信網(wǎng)絡(luò)優(yōu)化
? 某通信運營商*用戶上網(wǎng)記錄
? 浙江臺州市智能交通系統(tǒng)
? 移動廣州詳單實時查詢系統(tǒng)
? 跨區(qū)域?qū)崟r視頻監(jiān)控系統(tǒng)
模塊十三 RedHadoop 企業(yè)版本 ? 運用RedHadoop快速構(gòu)建服務(wù)集群
? 運用RedHadoop DW 構(gòu)建數(shù)據(jù)倉庫 ? 基于RedHadoop Hive構(gòu)建數(shù)據(jù)倉庫平臺
? 靈活運用 Hive 加速游戲數(shù)據(jù)倉庫
? 基于Pig+OpenCV大規(guī)模圖像人臉識別
模塊十四 Spark原理和入門 ? Spark原理;Spark的架構(gòu)圖;Spark運行模式介紹
? —local;—standalone;—messos;—yarn;Spark的RDD
? 什么是RDD;RDD的種類;—Tranformation;—Action
? Spark的存儲級別;Cache介紹;Spark的容錯原理
? Lineage容錯;Checkpoint容錯;RDD的創(chuàng)建
? 案例—統(tǒng)計單詞的個數(shù)
聯(lián) 系 人: 岳老師 *軟件產(chǎn)業(yè)培訓(xùn)網(wǎng)