(新升級)Spark 2.0從入門到精通:Scala編程、大數據開發、上百個實戰案例、內核源碼深度剖析
  完畢
收藏課程
9999+

(新升級)Spark 2.0從入門到精通:Scala編程、大數據開發、上百個實戰案例、內核源碼深度剖析

本課程主要講解目前大數據領域最熱門、最火爆、最有前景的技術——Spark。在本課程中,會從淺入深,基于大量案例實戰,深度剖析和講解Spark,并且會包含完全從企...

適合人群:中級
課時數量:155課時
用到技術:Scala、Spark、Spark SQL、Spark Streaming
涉及項目:每日uv和銷售額統計、各品類top3熱賣商品統計、每日top3熱點搜索詞統計、廣告計費實時過濾、熱點搜索詞滑動統計、各品類top3熱賣商品滑動實時統計

  • 課程顧問貼心解答

    為你推薦精品課程,無論就業還是升職加薪,毫無壓力。

  • 名企定制緊隨大流

    量身打造緊貼企業需求的實用性課程。

  • 系統教學把控效果

    集學、測、練為一體的學習系統為你科學的安排學習進度,提高效率。

  • 一線大師1對1指導

    課程研發團隊內一線資深講師一對一指導,手把手教學,直到學會。

  • 點播答疑完美結合

    每周2-3次直播解答,保證學員日常學習問題能得到解決。

  • 量身定制學習計劃

    告別雜亂的學習方式,我們會根據你的情況定制學習計劃。

課程升級!
原名:Spark從入門到精通(Scala編程、案例實戰、高級特性、Spark內核源碼剖析、Hadoop高端)
現改名:Spark 2.0從入門到精通:Scala編程、大數據開發、上百個實戰案例、內核源碼深度剖析

 

本課程主要講解目前大數據領域熱門、火爆、有前景的技術——Spark。在本課程中,會從淺入深,基于大量案例實戰,深度剖析和講解Spark,并且會包含完全從企業真實復雜業務需求中抽取出的案例實戰。課程會涵蓋Scala編程詳解、Spark核心編程、Spark SQL和Spark Streaming、Spark內核以及源碼剖析、性能調優、企業級案例實戰等部分。完全從零起步,讓學員可以一站式精通Spark企業級大數據開發,提升自己的職場競爭力,實現更好的升職或者跳槽,或者從j2ee等傳統軟件開發工程師轉型為Spark大數據開發工程師,或是對于正在從事hadoop大數據開發的朋友可以拓寬自己的技術能力棧,提升自己的價值。

 

 

1.課程研發環境
開發工具: Eclipse、Scala IDE for Eclipse;
Spark: 1.3.0和1.5.1
Hadoop: 2.4.1
Hive: 0.13
ZooKeeper: 3.4.5
Kafka: 2.9.2-0.8.1     
其他工具: SecureCRT、WinSCP、VirtualBox等

 

2.內容簡介
本課程主要講解的內容包括:Scala編程、Hadoop與Spark集群搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優、Spark SQL、Spark Streaming。
本課程的特色包括:
1、代碼驅動講解Spark的各個技術點(絕對不是照著PPT空講理論);
2、現場動手畫圖講解Spark原理以及源碼(絕對不是干講源碼和PPT);
3、覆蓋Spark所有功能點(Spark RDD、Spark SQL、Spark Streaming,初級功能到高級特性,一個不少);
4、Scala全程案例實戰講解(近百個趣味性案例);
5、Spark案例實戰的代碼,幾乎都提供了Java和Scala兩個版本和講解(一次性同時精通Java和Scala開發Spark);
6、大量全網獨有的知識點:基于排序的wordcount,Spark二次排序,Spark分組取topn,DataFrame與RDD的兩種轉換方式,Spark SQL的內置函數、開窗函數、UDF、UDAF,Spark       Streaming的Kafka Direct API、updateStateByKey、transform、滑動窗口、foreachRDD性能優化、與Spark SQL整合使用、持久化、checkpoint、容錯與事務。
7、多個從企業實際需求抽取出的復雜案例實戰:每日uv和銷售額統計案例、top3熱賣商品統計案例、每日top3熱點搜索詞統計、廣告計費日志實時黑名單過濾案例、熱點搜索詞滑動統       計案例、top3熱門商品實時統計案例
8、深度剖析Spark內核源碼與Spark Streaming源碼,給源碼進行詳細的注釋和講解
9、全面講解Spark、Spark SQL、Spark Streaming的性能調優,其中包括全網獨有的Shuffle性能調優(詳細講解性能調優的各個技術點)
10、涵蓋Spark兩個重要版本,Spark 1.3.0和Spark 1.5.1的講解(走在Spark前沿,涵蓋新高級特性)
 

Spark 2.0免費升級通知

 
本次Spark 2.0課程升級,總計30講內容,大約15個課時。主要是深入淺出講解了Spark2.0版本的相關內容。主要內容大綱如下:
1. Spark 2.0新特性深入淺出剖析:主要講解了Spark 2.0都有哪些新特性,同時深入淺出剖析了Spark 2.0的第二代Tungsten引擎的工作原理。
2. Dataset/Dataframe開發詳解:主要完整講解了Spark 2.0開始,API-Dataset/Dataframe的開發,包括主要的各種計算操作以及常用函數等。
3. Structured Streaming開發詳解:主要深入淺出講解了Spark 2.0新增加的下一代流式計算引擎——Structured Streaming,包括其設計理念和思想,以及開發模式,以及開發的一些細節。
4. Spark簡歷編寫、面試以及如何找工作:主要為大家分析了學完課程之后,對自己如何定位?如何深入了解企業的招聘需求?如何將自己的技術背景補齊到與公司需求相match?如何編寫簡歷?如何擁有屬于自己的獨一無二的大數據項目?如何掌握面試的關鍵技巧?目前大數據行業的薪資現狀以及如何談一個合適的薪資?
5. 具體的升級內容大綱,見“課程大綱”底部新增內容。
     這里需要提前特別提醒的是,新手如何看待Spark 1.x和Spark 2.x的關系,以及學習的建議。大家千萬不要以為Spark 2.x完全顛覆了Spark 1.x,因此Spark 1.x的東西不用學了,那是完全錯誤的想法!事實恰恰相反,實際上Spark 2.x與Spark 1.x一脈相承,2.x完全是在1.x的基礎上進行了功能的完善,底層引擎的優化,以及新的功能模塊的增加。spark官方也發出了聲明,spark 1.x的所有東西在未來都完全是有其價值和意義的,絕對不是被淘汰!
      因此對于新人來說,課程里講解的Spark 1.x,不僅完全沒有過時,而且在目前以及未來都是絕對有用的!實際上Spark 1.x只有極其少數的一些東西是被標記為淘汰的!因此,新人必須從本課程講解的Spark 1.x開始,一點一點學習,循序漸進,千萬不能急于求成!而且Spark 2.0還很不穩定,因此本次升級講解的內容,主要是希望大家能夠跟上技術的發展潮流,站在技術發展的前沿,而不是讓大家馬上學了spark 2.0后就開始投入生產環境使用!具體的分析,在課程里都有講解,希望大家踏踏實實地學習。

超重磅免費升級通知!   
 
本次課程升級,總計132講,60課時左右,內容擴充近一倍。將從入門到精通的各個階段都進行了階段升級。主要內容概述如下:
1、Scala編程進階:講解Scala高級編程技巧。
2、Spark核心編程進階:本版本展示細致的Spark核心編程講解,包括standalone集群操作以及spark-submit所有細節,補充大量實驗,并補充講解幾乎所有的算子操作,并增添大量實戰案例以及移動端app訪問流量日志分析綜合案例。
3、Spark內核原理進階:全網獨家講解Spark常用的10個算子的內部原理。
4、Spark SQL實戰開發:講解Thrift JDBC/ODBC Server等高級內容,并增添新聞網站關鍵指標離線統計綜合案例。
5、Spark Streaming實戰開發:講解Flume數據源等高級內容,并增添新聞網站關鍵指標實時統計綜合案例。
6、Spark運維管理進階:完全實戰講解與演練Spark的運維與管理的各種高階技術,包括基于ZooKeeper和文件系統實現HA以及主從切換、多種作業監控方式,以及全網獨家的Spark動態資源分配技術和Fair Scheduler技術。
 
 
中華石杉: 在國內BAT公司以及一線互聯網公司從事過大數據開發和架構工作,負責過多個大型大數據系統的架構和開發。精通Hadoop、Storm、Spark等大數據技術。有豐富的企業內部技術分享、技術培訓和技術講座的經驗。
 
 
一、Scala編程詳解: 
第1講-Spark的前世今生
第2講-課程介紹、特色與價值
第3講-Scala編程詳解:基礎語法
第4講-Scala編程詳解:條件控制與循環
第5講-Scala編程詳解:函數入門
第6講-Scala編程詳解:函數入門之默認參數和帶名參數
第7講-Scala編程詳解:函數入門之變長參數
第8講-Scala編程詳解:函數入門之過程、lazy值和異常
第9講-Scala編程詳解:數組操作之Array、ArrayBuffer以及遍歷數組
第10講-Scala編程詳解:數組操作之數組轉換
第11講-Scala編程詳解:Map與Tuple
第12講-Scala編程詳解:面向對象編程之類
第13講-Scala編程詳解:面向對象編程之對象
第14講-Scala編程詳解:面向對象編程之繼承
第15講-Scala編程詳解:面向對象編程之Trait
第16講-Scala編程詳解:函數式編程
第17講-Scala編程詳解:函數式編程之集合操作
第18講-Scala編程詳解:模式匹配
第19講-Scala編程詳解:類型參數
第20講-Scala編程詳解:隱式轉換與隱式參數
第21講-Scala編程詳解:Actor入門
 
二、課程環境搭建: 
第22講-課程環境搭建:CentOS 6.5集群搭建
第23講-課程環境搭建:Hadoop 2.4.1集群搭建
第24講-課程環境搭建:Hive 0.13搭建
第25講-課程環境搭建:ZooKeeper 3.4.5集群搭建
第26講-課程環境搭建:kafka_2.9.2-0.8.1集群搭建
第27講-課程環境搭建:Spark 1.3.0集群搭建
 
三、Spark核心編程:
第28講-Spark核心編程:Spark基本工作原理與RDD
第29講-Spark核心編程:使用Java、Scala和spark-shell開發wordcount程序
第30講-Spark核心編程:wordcount程序原理深度剖析
第31講-Spark核心編程:Spark架構原理
第32講-Spark核心編程:創建RDD實戰(集合、本地文件、HDFS文件)
第33講-Spark核心編程:操作RDD實戰(transformation和action案例實戰)
第34講-Spark核心編程:transformation操作開發案例實戰
第35講-Spark核心編程:action操作開發案例實戰
第36講-Spark核心編程:RDD持久化詳解
第37講-Spark核心編程:共享變量(Broadcast Variable和Accumulator)
第38講-Spark核心編程:高級編程之基于排序機制的wordcount程序
第39講-Spark核心編程:高級編程之二次排序實戰
第40講-Spark核心編程:高級編程之topn與分組取topn實戰
 
四、Spark內核源碼深度剖析:
第41講-Spark內核源碼深度剖析:Spark內核架構深度剖析
第42講-Spark內核源碼深度剖析:寬依賴與窄依賴深度剖析
第43講-Spark內核源碼深度剖析:基于Yarn的兩種提交模式深度剖析
第44講-Spark內核源碼深度剖析:SparkContext初始化原理剖析與源碼分析
第45講-Spark內核源碼深度剖析:Master主備切換機制原理剖析與源碼分析
第46講-Spark內核源碼深度剖析:Master注冊機制原理剖析與源碼分析
第47講-Spark內核源碼深度剖析:Master狀態改變處理機制原理剖析與源碼分析
第48講-Spark內核源碼深度剖析:Master資源調度算法原理剖析與源碼分析
第49講-Spark內核源碼深度剖析:Worker原理剖析與源碼分析 
第50講-Spark內核源碼深度剖析:Job觸發流程原理剖析與源碼分析
第51講-Spark內核源碼深度剖析:DAGScheduler原理剖析與源碼分析(stage劃分算法與task最佳位置算法)
第52講-Spark內核源碼深度剖析:TaskScheduler原理剖析與源碼分析(task分配算法)
第53講-Spark內核源碼深度剖析:Executor原理剖析與源碼分析
第54講-Spark內核源碼深度剖析:Task原理剖析與源碼分析
第55講-Spark內核源碼深度剖析:Shuffle原理剖析與源碼分析(普通Shuffle與優化后的Shuffle)
第56講-Spark內核源碼深度剖析:BlockManager原理剖析與源碼分析(Spark底層存儲機制)
第57講-Spark內核源碼深度剖析:CacheManager原理剖析與源碼分析
第58講-Spark內核源碼深度剖析:Checkpoint原理剖析與源碼分析
 
五、Spark性能優化:
第59講-Spark性能優化:性能優化概覽
第60講-Spark性能優化:診斷內存的消耗
第61講-Spark性能優化:高性能序列化類庫
第62講-Spark性能優化:優化數據結構
第63講-Spark性能優化:對多次使用的RDD進行持久化或Checkpoint
第64講-Spark性能優化:使用序列化的持久化級別
第65講-Spark性能優化:Java虛擬機垃圾回收調優
第66講-Spark性能優化:提高并行度
第67講-Spark性能優化:廣播共享數據
第68講-Spark性能優化:數據本地化
第69講-Spark性能優化:reduceByKey和groupByKey
第70講-Spark性能優化:shuffle性能優化
 
六、Spark SQL:
第71講-課程環境搭建:Spark 1.5.1新版本特性、源碼編譯、集群搭建
第72講-Spark SQL:前世今生
第73講-Spark SQL:DataFrame的使用
第74講-Spark SQL:使用反射方式將RDD轉換為DataFrame
第75講-Spark SQL:使用編程方式將RDD轉換為DataFrame
第76講-Spark SQL:數據源之通用的load和save操作
第77講-Spark SQL:Parquet數據源之使用編程方式加載數據
第78講-Spark SQL:Parquet數據源之自動分區推斷
第79講-Spark SQL:Parquet數據源之合并元數據
第80講-Spark SQL:JSON數據源復雜綜合案例實戰
第81講-Spark SQL:Hive數據源復雜綜合案例實戰
第82講-Spark SQL:JDBC數據源復雜綜合案例實戰
第83講-Spark SQL:內置函數以及每日uv和銷售額統計案例實戰
第84講-Spark SQL:開窗函數以及top3銷售額統計案例實戰
第85講-Spark SQL:UDF自定義函數實戰
第86講-Spark SQL:UDAF自定義聚合函數實戰
第87講-Spark SQL:工作原理剖析以及性能優化
第87講-Spark SQL:與Spark Core整合之每日top3熱點搜索詞統計案例實戰
第87講-Spark SQL:核心源碼深度剖析(DataFrame lazy特性、Optimizer優化策略等)
第87講-Spark SQL:延伸知識之Hive On Spark
 
七、Spark Streaming:
第88講-Spark Streaming:大數據實時計算介紹
第89講-Spark Streaming:DStream以及基本工作原理
第90講-Spark Streaming:與Storm的對比分析
第91講-Spark Streaming:實時wordcount程序開發
第92講-Spark Streaming:StreamingContext詳解
第93講-Spark Streaming:輸入DStream和Receiver詳解
第94講-Spark Streaming:輸入DStream之基礎數據源以及基于HDFS的實時wordcount案例實戰
第95講-Spark Streaming:輸入DStream之Kafka數據源實戰(基于Receiver的方式)
第96講-Spark Streaming:輸入DStream之Kafka數據源實戰(基于Direct的方式)
第97講-Spark Streaming:DStream的transformation操作概覽
第98講-Spark Streaming:updateStateByKey以及基于緩存的實時wordcount案例實戰
第99講-Spark Streaming:transform以及廣告計費日志實時黑名單過濾案例實戰
第100講-Spark Streaming:window滑動窗口以及熱點搜索詞滑動統計案例實戰
第101講-Spark Streaming:DStream的output操作以及foreachRDD性能優化詳解
第102講-Spark Streaming:與Spark SQL結合使用之top3熱門商品實時統計案例實戰
第103講-Spark Streaming:緩存與持久化機制詳解
第104講-Spark Streaming:Checkpoint機制詳解(Driver高可靠方案詳解)
第105講-Spark Streaming:部署、升級和監控實時應用程序
第106講-Spark Streaming:容錯機制以及事務語義詳解
第107講-Spark Streaming:架構原理深度剖析
第108講-Spark Streaming:StreamingContext初始化與Receiver啟動原理剖析與源碼分析
第109講-Spark Streaming:數據接收原理剖析與源碼分析
第110講-Spark Streaming:數據處理原理剖析與源碼分析(block與batch關系透徹解析)
第111講-Spark Streaming:性能調優詳解
第112講-課程總結(學到了什么?達到了什么水平?)
 
Spark開發進階(升級內容!)
 
一、Scala編程進階: 
第113講-Scala編程進階:Scaladoc的使用
第114講-Scala編程進階:跳出循環語句的3種方法
第115講-Scala編程進階:多維數組、Java數組與Scala數組的隱式轉換
第116講-Scala編程進階:Tuple拉鏈操作、Java Map與Scala Map的隱式轉換
第117講-Scala編程進階:擴大內部類作用域的2種方法、內部類獲取外部類引用
第118講-Scala編程進階:package與import實戰詳解
第119講-Scala編程進階:重寫field的提前定義、Scala繼承層級、對象相等性
第120講-Scala編程進階:文件操作實戰詳解
第121講-Scala編程進階:偏函數實戰詳解
第122講-Scala編程進階:執行外部命令
第123講-Scala編程進階:正則表達式支持
第124講-Scala編程進階:提取器實戰詳解
第125講-Scala編程進階:樣例類的提取器實戰詳解
第126講-Scala編程進階:只有一個參數的提取器
第127講-Scala編程進階:注解實戰詳解
第128講-Scala編程進階:常用注解介紹
第129講-Scala編程進階:XML基礎操作實戰詳解
第130講-Scala編程進階:XML中嵌入scala代碼
第131講-Scala編程進階:XML修改元素實戰詳解
第132講-Scala編程進階:XML加載和寫入外部文檔
第133講-Scala編程進階:集合元素操作
第134講-Scala編程進階:集合的常用操作方法
第135講-Scala編程進階:map、flatMap、collect、foreach實戰詳解
第136講-Scala編程進階:reduce和fold實戰詳解
 
二、Spark核心編程進階: 
第137講-環境搭建-CentOS 6.4虛擬機安裝
第138講-環境搭建-Hadoop 2.5偽分布式集群搭建
第139講-環境搭建-Spark 1.5偽分布式集群搭建
第140講-第一次課程升級大綱介紹以及要點說明
第141講-Spark核心編程進階-Spark集群架構概覽
第142講-Spark核心編程進階-Spark集群架構的幾點特別說明
第143講-Spark核心編程進階-Spark的核心術語講解
第144講-Spark核心編程進階-Spark Standalone集群架構
第145講-Spark核心編程進階-單獨啟動master和worker腳本詳解
第146講-Spark核心編程進階-實驗:單獨啟動master和worker進程以及啟動日志查看
第147講-Spark核心編程進階-worker節點配置以及spark-evn.sh參數詳解
第148講-Spark核心編程進階-實驗:local模式提交spark作業
第149講-Spark核心編程進階-實驗:standalone client模式提交spark作業
第150講-Spark核心編程進階-實驗:standalone cluster模式提交spark作業
第151講-Spark核心編程進階-standalone模式下的多作業資源調度
第152講-Spark核心編程進階-standalone模式下的作業監控與日志記錄
第153講-Spark核心編程進階-實驗:運行中作業監控以及手工打印日志
第154講-Spark核心編程進階-yarn-client模式原理講解
第155講-Spark核心編程進階-yarn-cluster模式原理講解
第156講-Spark核心編程進階-實驗:yarn-client模式提交spark作業
第157講-Spark核心編程進階-yarn模式下日志查看詳解
第158講-Spark核心編程進階-yarn模式相關參數詳解
第159講-Spark核心編程進階-spark工程打包以及spark-submit詳解
第160講-Spark核心編程進階-spark-submit示例以及基礎參數講解
第161講-Spark核心編程進階-實驗:spark-submit簡單版本提交spark作業
第162講-Spark核心編程進階-實驗:spark-submit給main類傳遞參數
第163講-Spark核心編程進階-spark-submit多個示例以及常用參數詳解
第164講-Spark核心編程進階-SparkConf、spark-submit以及spark-defaults.conf
第165講-Spark核心編程進階-spark-submit配置第三方依賴
第166講-Spark核心編程進階-spark算子的閉包原理詳解
第167講-Spark核心編程進階-實驗:對閉包變量進行累加操作的無效現象
第168講-Spark核心編程進階-實驗:在算子內打印數據的無法看到現象
第169講-Spark核心編程進階-mapPartitions以及學生成績查詢案例
第170講-Spark核心編程進階-mapPartitionsWithIndex以開學分班案例
第171講-Spark核心編程進階-sample以及公司年會抽獎案例
第172講-Spark核心編程進階-union以及公司部門合并案例
第173講-Spark核心編程進階-intersection以及公司跨多項目人員查詢案例
第174講-Spark核心編程進階-distinct以及網站uv統計案例
第175講-Spark核心編程進階-aggregateByKey以及單詞計數案例
第176講-Spark核心編程進階-cartesian以及服裝搭配案例
第177講-Spark核心編程進階-coalesce以及公司部門整合案例
第178講-Spark核心編程進階-repartition以及公司新增部門案例
第179講-Spark核心編程進階-takeSampled以及公司年會抽獎案例
第180講-Spark核心編程進階-shuffle操作原理詳解
第181講-Spark核心編程進階-shuffle操作過程中進行數據排序
第182講-Spark核心編程進階-會觸發shuffle操作的算子
第183講-Spark核心編程進階-shuffle操作對性能消耗的原理詳解
第184講-Spark核心編程進階-shuffle操作所有相關參數詳解以及性能調優
第185講-Spark核心編程進階-綜合案例1:移動端app訪問流量日志分析
第186講-Spark核心編程進階-綜合案例1:日志文件格式分析
第187講-Spark核心編程進階-綜合案例1:讀取日志文件并創建RDD
第188講-Spark核心編程進階-綜合案例1:創建自定義的可序列化類
第189講-Spark核心編程進階-綜合案例1:將RDD映射為key-value格式
第190講-Spark核心編程進階-綜合案例1:基于deviceID進行聚合操作
第191講-Spark核心編程進階-綜合案例1:自定義二次排序key類
第192講-Spark核心編程進階-綜合案例1:將二次排序key映射為RDD的key
第193講-Spark核心編程進階-綜合案例1:執行二次排序以及獲取top10數據
第194講-Spark核心編程進階-綜合案例1:程序運行測試以及代碼調試
第195講-Spark核心編程進階-部署第二臺CentOS機器
第196講-Spark核心編程進階-部署第二個Hadoop節點
第197講-Spark核心編程進階-將第二個Hadoop節點動態加入集群
第198講-Spark核心編程進階-使用yarn-client和yarn-cluster提交spark作業
 
三、Spark內核原理進階: 
第199講-Spark內核原理進階-union算子內部實現原理剖析
第200講-Spark內核原理進階-groupByKey算子內部實現原理剖析
第201講-Spark內核原理進階-reduceByKey算子內部實現原理剖析
第202講-Spark內核原理進階-distinct算子內部實現原理剖析
第203講-Spark內核原理進階-cogroup算子內部實現原理剖析
第204講-Spark內核原理進階-intersection算子內部實現原理剖析
第205講-Spark內核原理進階-join算子內部實現原理剖析
第206講-Spark內核原理進階-sortByKey算子內部實現原理剖析
第207講-Spark內核原理進階-cartesian算子內部實現原理剖析
第208講-Spark內核原理進階-coalesce算子內部實現原理剖析
第209講-Spark內核原理進階-repartition算子內部實現原理剖析
 
四、Spark SQL實戰開發進階: 
第210講-Spark SQL實戰開發進階-Hive 0.13安裝與測試
第211講-Spark SQL實戰開發進階-Thrift JDBC、ODBC Server
第212講-Spark SQL實戰開發進階-CLI命令行使用
第213講-Spark SQL實戰開發進階-綜合案例2:新聞網站關鍵指標離線統計
第214講-Spark SQL實戰開發進階-綜合案例2:頁面pv統計以及排序和企業級項目開發流程說明
第215講-Spark SQL實戰開發進階-綜合案例2:頁面uv統計以及排序和count(distinct) bug說明
第216講-Spark SQL實戰開發進階-綜合案例2:新用戶注冊比例統計
第217講-Spark SQL實戰開發進階-綜合案例2:用戶跳出率統計
第218講-Spark SQL實戰開發進階-綜合案例2:版塊熱度排行榜統計
第219講-Spark SQL實戰開發進階-綜合案例2:測試與調試
 
五、Spark Streaming實戰開發進階: 
第220講-Spark Streaming實戰開發進階-flume安裝
第221講-Spark Streaming實戰開發進階-接收flume實時數據流-flume風格的基于push的方式
第222講-Spark Streaming實戰開發進階-接收flume實時數據流-自定義sink的基于poll的方式
第223講-Spark Streaming實戰開發進階-高階技術之自定義Receiver
第224講-Spark Streaming實戰開發進階-kafka安裝
第225講-Spark Streaming實戰開發進階-綜合案例3:新聞網站關鍵指標實時統計
第226講-Spark Streaming實戰開發進階-綜合案例3:頁面pv實時統計
第227講-Spark Streaming實戰開發進階-綜合案例3:頁面uv實時統計
第228講-Spark Streaming實戰開發進階-綜合案例3:注冊用戶數實時統計
第229講-Spark Streaming實戰開發進階-綜合案例3:用戶跳出量實時統計
第230講-Spark Streaming實戰開發進階-綜合案例3:版塊pv實時統計
 
六、Spark運維管理進階: 
第231講-Spark運維管理進階-基于ZooKeeper實現HA高可用性以及自動主備切換
第232講-Spark運維管理進階-實驗:基于ZooKeeper實現HA高可用性以及自動主備切換
第233講-Spark運維管理進階-基于文件系統實現HA高可用性以及手動主備切換
第234講-Spark運維管理進階-實驗:基于文件系統實現HA高可用性以及手動主備切換
第235講-Spark運維管理進階-作業監控-實驗:通過Spark Web UI進行作業監控
第236講-Spark運維管理進階-作業監控-實驗:standalone模式下查看歷史作業的Web UI
第237講-Spark運維管理進階-作業監控-實驗:啟動HistoryServer查看歷史作業的Web UI
第238講-Spark運維管理進階-作業監控-實驗:使用curl+REST API進行作業監控
第239講-Spark運維管理進階-作業監控-實驗:Spark Metrics系統以及自定義Metrics Sink
第240講-Spark運維管理進階-作業資源調度-靜態資源分配原理
第241講-Spark運維管理進階-作業資源調度-動態資源分配原理
第242講-Spark運維管理進階-作業資源調度-實驗:standalone模式下使用動態資源分配
第243講-Spark運維管理進階-作業資源調度-實驗:yarn模式下使用動態資源分配
第244講-Spark運維管理進階-作業資源調度-多個job資源調度原理
第245講-Spark運維管理進階-作業資源調度-Fair Scheduler使用詳解
 

Spark2.0(升級內容!)

 

七、Spark 2.0深入淺出
第246講-Spark 2.0-新特性介紹
第247講-Spark 2.0-新特性介紹-易用性:標準化SQL支持以及更合理的API
第248講-Spark 2.0-新特性介紹-高性能:讓Spark作為編譯器來運行
第249講-Spark 2.0-新特性介紹-智能化:Structured Streaming介紹
第250講-Spark 2.0-新特性介紹-Spark 1.x的Volcano Iterator Model技術缺陷分析
第251講-Spark 2.0-新特性介紹-whole-stage code generation技術和vectorization技術
第252講-Spark 2.0-Spark 2.x與1.x對比以及分析、學習建議以及使用建議
第253講-Spark 2.0-課程環境搭建:虛擬機、CentOS、Hadoop、Spark等
第254講-Spark 2.0-開發環境搭建:Eclipse+Maven+Scala+Spark
第255講-Spark 2.0-SparkSession、Dataframe、Dataset開發入門
第256講-Spark 2.0-Dataset開發詳解-初步體驗untypd操作案例:計算部門平均年齡與薪資
第257講-Spark 2.0-Dataset開發詳解-action操作:collect、count、foreach、reduce等
第258講-Spark 2.0-Dataset開發詳解-基礎操作:持久化、臨時視圖、ds與df互轉換、寫數據等
第259講-Spark 2.0-Dataset開發詳解-typed操作:coalesce、repartition
第260講-Spark 2.0-Dataset開發詳解-typed操作:distinct、dropDuplicates
第261講-Spark 2.0-Dataset開發詳解-typed操作:except、filter、intersect
第262講-Spark 2.0-Dataset開發詳解-typed操作:map、flatMap、mapPartitions
第263講-Spark 2.0-Dataset開發詳解-typed操作:joinWith
第264講-Spark 2.0-Dataset開發詳解-typed操作:sort
第265講-Spark 2.0-Dataset開發詳解-typed操作:randomSplit、sample
第266講-Spark 2.0-Dataset開發詳解-untyped操作:select、where、groupBy、agg、col、join
第267講-Spark 2.0-Dataset開發詳解-聚合函數:avg、sum、max、min、count、countDistinct
第268講-Spark 2.0-Dataset開發詳解-聚合函數:collect_list、collect_set
第269講-Spark 2.0-Dataset開發詳解-其他常用函數
第270講-Spark 2.0-Structured Streaming:深入淺出的介紹
第271講-Spark 2.0-Structured Streaming:wordcount入門案例
第272講-Spark 2.0-Structured Streaming:編程模型
第273講-Spark 2.0-Structured Streaming:創建流式的dataset和dataframe
第274講-Spark 2.0-Structured Streaming:對流式的dataset和dataframe執行計算操作
第275講-Spark 2.0-Structured Streaming:output mode、sink以及foreach sink詳解
第276講-Spark 2.0-Structured Streaming:管理streaming query
第277講-Spark 2.0-Structured Streaming:基于checkpoint的容錯機制
第278講-Spark面試、簡歷中的項目編寫以及實際生產環境的集群和資源配置等
 
 
 
 
 
 
 
 
 
目標一. 熟練掌握Scala編程語言,能夠用Scala開發Spark程序,并能看懂Spark源碼
 
目標二. 從零開始手動搭建Hadoop集群、Spark集群、Hive、ZooKeeper和kafka集群
 
目標三. 熟練掌握Spark核心編程,可以開發各種復雜的大數據離線批處理程序
 
目標四. 透徹理解Spark內核源碼,可以在線上程序報錯時進行故障排查,根據異常堆棧信息閱讀對應源碼解決線上故障
 
目標五. 能夠對常見的Spark性能問題,使用各種技術進行性能調優
 
目標六. 熟練使用Spark SQL開發大數據交互式查詢程序,掌握常見性能優化技術
 
目標七. 熟練使用Spark Streaming開發大數據實時計算程序,理解原理和源碼,并能進行性能調優 
 
目標八. 熟練掌握Spark集群的運維和管理:包括高可用性集群的部署、HistoryServer部署、自定義Metrics、動態資源分配等
 
目標九. 熟悉Spark 1.3、1.5、2.0等幾個重要版本的演變發展,以及核心功能特性,包括基本的原理
 
 
亮點一、使用Spark 1.3.0 / Spark 1.5.1+Hadoop 2.4.1組合,Spark深入講解劃時代版本1.3.0,并講解新版本1.5.1,技術絕對處于行業的前沿。.
 
亮點二、代碼驅動講解所有技術點,現場畫圖講解所有原理和概念,既能夠動手實戰,又能夠透徹理解.
 
亮點三、所有功能點均按照官方大綱來,所有技術點、功能點,基礎功能和高級特性,全部講解到,全面覆蓋。.
 
亮點四、全程案例實戰,Scala包含數十個趣味案例,Spark中涉及數個從實際企業需求場景抽取出來的復雜案例.
 
亮點五、幾乎所有Spark代碼實戰、案例實戰,都提供了Java和Scala兩個版本的代碼!
 
亮點六、大量獨家的高級知識點和技術點,包括Spark二次排序、分組取topn,Spark SQL內置函數和開窗函數,Spark Streaming Driver高可用方案等等。
 
亮點七、現場畫圖講解源碼,深入剖析80%的核心內核源碼,給源碼進行大量注釋,深入細致的源碼講解。
 
亮點八、全面講解Spark、Spark SQL和Spark Streaming的性能優化技術,結合現場畫圖講解性能調優,并深入講解Shuffle性能調優。
 
亮點九、深入講解Spark集群的運維和管理,包括Spark高可用集群部署、動態資源分配以及作業資源調度等
 
亮點十、深入淺出講解Spark 2.0新版本的新特性,包括第二代Tungsten引擎的原理,以及Dataset開發、Structured Streaming下一代持續計算引擎的講解
 
 
1.課程針對人群
本課程針對J2EE開發工程師,如果有扎實的Java基礎,學習本課程是最最合適的,可以一站式精通Spark開發,實現J2EE工程師到大數據Spark工程師的華麗轉型;針對Hadoop工程師,可以在掌握Hadoop大數據開發技術的基礎上,精通Spark大數據開發,瞬間提升自己的職業含金量和技術能力;針對有java基礎、hadoop基礎的在校大學生、應屆生以及畢業不久的初級工程師,精通Spark開發后,可以順利實現自己職場的升華。   
 
2.我該怎么學,如何才能學好這門課程,給些建議。
2.1、時間上的安排建議
本課程共112講,如果您時間上充分,建議以每天2-3講的進度往前學習。如果時間特別充裕,建議將重點理論知識的相關視頻看2~3遍。 
 
2.2、學習要求
學習的時候, 可以要自己邊看邊做筆記,建議看視頻的同時,電腦上打開一個記事本即可。所有理論知識的剖析和講解一定要反復思考和理解,如果不理解,建議看2~3遍;所有代碼實戰開發和案例實戰開發,全部都要求手動敲一遍代碼;對于源碼剖析的講解,建議自己下載源碼,根據課程思路自己反復看幾遍。
2.3、講師建議
1.最好看完視頻之后,拋開視頻,獨立自己去把上課中的示例寫一遍,看自己是否理解,如果不正確,可以回過頭看再看下視頻,如果反復,達到真正理解和熟練掌握的目的。
2.對于案例實戰部分,一定要自己親自動手做一遍,不要滿足聽完就OK了
3. 建議一般聽視頻,一般拿個紙和筆,做一些記錄和筆記,這是一種非常好的學習習慣。
4. 一定不要過于依賴視頻,要學會看API和使用百度,學會思考,學會舉一反三
5. 最后祝您學有所成
 
 
課程是屬于某個特定的專業技術,掌握該技術后,你可以從事以下職位的相關工作
1.Spark大數據開發工程師
2.Spark大數據平臺開發工程師
 
 
 

 

广西快三历史遗漏