HADOOP DEVELOPER WITH SPARK
Syllabus Overview
Saat ini Industri banyak
menggunakan Hadoop secara ekstensif untuk menganalisis kumpulan data yang mereka
miliki , alasannya adalah bahwa framework
Hadoop bekerja atas dasar pada model pemrograman sederhana (MapReduce) dan
memungkinkan solusi komputasi yang terukur, fleksibel, toleransi kesalahan dan
hemat biaya. Disini, yang menjadi perhatian utama adalah menjaga kecepatan
dalam mengolah dataset besar dalam hal waktu tunggu antara Query dan waktu tunggu untuk menjalankan program.
Spark diperkenalkan
oleh Apache Software Foundation
untuk mempercepat proses komputasi komputasi Hadoop
Tidak seperti yang
kebanyakan orang kira bahwa Spark bukanlah versi modifikasi dari Hadoop dan
sebenarnya juga tidak bergantung pada Hadoop karena memiliki manajemen cluster
sendiri. Hadoop hanyalah salah bagian dalam implementasi Spark.
Spark menggunakan
Hadoop dengan dua cara – Pertama adalah penyimpanan dan yang kedua adalah
pemrosesan. Namun karena Spark memiliki perhitungan manajemen cluster sendiri
maka Spark menggunakan Hadoop lebih kepada untuk tujuan penyimpanan saja.
Class Type : Training
Duration : 4 Days (09.00 – 17.00)
Topics
include:
Introduction to Hadoop
and the Hadoop Ecosystem
·
Problems
with Traditional Large-scale Systems
·
Hadoop!
·
The
Hadoop EcoSystem
Hadoop Architecture and HDFS
·
Distributed
Processing on a Cluster
·
Storage:
HDFS Architecture
·
Storage:
Using HDFS
·
Resource
Management: YARN Architecture
·
Resource
Management: Working with YARN
Importing Relational Data with Apache Sqoop
·
Sqoop
Overview
·
Basic
Imports and Exports
·
Limiting
Results
·
Improving
Sqoop’s Performance
·
Sqoop
2
Introduction to Impala and Hive
·
Introduction
to Impala and Hive
·
Why
Use Impala and Hive?
·
Comparing
Hive to Traditional Databases
·
Hive
Use Cases
Modeling and Managing Data with Impala and Hive
·
Data
Storage Overview
·
Creating
Databases and Tables
·
Loading
Data into Tables
·
HCatalog
·
Impala
Metadata Caching
Data Formats
·
Selecting
a File Format
·
Hadoop
Tool Support for File Formats
·
Avro
Schemas
·
Using
Avro with Hive and Sqoop
·
Avro
Schema Evolution
·
Compression
Data Partitioning
·
Partitioning
Overview
·
Partitioning
in Impala and Hive
Capturing Data with Apache Flume
·
What
is Apache Flume?
·
Basic
Flume Architecture
·
Flume
Sources
·
Flume
Sinks
·
Flume
Channels
·
Flume
Configuration
Spark Basics
·
What
is Apache Spark?
·
Using
the Spark Shell
·
RDDs
(Resilient Distributed Datasets)
·
Functional
Programming in Spark
Working with RDDs in Spark
·
A
Closer Look at RDDs
·
Key-Value
Pair RDDs
·
MapReduce
·
Other
Pair RDD Operations
Writing and Deploying Spark Applications
·
Spark
Applications vs. Spark Shell
·
Creating
the SparkContext
·
Building
a Spark Application (Scala and Java)
·
Running
a Spark Application
·
The
Spark Application Web UI
·
Configuring
Spark Properties
·
Logging
Parallel Programming with Spark
·
Review:
Spark on a Cluster
·
RDD
Partitions
·
Partitioning
of File-based RDDs
·
HDFS
and Data Locality
·
Executing
Parallel Operations
·
Stages
and Tasks
Spark Caching and Persistence
·
RDD
Lineage
·
Caching
Overview
·
Distributed
Persistence
Common Patterns in Spark Data Processing
·
Common
Spark Use Cases
·
Iterative
Algorithms in Spark
·
Graph
Processing and Analysis
·
Machine
Learning
·
Example:
k-means
Preview: Spark SQL
·
Spark
SQL and the SQL Context
·
Creating
DataFrames
·
Transforming
and Querying DataFrames
·
Saving
DataFrames
·
Comparing
Spark SQL with Impala
Participants
: (Hadoop Developer , Big Data Analyst,
IT Developer, DBA )
Speaker :
Purnama Academy Trainer
#trainingbigdata #hadoop #sparkhadoop
#silabustraining #tempattraining #pelatihan
#jakarta #bandung #bali #surabaya
#makasar #jadwaltraining