Rating 4.83 out of 5 (99 ratings in Udemy)
What you'll learn
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema …
Rating 4.83 out of 5 (99 ratings in Udemy)
What you'll learn
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
- Entendo sobre Cluster
- Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
- Executando scripts multilinguagens
- Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
- Construindo na versão community Databricks
- Trabalhando com a biblioteca dbutils Python
- Integrando o Databricks ao Power BI
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
- Elasticsearch sobre o seu mecanismo criado para análise de dados e busca
- Entender como é realizada a combinação de muitos tipos de buscas — estruturadas, não estruturadas
- Compreender Elasticsearch usa APIs RESTful e JSON padrão
- Aprendizado sobre Elasticsearch, Logstash e Kibana
- Elasticsearch banco de dados NoSQL
- Logstash ferramenta para ingestão de dados
- Kibana ferramenta para criação de visualização de dados e Dashboards
- Canvas utilizado para criação de infográficos, documentos e projetos gráficos com os dados
- Compreender sobre como são armazenados os documentos
- Entender a estrutura JSON de armazenamento
- Entender sobre índices, tipos de documentos, documentos e campos
- Entendimento do que são shards, conhecimento sobre partição de índices, conhecimento sobre réplica de shards
- O que é um NÓ
- Como utilizar e o que significa um Request Body
- Como funciona a busca URI
- Trabalhando com as aplicações Discover, Viazualize
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
- Entendo sobre o gerenciamento e a automatização do fluxo de dados
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
- O que é Flow File
- O que é um Processor
- O que é um Fluxo de Dados
- O que é uma conexão
- O que é um grupo de processor
- Aprendendo sobre a barra de componentes
- Aprendendo sobre a barra de controle navegação
- Aprendendo sobre a barra de operação
- Desenvolvimento de diversos fluxos de dados
- Extensões: Putfile, Getfile, ExtractText, SplitText
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
- Extensões: MergeContent, ReplaceText, CompressContent
- Uso de Input Port, Funil e Process Group
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
Description
A Super Academia Engenharia de Dados é um super projeto que reúne as ferramentas mais utilizadas para quem deseja ser um engenheiro de dados. Aqui será possível aprender detalhes sobre temas que estão sendo utilizados nas grandes empresas de todo o mundo. Você aprenderá e discutirá sobre CLUSTER, SPARK, PYTHON, R, SCALA, SQL, NÓS, CONFIGURAÇÃO E INSTALAÇÃO DE SPARK, ELASTICSEARCH, KIBANA, LOGSTASH, APACHEHOP e muito mais.
O nosso treinamento é completo e conta com uma gama grande de exercícios, vários scripts para prática e apostila. A ideia é que você tenha um book de atividades que capacite você e o faça entender termos e assuntos amplamente vistos no mercado de trabalho.
Então vamos lá, começaremos pelo espetacular APACHEHOP, falou em APACHE é coisa muito boa, aqui o engenheiro de dados realmente saberá o que fazer, é um canivete suiço em suas mãos, dentre as principias funcionalidades está a integração e tratamento de dados. A ferramenta é 100% visual, isso mesmo, sem código, você montará os chamados pipelines e workflows para construção de projetos que envolvam (operações de banco de dados, higienização de bases, incremento e retirada de campos, ajustes em conteúdos, preparação de jobs de carga, dentre outras tarefas).
Depois iremos mergulhar no nosso DATABRICKS, um fabuloso ecossistema na nuvem, que reúne tudo que você precisa para analisar dados.
Você aprenderá a criar um cluster para execução dos seus dados, entenderá sua configuração, aprenderá a criar scripts em linguagens como R, SCALA e SQL, construirá gráficos e dashboards, tudo isso em um mesmo notebook de atividades, isso mesmo, o DATABRICKS é uma das poucas ferramentas de mercado que fazem multicodificação.
Depois entraremos no mundo do SPARK, você instalará do zero o SPARK e suas aplicações e logo em seguida partirá para a construção de scripts em PySpark, tudo muito direto e hands on. Você aprenderá conceitos novos sobre coleção de dados em RDD e DATAFRAME em ambientes distribuídos. É uma das linguagens mais utilizadas no momento.
Já com uma gama muito grande de conhecimento sobre o mundo SPARK e DATABRICKS, vamos iniciar nos projetos de ingestão de dados com o uso do NiFi, produto que trabalha na construção de fluxo de dados. É uma ferramenta múltipla, com grande liberdade para que você construa o que precisa e deseja, é aqui que os pipelines são feitos e você poderá entender como o streaming trabalha.
Ao final vamos conhecer o ambiente do ELASTICSEARCH, um colossal ecossistema que reuni ferramentas de ingestão de dados (LOGSTASH), ferramentas de manipulação de dados (DSL), ferramentas de visualização de dados (KIBANA) e tudo isso trabalhando em um banco de dados NoSQL, não é demais!
A Super Academia Engenharia de Dados tem ainda muito mais, exercícios diversos, apostila com comandos, uma séria de scripts que preparam você para entender este mundo BIGDATA.
Então venha hoje mesmo e comece seu treinamento, estamos lhe esperando.
Paid
Self paced
Intermediate Level
Portuguese (Brazil)
1080
Rating 4.83 out of 5 (99 ratings in Udemy)
Go to the Course