Cloud Data Engineer Certifications | Microsoft Azure and Google Cloud

PessoALL, nesses últimos quase 3 anos tenho me dedicado intensamente no desenvolvimento das skills e conhecimentos necessários para me tornar um Data Engineer.

A primeira pergunta que talvez você me faça é porque eu, como arquiteto de BI, me movimentaria tanto e tão bruscamente para realizar a rotação dentro do universo de Data Analytics. A resposta é simples: o universo de TI evolui e, se eu permanecer no mundo confortável, rapidamente ficarei para trás.

Atualmente, mais de 98% dos dados gerados são não-estruturados. Isso quer dizer que a forma tradicional que usamos para buscar, transformar e inserir as informações a serem utilizados (em sua maioria em formato estruturado ou semi-estruturado) tendem a não mais atender às necessidades de negócio dentro do mundo corporativo das grandes empresas.

Um outro ponto importante está diretamente relacionado a onde será realizado o deploy dessas solução. é importante ressaltar que ambientes de Big Data somente tem sentido de forem implementados em uma arquitetura de processamento/armazenamento de crescimento horizontal.

O erro de virtualizar o ambiente de Big Data em máquinas verticais é comum, principalmente aqui no Brasil. Sem o ambiente distribuído, os principais pontos de interesse da arquitetura, tais quais: performance de processamento, redundância de armazenamento, disponibilidade de serviço dentre outros não serão atendidos.

Você certamente ouviu falar sobre algumas das tecnologias utilizadas para conseguir atender a essas necessidades. São elas: HDFS, Hadoop, Hive, Pig, Spark, Kafka, Airflow, NiFi, dentre outras. A maioria delas permite uma implementação On-Premises e em Cloud Computing. O ponto principal é que desenvolver ambientes distribuídos genuinamente é complexo e custa caro.

As vezes sou abordado em palestras e cursos sobre o porquê de se usar nuvem no desenvolvimento desses projetos e, algumas pessoas inclusive questionam sobre o valor da implementação. O que sempre respondo é que a ida ou não ida para a cloud em ambientes de Big Data está relacionada a dois pontos bem específicos e que se tornam geralmente um impeditivo:

  1. A sua empresa ou organização NÃO PODE ir para nuvem.
  2. A sua empresa ou organização já possui um ambiente e infraestrutura disponível para desenvolvimento das dessas demandas.

No primeiro caso não há escolha. O ambiente, principalmente devido a questões legais, PRECISA ser criado localmente. Já no segundo caso, não há sentido de realizar a migração e/ou swap porque o investimento relacionado ao Total Cost of Ownership (TCO) já foi realizado. A utilização da Cloud nesse caso levaria a um aumento do TCO e, por sua vez, um decréscimo do Return on Investiment (ROI).

Se nenhuma das duas situações anteriores for verdadeira, o não uso da Cloud levará a um TCO alto e consequentemente um ROI baixo.

Não irei entrar em detalhes mas deixarei apenas uma das situações as quais explica por si só a importância do uso de nuvem em projetos desse tipo: A Elasticidade.

Se necessário um aumento de infraestrutura para momentos específicos do negócio, em ambiente local, o investimento feito para o crescimento de infra não pode ser desfeito. Já em ambientes de Cloud Computing, O crescimento é realizado esporadicamente, “sem limites de tamanho” e somente quando necessário (elasticamente). Isso reduz drasticamente o cálculo de TCO.


Explicado brevemente o que é a engenharia de dados e os benefícios no uso de Cloud Computing para isso, falemos agora sobre o que importa: As certificações.

Existem 3 principais Clouds no mundo para atender aos requisitos de desenvolvimento de projetos de Big Data: Microsoft Azure, Google Cloud Platform (GCP) e Amazon Web Services (AWS).

Cada uma delas possui inúmeros serviços disponíveis para cada uma das etapas (ELT, Getting Stream Data, Storage, Processing Batch and Stream Data e Data Analytical Storage) de desenvolvimento de Pipelines dentro dos conceitos de arquitetura de Big Data (Lambda e Kappa).

Certificar-se nessas tecnologias relacionadas às Clouds permitirá a você demonstrar para as empresas que você está preparado tecnologicamente para os desafios que existem dentro do universo de Engenharia de dados.

Mas por que em mais de uma? Posso responder em duas etapas de forma objetiva:

  1. As empresas costumam construir ambientes híbridos para, tanto absorver o melhor de cada cloud, quanto para evitar o Lock-In de tecnologias.
  2. Porque somente conseguirei entender os principais pontos positivos do Azure (por exemplo) para direcionar o desenvolvimento de soluções caso entenda os pontos fortes de suas concorrentes. Isso é um ponto básico abordado em qualquer curso de vendas. (Observe essa vaga da Microsoft abaixo para Cloud Solution Architect que pede conhecimentos em RedShift e BigQuery – os principais concorrentes do Azure SQL DW).


Antes de entrarmos definitivamente nas certificações, é importante entender também que, o trabalho de um engenheiro de dados é um pouco parecido com o trabalho de um arquiteto de bi no que diz respeito aos mais variados passos desenvolvidos de ponta a ponta até a entrega final.

Dentro da Engenharia de Dados temos:

  1. Data Storage – Corresponde à qual camada de armazenamento será utilizado de acordo com o tipo e formato de cada data específico com o qual estamos trabalhando.
    1. Se arquivos e/ ou dados não estruturados (independente do formato) usa-se um File System distribuído.
    2. Se dados estruturados e transacionais usa-se Um banco de dados transacional na nuvem.
    3. Se dados semi-estruturados com ou sem ACID usa-se bancos de dados NoSQL.
  2. ELT de Dados em Batch – Corresponde a etapa onde periodicamente, dados incrementais e massivos serão buscados de suas origens e armazenados dentro do Data Storage.
  3. Captura de Dados em Stream – Corresponde ao processo de captura em real-time/near real-time de dados em continuamente.
  4. Processamento de dados em Stream / Batch – Etapa onde os dados serão processados, agregados, limpos, deduplicados, etc para armazenamento na camada analítica.
  5. Data Analytical Storage – uma vez salvos os dados raw (crús) dentro do ambientes de Data Storage (Data Lake), essas informações são recebidas e tratadas pelos passos 2, 3 e 4 e depois armazenadas em uma outra camada usada para analytics – DW 2.0.

Para se tornar um Azure Data Engineer é necessário realizar duas provas. São elas:

Exam DP-200: Implementing an Azure Data Solution

“Candidatos que desejam ser aprovados nesse exame devem ser capazes de implementar soluções de dados que incluam provisionamento de serviços de armazenamento, ingestão de dados em streaming batch, transformação, implementação de politicas de retenção e segurança, também identificar e otimizar problemas de performance e acessos externos utilizando os serviços disponíveis no Azure.”

 

  • Duração: 2.5 horas.
  • Taxa de inscrição: US$ 100 (mais impostos, quando aplicável)
  • Idiomas: inglês, japonês, chines (simplificado) e coreano.
  • Pré-requisitos: nenhum.
  • Experiência recomendada: três anos ou mais de experiência no setor, incluindo mais de um ano em projeto e gerenciamento de soluções usando o Azure.

 

Exam DP-201: Designing an Azure Data Solution

“Este exame mede as habilidades técnicas de um data engineer em desenhar soluções de armazenamento, processamento de dados em batch streaming, além do desenho de soluções de segurança e compliance.”

  • Duração: 2.5 horas.
  • Taxa de inscrição: US$ 100 (mais impostos, quando aplicável)
  • Idiomas: inglês, japonês, chines (simplificado) e coreano.
  • Pré-requisitos: nenhum.
  • Experiência recomendada: três anos ou mais de experiência no setor, incluindo mais de um ano em projeto e gerenciamento de soluções usando o Azure.

Em ambos os exames são cobradas TODAS as skills necessárias para desenvolvimento de pipelines de Big Data em batch e em real-time:

Provisionamento e implementação de armazenamento de dados

  • Azure SQL Database
  • Azure SQL Data Warehouse
  • Azure CosmosDB
  • Azure Data Lake Storage Gen2
  • Azure Blob Storage

Ingestão e processamento de dados em Streaming e Batch

  • Azure Databricks
  • Azure Stream Analytics
  • Azure Event Hubs
  • Azure Datafactory

Criação de Pipelines e Schedules de Execução

  • Azure Datafactory

Monitoramento e otimização

  • Todos os serviços citados acima
  • Azure Monitor
  • Azure Log Analytics

Minha visão sobre os os dois exames é que apesar de serem os mesmos conteúdos abordados em ambas as provas, na DP-200 (Implementação) a prova é bem mais concentrada em bit-byte e how-to. Confesso que não gosto de provas assim. Mas, é necessário!

Já a DP-201 por sua vez, foi simplesmente FANTÁSTICA. A prova é desenhada para saber se você é capaz de, dada uma situação, desenhar o melhor cenário de arquitetura, com a melhor segurança, e menor custo, atendendo dessa forma ao requisito do negócio.

Usei para estudo única e exclusivamente o material GRATUITO disponibilizado pela Microsoft. É um learning path abordando TODOS os pontos cobrados.

Se você quiser saber mais sobre essas provas e ter mais origens de estudos, acesse o link do blog do meu amigo Sidney Siqueira. O cara simplesmente se dedicou MUITO para esse conteúdo e tem lá uma porção de dicas legais, as quais eu mesmo segui! 😀


Para se tornar um Google Cloud Professional Data Engineer é necessário a realização de apenas uma prova:

Professional Data Engineer 

Um Professional Data Engineer toma decisões com base na coleta, transformação e publicação de dados. Ele é responsável por projetar, criar, operacionalizar, proteger e monitorar sistemas de processamento de dados com ênfase particular em segurança, conformidade, escalonabilidade, eficiência, confiabilidade, flexibilidade e portabilidade. Além disso, esse profissional também deve ser capaz de aproveitar, implantar e treinar continuamente modelos de machine learning atuais.

 

  • Duração: 2 horas.
  • Taxa de inscrição: US$ 200 (mais impostos, quando aplicável)
  • Idiomas: inglês, japonês, espanhol e português.
  • Formato do exame: múltipla escolha e seleção múltipla, feito pessoalmente em uma central de testes.
  • Pré-requisitos: nenhum.
  • Experiência recomendada: três anos ou mais de experiência no setor, incluindo mais de um ano em projeto e gerenciamento de soluções usando o GCP.

Neste exame, assim como no da Microsoft, são cobradas ponta-a-ponta TODAS as skills de engenharia de dados e security dentro do universo de Google Cloud. Além disso, diferente da Microsoft que possui um path diferente de certificação, são cobrados conhecimentos de Machine Learning. Saiba mais sobre o exame.

Provisionamento e implementação de armazenamento de dados

  • Cloud Data Storage
  • Cloud SQL
  • Cloud Spanner
  • Cloud Datastore | Firestore
  • BigTable
  • BigQuery

Ingestão e processamento de dados em Streaming Batch

  • DataFlow
  • DataProp
  • DataPrep
  • Cloud Pub/Sub

Criação de Pipelines e Schedules de Execução

  • Cloud Composer

Monitoramento e otimização

  • StackDriver Monitoring
  • StackDriver Logging

Visualização de Dados 

  • Data Studio

Notebooks Interativos

  • Data Lab

Machine Learning

  • Principais diferenças de aprendizado supervisionado e não supervisionado
  • Conceitos de Deep Learning
  • Conceitos de Overfit e como se previnir
  • Tipos de Google Cloud Platforms para ML (TensorFlow e Pre-Trained Models)

Minha visão sobre esse exame é que ele, acompanhado da prova DP-201 e do exame de arquitetura de BI de 70-767 foram os 3 melhores e mais legais exames de certificação que já fiz.

Foram 50 questões e, dessas, 40 foram cases de uso de situações diferentes onde cada opção me dava uma forma de resolver o problema. Aqui não me foi cobrado bit-byte mas sim, conhecimento de arquitetura e features para conseguir implementar em cada caso a melhor, mais barata e mais simples solução que resolva o problema proposto.

Usei para estudo o curso do Matthew Ulasien da Linux Academy. São mais de 20 horas de aula [EM INGLES] focadas na prova.

Segui também alguns dos conselhos do no post How I Passed the Google Cloud Professional Data Engineer Certification Exam. Aqui ele cita absolutamente TUDO que você precisa saber sobre o exame e vários outros caminhos de estudo a seguir. 😀


Pessoal, espero ter conseguido contribuir. Se certifiquem. Invistam na sua carreira! Ninguém além de você poderá fazer isso pra você!

2 comentários sobre “Cloud Data Engineer Certifications | Microsoft Azure and Google Cloud

  1. Lauro

    Embora a AWS não tenha (ainda) uma certificação específica para BI, já tem a certificação de Big Data que poderia ter sido explorada no artigo.

    Eu tenho a AWS Practitioner e AWS Solutions Architect Associate e pretendo em alguns meses fazer a de SysOps, depois DevoOps Professional e depois a de Big Data. Mais tarde quem sabe investir na de data engineer do Google.

    Parabéns pelas certificações e pelo post.

    Lauro Ojeda

    Curtir

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s