Databricks Tips 1 – Functions format_columns_name() and pandas_to_spark()

PessoALL, decidi criar essa série de posts rápidos com alguns quick tips relacionados a funções, códigos de otimização e ou facilitação em se tratando de pipelines criados no Databricks. Nesse primeiro post disponibilizarei duas funções que tenho muito usado nos projetos que tenho desenvolvido usando o Databricks. São elas: format_columns_name(). - Usada para modificar os …

Continue lendo Databricks Tips 1 – Functions format_columns_name() and pandas_to_spark()

Cloud Data Engineer Certifications | Microsoft Azure and Google Cloud

PessoALL, nesses últimos quase 3 anos tenho me dedicado intensamente no desenvolvimento das skills e conhecimentos necessários para me tornar um Data Engineer. A primeira pergunta que talvez você me faça é porque eu, como arquiteto de BI, me movimentaria tanto e tão bruscamente para realizar a rotação dentro do universo de Data Analytics. A …

Continue lendo Cloud Data Engineer Certifications | Microsoft Azure and Google Cloud

Most Valuable Professional – Sonho Realizado

PessoALL, este post não é técnico. Este post, assim como o post que fiz quando iniciei no time de Data Insights da Microsoft, é puramente de agradecimento. Segundo a Microsoft os "Os Most Valuable Professionals da Microsoft, ou MVPs, são especialistas em tecnologia que compartilham apaixonadamente seus conhecimentos com a comunidade. Eles estão sempre à …

Continue lendo Most Valuable Professional – Sonho Realizado

Presto – Distributed Query Engine for Big Data Environment | Connectors

Pessoal, no post anterior da série sobre Starburst Presto foi você aprendeu sobre como realizar a instalação do Starburst Presto dentro de um cluster de HDInsight em ambiente Azure Cloud. Neste post você aprenderá sobre como configurar novas conexões para que seja possível realizar integrações de dados de forma fácil e simples sem a necessidade …

Continue lendo Presto – Distributed Query Engine for Big Data Environment | Connectors

Presto – Distributed Query Engine for Big Data Environment | Azure Cloud

Pessoal, no post anterior da série foi possível descobrir em um passo a passo como realizar a configuração de um cluster de Starburst Presto em ambiente On-Premises. Neste post você aprenderá como realizar a mesma configuração em Azure Cloud dentro de uma infraestrutura de PaaS (Platform as a Services) do HDInsight. Platform as a Services …

Continue lendo Presto – Distributed Query Engine for Big Data Environment | Azure Cloud

Presto – Distributed Query Engine for Big Data Environment | On-Premises Installation

Pessoal, no post anterior da série foi possível entender sobre os conceitos por detrás do Presto e também como funciona a arquitetura de um cluster da solução. Neste você entenderá o que é a Starburst e aprenderá a instalar a a ferramenta em ambiente On-Premises. O Presto foi criado, como já vimos no primeiro post …

Continue lendo Presto – Distributed Query Engine for Big Data Environment | On-Premises Installation

Presto – Distributed Query Engine for Big Data Environment | Concepts

PessoALL, no post anterior da série conhecemos um pouco sobre o que é o Presto e, teoricamente, onde podemos usá-lo em um ambiente de Big Data. Neste post iremos adentrar em alguns conceitos que são necessários para que consigamos instalá-lo, usá-lo e configurá-lo. Aqui, Nesta etapa não falaremos somente de conceitos, entenderemos também sobre a …

Continue lendo Presto – Distributed Query Engine for Big Data Environment | Concepts