PASS Chapter DF – Arquitetura Lambda na prática – On-Premise e Azure Cloud | Parte 1

PessoALL, ontem tive o prazer de estar no 43˚ encontro do SQL Server DF Data Group. Dessa vez fizemos uma imersão no passo a passo para criar um cenário de Big Data do zero.

Foram 3 horas de conversa onde passamos pelas principais configurações o observações para instalar e utilizar o Hortonworks HDP Confluent Kafka e após tudo configurado utilizar o Power BI para consumir os dados do Datalake utilizando o Apache Hive.

Nesse post irei disponibilizar os links de download de todas as ferramentas utilizadas e deixar o caminho do meu GitHub onde será possível realizar o download de todos os arquivos de configuração utilizados.


Começemos com a configuração do PostgreSQL, base Beltrano S/A e Wal2Json. AQUI será possível fazer o download versão 9.6 do PostgreSQL (Versão usada para demonstração na palestra). AQUI será possível realizar o download e configuração da Base de Dados OLTP da Beltrano S/A. E AQUI será possível seguir o passo a passo para instalação e configuração do Wal2Json.

Para instalação do Ambari e do pacote Hortonworks HDP basta seguir o passo a passo da própria documentação. Após a instalação do Ambari será possível realizar o deploy do cluster de HPD. Na apresentação usei apenas os serviços do Apache Zookeeper, Apache HDFS, Apache Tez, Apache YARN, Apache MapReduce2 e Apache Hive (Server e HCatalog).

Feito isso, é necessário realizar a instalação do Kafka da Confluent. Segue o Link para download e link para configurações necessárias. Se preferirem, podem usar os arquivos de configuração que estou disponibilizando no GitHub mais abaixo no link.

É necessário realizar o download e configuração do Kafka Connector para o Debezium. Essa ferramenta é utilizada para permitir a conexão entre o Kafka e a replicação dos dados do PostgreSQL através do Wal2Json. Para mais informações sobre O Debezium clique AQUI. Para realizar a instalação e configuração do Kafka Connector use o Confluent Hub.

O Confluent Hub é uma ferramenta do pacote da Confluent instalado a parte para realizar a configuração de conectores que não vem dentro do pacote inicial. Para instalação e configuração do Confluent Hub basta seguir o passo a passo localizado NESTE LINK. Para instalação e configuração do Confluent Debezium Source Connector Utilize ESSE LINK. recomendo que os jars baixados sejam movidos para um diretório dentro de $CONFLUENT_HOME/share/java.

O Starburst Presto não foi utilizado na arquitetura demonstrada mas, se você quiser saber mais sabre ele, acompanhe a SÉRIE de posts que está em construção. Nesta série iremos adentrar em TODOS os aspectos da configuração e instalação dessa ferramenta em ambiente On-Premises e Azure Cloud.

É necessário também a instalação e configuração do ODBC para o Apache Hive. Será através dele que o Power BI irá se conectar e utilizar os dados para criação dos reports. NESTE LINK será possível seguir o passo a passo para instalação e configuração.

Para instalação do Power BI Desktop basta clicar AQUI.

O link para o GitHub com todos os arquivos de configuração utilizados segue a seguir: https://github.com/arthurjosemberg/lambda-architecture.

Para download do .ppt da apresentação, clique na imagem abaixo:

Espero que vocês se divirtam tanto quanto eu!


Abaixo seguem algumas fotos do evento.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s