Presto – Distributed Query Engine for Big Data Environment | Azure Cloud

Pessoal, no post anterior da série foi possível descobrir em um passo a passo como realizar a configuração de um cluster de Starburst Presto em ambiente On-Premises.

Neste post você aprenderá como realizar a mesma configuração em Azure Cloud dentro de uma infraestrutura de PaaS (Platform as a Services) do HDInsight.


Platform as a Services (PaaS) é uma maneira de você fornecer um ambiente de infraestrutura mais simplificado eliminando vários passos de manutenção se comparado a um ambiente On-Premises / de Infrastructure as a Services  (IaaS).

A plataforma do HDInsight foi criada pela Microsoft visando exatamente essa simplificação que a ideologia de PaaS trás com a nuvem, porém mantendo a robustez das tecnologias de Big Data Open Source. Dessa forma, você paga apenas pela utilização das máquinas do Cluster.

Com o HDInsight você não terá somente a infraestrutura simplificada como também toda a instalação dos softwares utilizados.

Se você acompanhou o post anterior pôde perceber que não é tão simples configurar e manter um ambiente On-Premises para tecnologias de Big Data e, não somente isso, também deve ter percebido que não é barato. Ora, imagine um ambiente com um cluster de 10 nós de Presto. Em teoria, seriam 10 máquinas (virtualizadas ou não) com uma memória considerável. E é exatamente essa simplificação que o Azure fornece.


Para que você possa testar o ambiente é possível criar uma conta de Azure Gratuita usando a plataforma do MSDN. Basta acessar Esse Link e entrar com sua conta Microsoft. Aceite o termo e ative o seu crédito de azure.

Ao entrar no Portal do Azure você deverá ir em Create a Resource e pesquisar por HDInsight. Após isso irá selecionar a primeira opção.

Em baixo da tela após selecionar a opção deverá pressionar a opção Create. Em Basic Configurations você irá preencher conforme imagem abaixo:

Como você está, além do Starburst Presto, instalando toda a infra estrutura do Hadoop, é necessário realizar algumas configurações de storage (levando em conta que o HDFS é armazenado em disco) para subir seu cluster de Starburst Presto. Dessa forma, em configurações de Storage, configure conforme a imagem abaixo e selecione a opção Next:

Na próxima tela, escolha Edit na opção Applications:

Pesquise por Starburst Presto dentro da barra de pesquisa Available applications e selecione a opção disponibilizada para a ferramenta:

Escolha o size do cluster em Choose node sizes. É possível ver o custo total da solução em valores estimados por hora. Neste caso deixarei o valor padrão. São 4 data Nodes e 1 Head Node (Nomeclatura do Hadoop). Portanto clique em Next.

Após isso clique em Next para Script actions e em Create na próxima tela de configuração.

Feito isso, o Azure criará toda a infraestrutura de Hadoop com todas as ferramentas do ecossistema + o Starburst Presto. Claro, caso você já use uma arquitetura de HDInsight, é possível somente adicionar a aplicação dentro do cluster já existente.


Agora que você já tem um cluster de HDInsight rodando, será possível conectar-se ao Superset para realizar queries dentro do Starburst Presto.

Primeiro, abra o cluster que você acabou de criar, selecione a opção Applications e depois a aplicação de presto que foi instalada e configurada dentro do HDInsight.

Você terá 3 opções. serão elas:

PrestoDB Web App – Aplicação web para que você possa verificar as queryes que estão rodando, nós ativos no cluster, e demais opções as quais iremos abordar posteriormente na série.

PrestoDB Set App – Aqui você terá acesso ao Superset. é uma aplicação web que permite a você realizar queryes de maneira mais intuitiva utilizando as ferramentas de Big Data.

SSH Endpoint – Você poderá conectar-se ao cluster de presto e usar o Presto CLI para realizar suas queryes.


No próximo post da série você aprenderá sobre como configurar conectores nos seus dados, permitindo assim que o Presto seja capaz de realizar queries em diversas origens diferentes.

Um comentário sobre “Presto – Distributed Query Engine for Big Data Environment | Azure Cloud

  1. Pingback: Presto – Distributed Query Engine for Big Data Environment | Connectors – Arthur Luz | Data's Light

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s