Presto – Distributed Query Engine for Big Data Environment | Introduction

Pessoal, esse post irá iniciar uma série de posts sobre o Presto. A ideia é que demos início a um conjunto de séries com conteúdo exclusivamente voltado para Big Data. Iniciaremos com essa série sobre Presto e logo em seguida, começaremos uma outra sobre Apache Kafka. Pretendo abordar também o Apache Drill, e algumas outras tecnologias do Azure para armazenamento e processamento de “Big Dados”.

O Presto, dentro do cenário de Big Data está qualificado como um ferramenta de query distribuída. Iremos aqui desde a introdução até como configurarmos e usarmos em ambientes on-premises e Azure Cloud.


O projeto do Presto foi iniciado com a equipe do Facebook em 2012. A ideia era criar uma ferramenta que fosse capaz de permitir uma performance maior em comparação, por exemplo, ao Apache Hive onde, para isso, seria necessário não mais usar o Map Reduce como mecanismo de busca. Dessa forma, o Presto trabalha apenas com memória.

Muitas pessoas confundem a ferramenta como sendo um banco de dados em memória, porém, o Presto é apenas um layer de processamento. Isso quer dizer que os dados são usados apenas em tempo de execução e são buscados de suas respectivas origens.

Um outro ponto muito interessante do Presto é que, com ele, é possível conectar em diversas fontes diferentes e realizar join entre essas fontes de dados permitindo um resultado integrado sem a necessidade de um processo de integração de dados para isso. Por exemplo: se você precisa cruzar informação do seu SQL Server On-Premises, com seu MongoDb NOSQL, com seu DataLake que está no Hadoop e em um outro repositório que está no Azure,  você poderia usar o Presto para isso.

O Presto é uma ferramenta desenhada para eficientemente trabalhar com uma grande quantidade de informações usando uma arquitetura distribuída. Com ele você pode trabalhar com terabytes ou petabytes de informações dentro do HDFS ou de outro storage layer. Ele foi desenhado para trabalhar com data warehouse e analytics: Analises de dados e agregações de grandes massas para produção de reports.

Só para termos uma ideia, em 2014 a Netflix divulgou usar o Presto para construção de análises sobre 10 petabytes de informações.


No próximo post iremos abordar conceitos e a arquitetura do funcionamento do Presto. Será possível iniciar o entendimento da ferramenta e descobrir o porquê de o Presto ser tão interessante em cenários de Big Data.

2 comentários sobre “Presto – Distributed Query Engine for Big Data Environment | Introduction

  1. Pingback: Presto – Distributed Query Engine for Big Data Environment | Concepts – Arthur Luz | Data's Light

  2. Pingback: Presto – Distributed Query Engine for Big Data Environment | On-Premises Installation – Arthur Luz | Data's Light

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s