Pessoal, esse post irá iniciar uma série de posts sobre o Presto. A ideia é que demos início a um conjunto de séries com conteúdo exclusivamente voltado para Big Data. Iniciaremos com essa série sobre Presto e logo em seguida, começaremos uma outra sobre Apache Kafka. Pretendo abordar também o Apache Drill, e algumas outras tecnologias do Azure para armazenamento e processamento de “Big Dados”.
O Presto, dentro do cenário de Big Data está qualificado como um ferramenta de query distribuída. Iremos aqui desde a introdução até como configurarmos e usarmos em ambientes on-premises e Azure Cloud.
O projeto do Presto foi iniciado com a equipe do Facebook em 2012. A ideia era criar uma ferramenta que fosse capaz de permitir uma performance maior em comparação, por exemplo, ao Apache Hive onde, para isso, seria necessário não mais usar o Map Reduce como mecanismo de busca. Dessa forma, o Presto trabalha apenas com memória.
Muitas pessoas confundem a ferramenta como sendo um banco de dados em memória, porém, o Presto é apenas um layer de processamento. Isso quer dizer que os dados são usados apenas em tempo de execução e são buscados de suas respectivas origens.
Um outro ponto muito interessante do Presto é que, com ele, é possível conectar em diversas fontes diferentes e realizar join entre essas fontes de dados permitindo um resultado integrado sem a necessidade de um processo de integração de dados para isso. Por exemplo: se você precisa cruzar informação do seu SQL Server On-Premises, com seu MongoDb NOSQL, com seu DataLake que está no Hadoop e em um outro repositório que está no Azure, você poderia usar o Presto para isso.
O Presto é uma ferramenta desenhada para eficientemente trabalhar com uma grande quantidade de informações usando uma arquitetura distribuída. Com ele você pode trabalhar com terabytes ou petabytes de informações dentro do HDFS ou de outro storage layer. Ele foi desenhado para trabalhar com data warehouse e analytics: Analises de dados e agregações de grandes massas para produção de reports.
Só para termos uma ideia, em 2014 a Netflix divulgou usar o Presto para construção de análises sobre 10 petabytes de informações.
No próximo post iremos abordar conceitos e a arquitetura do funcionamento do Presto. Será possível iniciar o entendimento da ferramenta e descobrir o porquê de o Presto ser tão interessante em cenários de Big Data.
Pingback: Presto – Distributed Query Engine for Big Data Environment | Concepts – Arthur Luz | Data's Light
Pingback: Presto – Distributed Query Engine for Big Data Environment | On-Premises Installation – Arthur Luz | Data's Light