Databricks Tips 1 – Functions format_columns_name() and pandas_to_spark()

PessoALL, decidi criar essa série de posts rápidos com alguns quick tips relacionados a funções, códigos de otimização e ou facilitação em se tratando de pipelines criados no Databricks.


Nesse primeiro post disponibilizarei duas funções que tenho muito usado nos projetos que tenho desenvolvido usando o Databricks.

São elas:

  1. format_columns_name(). – Usada para modificar os nomes de todas as colunas de um dataframe (seja ele PySpark, Koalas ou Pandas) retirando caracteres especiais, pontos, traços, espaços e etc. Muito útil quando estou realizando leitura de arquivos de excel onde o usuário final tende a não seguir melhores práticas de nomeclatura de colunas de bancos de dados.
  2. pandas_to_spark(). – Usada para realizar a conversão de dataframes em Pandas para dataframes em PySpark realizando a conversão correta dos tipos de dados.

Ambas estão disponíveis publicamente no meu GitHub.


É isso!

Até o próximo post.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s