Hello World com Pyspark

Neste post iremos fazer nosso primeiro código com Pyspark!

Além disso, vou mostrar para vocês como fazer a leitura de um arquivo no seu Gdrive utilizando o Google Collab.

Primeiramente, vamos baixar o dataset no site do Kaggle. 🙂

Se vocês não conhecem esse site, aconselho fazerem uma visita! Ele tem diversos bancos de dados interessantes e também existem competições de modelagem desses dados valendo 💲💲

Após fazerem o download, salvem o arquivo já extraído na pasta desejada do Google Drive.

No seu Google Collab, digite:

Duas bibliotecas serão instaladas: a primeira é o Pyspark, e a segunda é utilizada para acessar arquivos no Google Drive.

Após, chame as bibliotecas necessárias para uso:

Inicialize as configurações do Spark e do Pydrive:

Ao executar essa célula de cima, irá aparecer uma janela como essa aqui:

Clique no link e coloque o código de verificação no espaço indicado.

Pronto! Agora você tem acesso a qualquer arquivo seu que esteja no Google Drive 🤗

Agora, precisamos coletar o Id do seu arquivo do Google Drive. Para fazer isso, encontre seu arquivo, clique na opção de criar um link para compartilhamento:

Veja que após o caractere “/d/” e antes do “/view/” temos um código. Este será o Id do seu arquivo! Salve esta informação para uso posterior.

No código abaixo, substitua o Id, e o nome do arquivo (caso tenha sido alterado). Nesse passo, você estará deixando disponível o uso do arquivo em seu cluster.

Leia o arquivo usando o Spark:

*Vale ressaltar que nosso arquivo tinha tabulação como separador, por isso o “\t”. Se você tivesse um arquivo separado por “,” ou “;”, era necessário somente a substituição do campo “delimiter”. O campo “header” igual a True, é para os casos em que temos as colunas dos nossos dados já nomeadas.

Para finalizar, visualize um pouco seus dados:

Código completo para vocês! 😁

Até o próximo post!