Hello World com Pyspark

Neste post iremos fazer nosso primeiro código com Pyspark!

Além disso, vou mostrar para vocês como fazer a leitura de um arquivo no seu Gdrive utilizando o Google Collab.

Primeiramente, vamos baixar o dataset no site do Kaggle. 🙂

Se vocês não conhecem esse site, aconselho fazerem uma visita! Ele tem diversos bancos de dados interessantes e também existem competições de modelagem desses dados valendo 💲💲

Após fazerem o download, salvem o arquivo já extraído na pasta desejada do Google Drive.

No seu Google Collab, digite:

Duas bibliotecas serão instaladas: a primeira é o Pyspark, e a segunda é utilizada para acessar arquivos no Google Drive.

Após, chame as bibliotecas necessárias para uso:

Inicialize as configurações do Spark e do Pydrive:

Ao executar essa célula de cima, irá aparecer uma janela como essa aqui:

Clique no link e coloque o código de verificação no espaço indicado.

Pronto! Agora você tem acesso a qualquer arquivo seu que esteja no Google Drive 🤗

Agora, precisamos coletar o Id do seu arquivo do Google Drive. Para fazer isso, encontre seu arquivo, clique na opção de criar um link para compartilhamento:

Veja que após o caractere “/d/” e antes do “/view/” temos um código. Este será o Id do seu arquivo! Salve esta informação para uso posterior.

No código abaixo, substitua o Id, e o nome do arquivo (caso tenha sido alterado). Nesse passo, você estará deixando disponível o uso do arquivo em seu cluster.

Leia o arquivo usando o Spark:

*Vale ressaltar que nosso arquivo tinha tabulação como separador, por isso o “\t”. Se você tivesse um arquivo separado por “,” ou “;”, era necessário somente a substituição do campo “delimiter”. O campo “header” igual a True, é para os casos em que temos as colunas dos nossos dados já nomeadas.

Para finalizar, visualize um pouco seus dados:

Código completo para vocês! 😁

Até o próximo post!

Tópicos

Compartilhe
Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on telegram
Telegram
Share on reddit
Reddit
Share on whatsapp
WhatsApp
Aline
Aline
Trabalho com Ciência de Dados, Big Data, e gosto de jogar nas minhas horas vagas :)
Subscribe
Notify of
guest
0 Comentários
Oldest
Newest Most Voted
Inline Feedbacks
View all comments

Você vai gostar também