Neste post iremos fazer nosso primeiro código com Pyspark!
Além disso, vou mostrar para vocês como fazer a leitura de um arquivo no seu Gdrive utilizando o Google Collab.
Primeiramente, vamos baixar o dataset no site do Kaggle. 🙂
Se vocês não conhecem esse site, aconselho fazerem uma visita! Ele tem diversos bancos de dados interessantes e também existem competições de modelagem desses dados valendo 💲💲
Após fazerem o download, salvem o arquivo já extraído na pasta desejada do Google Drive.
No seu Google Collab, digite:
Duas bibliotecas serão instaladas: a primeira é o Pyspark, e a segunda é utilizada para acessar arquivos no Google Drive.
Após, chame as bibliotecas necessárias para uso:
Inicialize as configurações do Spark e do Pydrive:
Ao executar essa célula de cima, irá aparecer uma janela como essa aqui:

Clique no link e coloque o código de verificação no espaço indicado.
Pronto! Agora você tem acesso a qualquer arquivo seu que esteja no Google Drive 🤗
Agora, precisamos coletar o Id do seu arquivo do Google Drive. Para fazer isso, encontre seu arquivo, clique na opção de criar um link para compartilhamento:

Veja que após o caractere “/d/” e antes do “/view/” temos um código. Este será o Id do seu arquivo! Salve esta informação para uso posterior.
No código abaixo, substitua o Id, e o nome do arquivo (caso tenha sido alterado). Nesse passo, você estará deixando disponível o uso do arquivo em seu cluster.
Leia o arquivo usando o Spark:
*Vale ressaltar que nosso arquivo tinha tabulação como separador, por isso o “\t”. Se você tivesse um arquivo separado por “,” ou “;”, era necessário somente a substituição do campo “delimiter”. O campo “header” igual a True, é para os casos em que temos as colunas dos nossos dados já nomeadas.
Para finalizar, visualize um pouco seus dados:
Código completo para vocês! 😁
Até o próximo post!