Como instalar o Pyspark no seu computador

Olá pessoal!

Hoje vou ensiná-los como instalar o Pyspark no seu computador com sistema operacional Windows!😁

Instalação do Pyspark, JDK e Hadoop

Primeiro de tudo, o que você vai precisar é ter o Python instalado na sua máquina. Caso você ainda não tenha o Python instalado, favor verificar o post 😊

2. Vá no “Menu Iniciar” e digite “Prompt de Comando” e abra o aplicativo.

3. Digite o seguinte comando no Prompt:

pip install pyspark

Com isso, a biblioteca do Pyspark já estará instalada no seu computador e pronta para ser usada no seu Python 🐍

4. Será necessário instalar o Java Development Kit. No próprio site do Java você pode encontrar várias versões.

5. No caso do Windows, para que você consiga configurar também o uso do Hadoop, você deverá acessar este link e selecionar a versão de interesse.

6. Após baixado o arquivo do item 5, coloque o seu conteúdo extraído do Hadoop no diretório de instalação da biblioteca Pyspark. Você consegue verificar aonde seu Python está instalado a partir do código:

import os
import sys
os.path.dirname(sys.executable)

Usualmente a biblioteca estará instalada em “[sua_localização_do_Python]/Lib/site-packages/pyspark”.

Configuração das variáveis de ambiente do sistema

Para que o Spark funcione sem problemas é necessário também adicionar variáveis de sistema.

Entre no menu do Windows e pesquise por “Painel de Controle”, como na imagem abaixo:

2. Já no “Painel de Controle”, abra o item “Contas de Usuário”:

3. Clicar novamente em “Contas de Usuário”:

4. Clicar em “Alterar as variáveis do meu ambiente”:

5. Aqui, uma nova caixa de diálogo irá aparecer com as variáveis de usuário e as variáveis de sistema, você irá fazer a alteração nas variáveis de sistema (segundo bloco destacado na imagem).

6. Clicar no botão “Novo”, uma nova janela será aberta.

7. Na nova janela criar as seguintes variáveis:

SPARK_HOME = “[sua_localização_do_Python]\Lib\site-packages\pyspark” -> este é um exemplo de caminho, basta você direcionar essa variável para o diretório onde sua biblioteca está instalada
HADOOP_HOME = “[sua_localização_do_Python]\Lib\site-packages\pyspark\hadoop-[versão]” -> este é um exemplo de caminho, basta você direcionar essa variável para o diretório onde seu Hadoop foi extraído
JAVA_HOME = “C:\Program Files\Java\jdk[versão]”-> este é um exemplo de caminho, basta você direcionar essa variável para o diretório onde seu JDK foi instalado.

Após fazer as edições, clicar em “Ok” e as variáveis estarão configuradas 😁

Com isso, você terá o Pyspark configurado e já conseguirá fazer seus primeiros códigos para trabalhar com Big Data 😃