Professor Fábio Ayres
Alunos: Martim José, Sabrina Simão e Leonardo Medeiros
Este é o projeto final da disciplina Megadados (2018.2) do curso de Engenharia da Computação do Insper. O principal objetivo deste projeto era manipular e analisar um grande conjunto de dados, considerados Big Data. Para isso, foi implementado uma Pipeline em um EMR (Elastic Map Reduce) da AWS que utilizou por meio do Zeppelin o Pypark, para manipular os dados do Common Crawl do mês de Setembro, que compreende terabytes de dados, da Web mundial. Porém como o professor já havia feito um filtro dos sites brasileiros, esses terabytes de dados se transformaram em 64GB salvos em um bucket S3. A partir dos dados, foi feita análise estatística da frequência das palavras que são ditas em conjunto com os nomes das capitais dos estados do Brasil. Para assim mapear o vocabulário associado a cada capital dos estados.
O Pipeline implementado no cluster EMR da AWS rodou o programa desenvolvido em PySpark no Zeppelin, que originou os arquivos pickle frenquencia_palavras_geral_big para a contagem de palavras da web brasileira. E o arquivo frequencia_palavras_big para a contagem de palavras para cada capital de Estado brasileiro. Para executar essa etapa, crie um cluester EMR na AWS com Zeppelin, importe o notebook (crawler_br_code.json) e rode as células.
Para apenas visualizar a pipeline criada, acesse o notebook na plataforma Zepl.
Estes arquivos são lidos pelo programa implementado no arquivo python br-web-crawler que calcula o p-value de das palavras e cria um pickle (palavras_pvalue.pickle) com esses dados calculados.
Para executar esse programa instale as dependências via:
$ sudo pip install -r requirements.txt
E rode com:
$ python br-web-crawler.py
Toda a análise de dados foi feita no jupyter notebook MegaDadosFinal.ipynb que carrega o arquivo gerado no passo anterior. Para re-executar as células do Notebook é preciso instalar as dependências descritas anteriormente e também ter o Jupyter Notebook instalado em seu computador (instruções).
Toda a documentação do projeto se encontra no arquivo documentação.pdf.