Crawl Words WebBR - Projeto Final Megadados

Professor Fábio Ayres
Alunos: Martim José, Sabrina Simão e Leonardo Medeiros

Este é o projeto final da disciplina Megadados (2018.2) do curso de Engenharia da Computação do Insper. O principal objetivo deste projeto era manipular e analisar um grande conjunto de dados, considerados Big Data. Para isso, foi implementado uma Pipeline em um EMR (Elastic Map Reduce) da AWS que utilizou por meio do Zeppelin o Pypark, para manipular os dados do Common Crawl do mês de Setembro, que compreende terabytes de dados, da Web mundial. Porém como o professor já havia feito um filtro dos sites brasileiros, esses terabytes de dados se transformaram em 64GB salvos em um bucket S3. A partir dos dados, foi feita análise estatística da frequência das palavras que são ditas em conjunto com os nomes das capitais dos estados do Brasil. Para assim mapear o vocabulário associado a cada capital dos estados.

Como utilizar

Pipeline (Extract)

O Pipeline implementado no cluster EMR da AWS rodou o programa desenvolvido em PySpark no Zeppelin, que originou os arquivos pickle frenquencia_palavras_geral_big para a contagem de palavras da web brasileira. E o arquivo frequencia_palavras_big para a contagem de palavras para cada capital de Estado brasileiro. Para executar essa etapa, crie um cluester EMR na AWS com Zeppelin, importe o notebook (crawler_br_code.json) e rode as células.

Para apenas visualizar a pipeline criada, acesse o notebook na plataforma Zepl.

Calcula P-value (Transform and Load)

Estes arquivos são lidos pelo programa implementado no arquivo python br-web-crawler que calcula o p-value de das palavras e cria um pickle (palavras_pvalue.pickle) com esses dados calculados.

Para executar esse programa instale as dependências via:

$ sudo pip install -r requirements.txt

E rode com:

$ python br-web-crawler.py

Análise

Toda a análise de dados foi feita no jupyter notebook MegaDadosFinal.ipynb que carrega o arquivo gerado no passo anterior. Para re-executar as células do Notebook é preciso instalar as dependências descritas anteriormente e também ter o Jupyter Notebook instalado em seu computador (instruções).

Documentação e resultados

Toda a documentação do projeto se encontra no arquivo documentação.pdf.

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
Pickle		Pickle
.gitignore		.gitignore
LICENSE		LICENSE
MegaDadosFinal.ipynb		MegaDadosFinal.ipynb
README.md		README.md
br-web-crawler.py		br-web-crawler.py
crawler_br_code.json		crawler_br_code.json
documentacao.pdf		documentacao.pdf
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawl Words WebBR - Projeto Final Megadados

Como utilizar

Pipeline (Extract)

Calcula P-value (Transform and Load)

Análise

Documentação e resultados

About

Releases

Packages

Contributors 3

Languages

License

martimfj/CrawlWordsWebBR

Folders and files

Latest commit

History

Repository files navigation

Crawl Words WebBR - Projeto Final Megadados

Como utilizar

Pipeline (Extract)

Calcula P-value (Transform and Load)

Análise

Documentação e resultados

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages