Este repositório tratará de um projeto de engenheria de dados pensado pela Semantix como parte final e facultativa do curso Big Data Engineer.
- Enviar os dados para o hdfs
- Otimizar todos os dados do hdfs para uma tabela Hive particionada por município.
- Criar as 3 vizualizações pelo Spark com os dados enviados para o HDFS:
- CASOS CONFIRMADOS
- CASOS RECUPERADOS
- ÓBITOS CONFIRMADOS
- Salvar a primeira visualização como tabela Hive
- Salvar a segunda visualização com formato parquet e compressão snappy
- Salvar a terceira visualização em um tópico no Kafka
- Criar a visualização pelo Spark com os dados enviados para o HDFS:
- Síntese de casos, óbitos, incidência e mortalidade
- Salvar a visualização do exercício 6 em um tópico no Elastic
- Criar um dashboard no Elastic para visualização dos novos dados enviados.