Este projeto tem como objetivo criar e automatizar uma pipeline de dados no ambiente Azure para uma base de dados de imóveis. A pipeline é estruturada em três camadas: unbound, silver e gold, proporcionando um fluxo de dados consistente e de qualidade. Além disso, é configurada uma trigger para executar a pipeline a cada hora.
- Configuração e provisionamento de recursos necessários no ambiente Azure para suportar a pipeline.
- Implementação de um Data Lake para armazenamento eficiente e escalável dos dados de imóveis.
- Desenvolvimento de scripts e notebooks utilizando Scala no ambiente Databricks para processamento e transformação dos dados.
- Estabelecimento de conexões entre aplicativos e serviços Azure para integrar diferentes componentes da pipeline.
- Utilização do Azure Data Factory para orquestrar e gerenciar o fluxo de dados entre as diferentes camadas da pipeline.
- Configuração e implantação do pipeline em ambiente de produção, garantindo a execução automática e confiável.
A imagem acima representa a arquitetura geral do projeto, destacando a interação entre os diferentes serviços na nuvem Azure, o fluxo de dados entre as camadas e a trigger configurada para execução periódica.
-
Trigger a Cada Hora:
- A pipeline é acionada automaticamente a cada hora, garantindo atualizações frequentes e regulares no banco de dados de imóveis.
-
Funcionalidades do Pipeline:
-
Unbound:
- Captura e ingestão de dados brutos.
-
Silver:
- Processamento e transformação dos dados brutos.
- Padronização e limpeza dos dados.
-
Gold:
- Modelagem e estruturação final dos dados.
- Preparação dos dados para análises avançadas.
-
- Faça um fork do repositório.
- Crie uma branch para sua feature:
git checkout -b feature-nova
. - Faça o commit das suas alterações:
git commit -m 'Adiciona nova feature'
. - Faça o push para a branch:
git push origin feature-nova
. - Abra um Pull Request.
Dúvidas ou Sugestões? Sinta-se à vontade para abrir uma issue ou entrar em contato. Seu feedback é muito bem-vindo!