Pipeline-Databricks-Azure

Este projeto tem como objetivo criar e automatizar uma pipeline de dados no ambiente Azure para uma base de dados de imóveis. A pipeline é estruturada em três camadas: unbound, silver e gold, proporcionando um fluxo de dados consistente e de qualidade. Além disso, é configurada uma trigger para executar a pipeline a cada hora.

Conteúdo do Projeto

1. Criação de Recursos na Nuvem da Azure

Configuração e provisionamento de recursos necessários no ambiente Azure para suportar a pipeline.

2. Construção de um Data Lake

Implementação de um Data Lake para armazenamento eficiente e escalável dos dados de imóveis.

3. Utilização da Linguagem Scala no Databricks

Desenvolvimento de scripts e notebooks utilizando Scala no ambiente Databricks para processamento e transformação dos dados.

4. Conexão de Aplicativos aos Serviços Azure

Estabelecimento de conexões entre aplicativos e serviços Azure para integrar diferentes componentes da pipeline.

5. Gerenciamento de Pipelines com Data Factory

Utilização do Azure Data Factory para orquestrar e gerenciar o fluxo de dados entre as diferentes camadas da pipeline.

6. Colocação do Pipeline em Produção

Configuração e implantação do pipeline em ambiente de produção, garantindo a execução automática e confiável.

Arquitetura do Projeto

A imagem acima representa a arquitetura geral do projeto, destacando a interação entre os diferentes serviços na nuvem Azure, o fluxo de dados entre as camadas e a trigger configurada para execução periódica.

Detalhes da Trigger e Funcionalidades do Pipeline

Trigger a Cada Hora:
- A pipeline é acionada automaticamente a cada hora, garantindo atualizações frequentes e regulares no banco de dados de imóveis.
Funcionalidades do Pipeline:
- Unbound:
  - Captura e ingestão de dados brutos.
- Silver:
  - Processamento e transformação dos dados brutos.
  - Padronização e limpeza dos dados.
- Gold:
  - Modelagem e estruturação final dos dados.
  - Preparação dos dados para análises avançadas.

Como Contribuir

Faça um fork do repositório.
Crie uma branch para sua feature: git checkout -b feature-nova.
Faça o commit das suas alterações: git commit -m 'Adiciona nova feature'.
Faça o push para a branch: git push origin feature-nova.
Abra um Pull Request.

Dúvidas ou Sugestões? Sinta-se à vontade para abrir uma issue ou entrar em contato. Seu feedback é muito bem-vindo!

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
AzureDataPipelineFactory		AzureDataPipelineFactory
factory		factory
linkedService		linkedService
notebooks		notebooks
pipeline		pipeline
trigger		trigger
.gitignore		.gitignore
README.md		README.md
publish_config.json		publish_config.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pipeline-Databricks-Azure

Conteúdo do Projeto

1. Criação de Recursos na Nuvem da Azure

2. Construção de um Data Lake

3. Utilização da Linguagem Scala no Databricks

4. Conexão de Aplicativos aos Serviços Azure

5. Gerenciamento de Pipelines com Data Factory

6. Colocação do Pipeline em Produção

Arquitetura do Projeto

Detalhes da Trigger e Funcionalidades do Pipeline

Como Contribuir

About

Releases

Packages

Languages

PATRICIAJUNQUEIRA/pipeline-databricks-azure

Folders and files

Latest commit

History

Repository files navigation

Pipeline-Databricks-Azure

Conteúdo do Projeto

1. Criação de Recursos na Nuvem da Azure

2. Construção de um Data Lake

3. Utilização da Linguagem Scala no Databricks

4. Conexão de Aplicativos aos Serviços Azure

5. Gerenciamento de Pipelines com Data Factory

6. Colocação do Pipeline em Produção

Arquitetura do Projeto

Detalhes da Trigger e Funcionalidades do Pipeline

Como Contribuir

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages