Skip to content

🎓 Capstone IBM Data Science: Análise ponta a ponta com Python, SQL & ML em dados de finanças, mercado imobiliário e aeroespacial. 🎓 IBM Data Science Capstone: End-to-end analysis with Python, SQL & ML on finance, real estate, and aerospace data.

Notifications You must be signed in to change notification settings

jeffthedeveloper/Applied-Data-Science-Capstone-End-to-End-Analysis-with-Python-SQL-and-Machine-Learning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

30 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Linguagem Principal / Main Language Licença / License Status / Status

Autor / Author: Jefferson Firmino Mendes
Contato / Contact: GitHub | LinkedIn

📄 Resumo / Abstract



* 🇧🇷 Este repositório é a tese final do Certificado Profissional IBM Data Science, demonstrando um fluxo de trabalho completo de ponta a ponta. O projeto resolve problemas práticos em domínios como mercado imobiliário, finanças e logística espacial, utilizando Python, SQL e Machine Learning. O principal resultado é um portfólio de análises, modelos preditivos e dashboards interativos que validam competências essenciais para um cientista de dados.

* 🇺🇸 This repository is the final thesis for the IBM Data Science Professional Certificate, demonstrating a complete end-to-end workflow. The project solves practical problems in domains such as real estate, finance, and space logistics using Python, SQL, and Machine Learning. The main outcome is a portfolio of analyses, predictive models, and interactive dashboards that validate a data scientist's core competencies.

🎓 A Tese: Uma Jornada de Maestria / The Thesis: A Journey of Mastery



* 🇧🇷 Este repositório é a materialização da minha jornada através do universo da Ciência de Dados. Ele não é uma simples coleção de projetos, mas sim a tese final que consolida e conecta uma vasta gama de habilidades. Como um Trabalho de Conclusão de Curso (TCC), ele representa o ápice do aprendizado, onde teoria e prática se encontram para resolver problemas do mundo real.

* 🇺🇸 This repository embodies my journey through the Data Science universe. It's not a mere collection of projects, but rather the final thesis that consolidates and connects a wide range of skills. Like a final graduation project, it represents the pinnacle of learning, where theory and practice meet to solve real-world problems.

🕵️ Prova de Autoria, Proatividade e Ambiente Profissional / Proof of Authorship, Proactivity, and Professional Environment

🇧🇷 Para garantir a transparência e validar a autenticidade do trabalho, este repositório foi estruturado para conter múltiplas "impressões digitais" forenses. Elas comprovam não apenas a autoria, mas também uma abordagem proativa que transcende o escopo de um curso online, refletindo a mentalidade de um cientista de dados profissional.


🇺🇸 To ensure transparency and validate the authenticity of the work presented, this repository has been structured to contain multiple forensic "digital fingerprints". These prove not only the authorship but also a proactive approach that transcends the scope of a standard online course, reflecting a professional data scientist's mindset.


Evidência Forense / Forensic Evidence Descrição / Description Prova / Proof (Link)
🇧🇷 Execução em Ambiente Linux Local

🇺🇸 Execution in a Local Linux Environment
🇧🇷 Os tracebacks de execução apontam para um diretório home de um sistema Ubuntu (/home/jeff/...), provando o desenvolvimento em um ambiente de trabalho real.

🇺🇸 Execution tracebacks point to a local Ubuntu home directory (/home/jeff/...), proving development in a real-world work environment.
Gerador de Relatórios em PDF
🇧🇷 Customização e Localização

🇺🇸 Customization & Localization
🇧🇷 Artefatos com gráficos, comentários e saídas em português brasileiro, evidenciando que a análise e a interpretação dos dados foram realizadas de forma original.

🇺🇸 Artifacts with charts, comments, and outputs in Brazilian Portuguese, evidencing that the analysis and data interpretation were performed originally.
🇧🇷 Notebook de SQL

🇺🇸 SQL Notebook

🇧🇷 Projetos de Análise de Ações

🇺🇸 Stock Analysis Projects
🇧🇷 Iniciativa na Curadoria de Dados

🇺🇸 Proactive Data Curation
🇧🇷 Substituição de datasets desatualizados do curso por fontes mais recentes e relevantes do Kaggle, uma prática essencial para cientistas de dados.

🇺🇸 Replacement of outdated course datasets with more recent and relevant sources from Kaggle, an essential practice for data scientists.
🇧🇷 Uso de datasets do Kaggle

🇺🇸 Use of Kaggle datasets
🇧🇷 Uso Estratégico de Formatos

🇺🇸 Strategic Use of Formats
🇧🇷 Entrega de resultados em formatos estáticos como .pdf e .png para proteger a propriedade intelectual do código, incentivando a consulta em vez do plágio.

🇺🇸 Delivery of results in static formats like .pdf and .png to protect the code's intellectual property, encouraging consultation over plagiarism.
🇧🇷 Entregáveis em .pdf e .png

🇺🇸 Deliverables in .pdf & .png
🇧🇷 Consolidação e Síntese

🇺🇸 Knowledge Consolidation & Synthesis
🇧🇷 Artefatos que não são meros templates, mas o resultado da consolidação do conhecimento adquirido, demonstrando a capacidade de comunicar resultados complexos.

🇺🇸 Artifacts that are not mere templates but the result of consolidating the acquired knowledge, demonstrating the ability to communicate complex results.
🇧🇷 Ecossistema de Data Science

🇺🇸 Data Science Ecosystem

🇧🇷 Apresentação Final

🇺🇸 Final Presentation

📜 Certificação Profissional / Professional Certification

Certificado Profissional IBM Data Science



* 🇧🇷 Clique na imagem acima para verificar a certificação.
🇺🇸 Click the image above to verify the certification.



* 🇧🇷 A especialização profissional é composta por uma série de cursos rigorosos que desenvolvem competências essenciais e aplicadas na área de Ciência de Dados.

* 🇺🇸 The professional specialization consists of a series of rigorous courses that develop essential and applied competencies in the field of Data Science.

Habilidades Adquiridas / Skills Gained

Categoria / Category Habilidades / Skills
Análise de Dados / Data Analysis Análise de Regressão (Regression Analysis), Mineração de Dados (Data Mining), SQL, Análise Exploratória de Dados (Exploratory Data Analysis).
Machine Learning Scikit-learn, Aprendizado Supervisionado (Supervised Learning), Aprendizado Não Supervisionado (Unsupervised Learning).
Ferramentas e Linguagens / Tools & Languages Python, SQL, Jupyter Notebooks, Pandas, NumPy.
Visualização de Dados / Data Visualization Matplotlib, Seaborn, Plotly, Folium.
Tecnologias Emergentes / Emerging Technologies IA Generativa (Generative AI).
Competências Profissionais / Professional Skills Alfabetização de Dados (Data Literacy), Networking Profissional (Professional Networking).

Cursos da Especialização / Specialization Courses

  • What is Data Science?
  • Tools for Data Science
  • Data Science Methodology
  • Generative AI: Elevate Your Data Science Career
  • Data Scientist Career Guide and Interview Preparation
  • Applied Data Science Capstone

🏆 Destaques do Projeto: Habilidades em Ação / Project Highlights: Skills in Action

Competência / Competency Descrição / Description Artefato Principal / Key Artifact
Engenharia de Dados e SQL

Data Engineering & SQL


* 🇧🇷 Análise de múltiplos datasets da cidade de Chicago para responder a perguntas complexas usando queries SQL com JOINS, CASE e subqueries.

* 🇺🇸 Analysis of multiple Chicago datasets to answer complex questions using SQL queries with JOINS, CASE, and subqueries.
Análise de Dados de Chicago com SQL
Machine Learning Preditivo

Predictive Machine Learning


* 🇧🇷 Desenvolvimento ponta a ponta de modelos de Regressão para prever preços de imóveis, validado por uma série de screenshots que provam a construção da solução.

* 🇺🇸 End-to-end development of Regression models to predict house prices, validated by a series of screenshots proving the solution's construction.
Evidências do Projeto de Machine Learning
Web Scraping e APIs

Web Scraping & APIs


* 🇧🇷 Extração de dados de ações (Tesla & GME) via yfinance e BeautifulSoup para a construção de um dashboard interativo.

* 🇺🇸 Extraction of stock data (Tesla & GME) via yfinance and BeautifulSoup to build an interactive dashboard.
Dashboard e Web Scraping de Ações
Análise Geoespacial Interativa

Interactive Geospatial Analysis


* 🇧🇷 Criação de um mapa interativo com Folium para analisar a localização dos locais de lançamento da SpaceX e sua relação com a infraestrutura circundante.

* 🇺🇸 Creation of an interactive map with Folium to analyze SpaceX launch site locations and their relationship with surrounding infrastructure.
Visualização Interativa com Folium
Automação de Relatórios (PDF)

Report Automation (PDF)


* 🇧🇷 Desenvolvimento de um script em Python para automatizar a geração de relatórios em PDF, consolidando múltiplas análises em um documento profissional.

* 🇺🇸 Development of a Python script to automate the generation of PDF reports, consolidating multiple analyses into a professional document.
Gerador de Relatórios em PDF

📊 Destaques Visuais e Análises Aprofundadas / Visual Highlights & In-Depth Analyses



* 🇧🇷 Demonstrações visuais dos principais projetos do curso e das análises proativas desenvolvidas para expandir o escopo original, validando a aplicação prática das competências.

* 🇺🇸 Visual demonstrations of the main course projects and the proactive analyses developed to expand the original scope, validating the practical application of the competencies.


📈 Análise Preditiva de Preços de Imóveis / Predictive House # Analysis



* 🇧🇷 Este GIF demonstra o processo de análise exploratória e a performance do modelo de regressão para prever os preços dos imóveis.

* 🇺🇸 This GIF demonstrates the exploratory data analysis process and the performance of the regression model for predicting house prices.

Análise Preditiva de Preços de Imóveis

📉 Dashboard de Ações com Web Scraping / Stock Dashboard with Web Scraping



* 🇧🇷 Este GIF exibe o funcionamento do script que extrai dados financeiros das ações da Tesla e GameStop, culminando na criação de um dashboard interativo.

* 🇺🇸 This GIF showcases the script that extracts financial data for Tesla and GameStop stocks, culminating in the creation of an interactive dashboard.

Extração de Dados de Ações

🚀 Análise de Performance para Otimização de Lançamentos (Cargas > 5 Toneladas) / Performance Analysis for Launch Optimization (Payloads > 5 Tons)



* 🇧🇷 Análise proativa para identificar o melhor local de lançamento para foguetes com cargas úteis superiores a 5.000 kg, baseada na taxa de sucesso e destacada com visualização geoespacial.

* 🇺🇸 Proactive analysis to identify the optimal launch site for rockets with payloads over 5,000 kg, based on success rates and highlighted with geospatial visualization.

Análise Aprofundada de Lançamentos SpaceX para Cargas Pesadas

Principal Insight:



* 🇧🇷 Através da análise, o local VAFB SLC-4E (Lat: 34.63, Long: -120.61) foi identificado como o de maior performance para esta categoria de lançamento.

* 🇺🇸 Through this analysis, the VAFB SLC-4E site (Lat: 34.63, Long: -120.61) was identified as the top performer for this launch category.


💡 Análise de Fatores Socioeconômicos na Criminalidade em Propriedades Escolares (Chicago) / Analysis of Socioeconomic Factors in Crime on School Properties (Chicago)



* 🇧🇷 Investigação original sobre a correlação entre o Índice de Dificuldade de uma comunidade e a incidência de crimes em propriedades escolares, utilizando uma query SQL direcionada.

* 🇺🇸 Original investigation into the correlation between a community's Hardship Index and the incidence of crimes on school properties, using a targeted SQL query.

Demonstração da Execução da Query SQL

Query SQL Estratégica / Strategic SQL Query:

SELECT
    C.COMMUNITY_AREA_NAME,
    C.HARDSHIP_INDEX,
    COUNT(CR.CASE_NUMBER) AS CRIMES_ON_SCHOOL_PROPERTY
FROM
    CENSUS_DATA AS C
JOIN
    CRIME_DATA AS CR ON C.COMMUNITY_AREA_NUMBER = CR.COMMUNITY_AREA_NUMBER_CRIME
WHERE
    CR.LOCATION_DESCRIPTION LIKE '%SCHOOL%'
GROUP BY
    C.COMMUNITY_AREA_NAME, C.HARDSHIP_INDEX
ORDER BY
    C.HARDSHIP_INDEX DESC
LIMIT 10;

Resultado da Query / Query Result:

   COMMUNITY_AREA_NAME  |  HARDSHIP_INDEX  |  CRIMES_ON_SCHOOL_PROPERTY
------------------------|------------------|-----------------------------
   Brighton Park        |       84.0       |              1
   East Garfield Park   |       83.0       |              1
   Austin               |       73.0       |              2
   South Shore          |       55.0       |              1
   Douglas              |       47.0       |              1
   Rogers Park          |       39.0       |              1
   Ashburn              |       37.0       |              2
   Lincoln Square       |       17.0       |              1

Principal Insight:



* 🇧🇷 A análise revelou uma tendência onde comunidades com maiores Índices de Dificuldade também figuram na lista de locais com crimes em propriedades escolares.

* 🇺🇸 The analysis revealed a trend where communities with higher Hardship Indices also appear on the list of locations with crimes on school properties.

🗺️ Ecossistema de Ferramentas e Processos / Ecosystem of Tools and Processes

graph TD
    subgraph "Fase 1: Coleta e Engenharia"
        A[<br><br><b>Fontes de Dados</b><br><br>APIs, CSVs, Web Scraping] --> B{<b>Processamento e Armazenamento</b><br><br>Python & SQL};
    end

    subgraph "Fase 2: Análise e Modelagem"
        B --> C[<b>Limpeza e Análise Exploratória</b><br><br>Pandas, NumPy];
        C --> D{<b>Machine Learning</b><br><br>Scikit-learn};
    end

    subgraph "Fase 3: Visualização e Comunicação"
        D --> E[<b>Visualização de Dados</b><br><br>Matplotlib, Seaborn];
        C --> E;
        B --> F[<b>Mapas Geoespaciais</b><br><br>Folium];
        E & F --> G((<b>Resultados e Insights</b><br><br>Dashboards, Relatórios, APIs));
    end

    style A fill:#D6EAF8,stroke:#2874A6
    style B fill:#D1F2EB,stroke:#138D75
    style C fill:#FDEDEC,stroke:#B03A2E
    style D fill:#FAD7A0,stroke:#AF601A
    style G fill:#bbf,stroke:#333,stroke-width:2px
Loading

🛠️ Ferramentas e Tecnologias / Tools & Technologies

  • Linguagens / Languages: Python, SQL
  • Bibliotecas de Dados / Data Libraries: Pandas, NumPy
  • Visualização / Visualization: Matplotlib, Seaborn, Plotly Dash, Folium
  • Machine Learning: Scikit-learn (Linear Regression, Ridge Regression, Pipelines)
  • Banco de Dados / Database: IBM Db2, SQLite
  • Desenvolvimento / Development: Jupyter Lab/Notebooks, Git/GitHub, Ambiente Linux (Ubuntu)

🎯 Limitações e Trabalhos Futuros / Limitations & Future Work



* 🇧🇷 Limitações: Alguns projetos, como a análise de imóveis, utilizaram datasets do Kaggle como alternativa a fontes originais que estavam inacessíveis. Os modelos preditivos podem ser otimizados com mais engenharia de features e ajuste de hiperparâmetros.

* 🇺🇸 Limitations: Some projects, such as the housing analysis, used Kaggle datasets as an alternative to original, inaccessible sources. The predictive models can be optimized with more feature engineering and hyperparameter tuning.



* 🇧🇷 Trabalhos Futuros: Os próximos passos incluem o deploy de um dos modelos como uma API REST, a criação de um pipeline de dados automatizado com Airflow e a configuração de GitHub Actions para testes contínuos.

* 🇺🇸 Future Work: Next steps include deploying one of the models as a REST API, creating an automated data pipeline with Airflow, and setting up GitHub Actions for continuous testing.

🚀 Reprodutibilidade e Instalação / Reproducibility & Setup



* 🇧🇷 Para clonar e executar este projeto localmente, siga os passos abaixo.

* 🇺🇸 To clone and run this project locally, follow the steps below.

  1. Clone o repositório / Clone the repository:
    git clone https://github.com/jeffthedeveloper/applied-data-science-capstone-end-to-end-analysis-with-python-sql-and-machine-learning.git
    cd applied-data-science-capstone-end-to-end-analysis-with-python-sql-and-machine-learning
  2. Crie e ative um ambiente virtual / Create and activate a virtual environment:
    python -m venv venv
    source venv/bin/activate  # No Windows: venv\Scripts\activate
  3. Instale as dependências / Install dependencies:
    pip install -r requirements.txt
  4. Inicie o Jupyter Lab / Start Jupyter Lab:
    jupyter lab

🤝 Contribuição / Contributing



* 🇧🇷 Este repositório é, primariamente, um portfólio pessoal. No entanto, sugestões de melhoria, correções de bugs ou otimizações são bem-vindas. Sinta-se à vontade para abrir uma Issue para discutir mudanças ou submeter um Pull Request.

* 🇺🇸 This repository is primarily a personal portfolio. However, suggestions for improvements, bug fixes, or optimizations are welcome. Feel free to open an Issue to discuss changes or submit a Pull Request.

🧾 Créditos e Fontes / Credits & Sources

  • Curso Base / Base Course: IBM Data Science Professional Certificate via Coursera.
  • Datasets: Agradecimentos à comunidade Kaggle por fornecer datasets alternativos. / Thanks to the Kaggle community for providing alternative datasets.
  • Principais Bibliotecas / Main Libraries: Pandas, Scikit-learn, Matplotlib, Seaborn, Plotly, Folium.

📜 Licença / License



* 🇧🇷 Este trabalho educacional está licenciado sob a Licença MIT.

* 🇺🇸 This educational work is licensed under the MIT License.

About

🎓 Capstone IBM Data Science: Análise ponta a ponta com Python, SQL & ML em dados de finanças, mercado imobiliário e aeroespacial. 🎓 IBM Data Science Capstone: End-to-end analysis with Python, SQL & ML on finance, real estate, and aerospace data.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published