Autor / Author: Jefferson Firmino Mendes
Contato / Contact: GitHub | LinkedIn
* 🇧🇷 Este repositório é a tese final do Certificado Profissional IBM Data Science, demonstrando um fluxo de trabalho completo de ponta a ponta. O projeto resolve problemas práticos em domínios como mercado imobiliário, finanças e logística espacial, utilizando Python, SQL e Machine Learning. O principal resultado é um portfólio de análises, modelos preditivos e dashboards interativos que validam competências essenciais para um cientista de dados.
* 🇺🇸 This repository is the final thesis for the IBM Data Science Professional Certificate, demonstrating a complete end-to-end workflow. The project solves practical problems in domains such as real estate, finance, and space logistics using Python, SQL, and Machine Learning. The main outcome is a portfolio of analyses, predictive models, and interactive dashboards that validate a data scientist's core competencies.
* 🇧🇷 Este repositório é a materialização da minha jornada através do universo da Ciência de Dados. Ele não é uma simples coleção de projetos, mas sim a tese final que consolida e conecta uma vasta gama de habilidades. Como um Trabalho de Conclusão de Curso (TCC), ele representa o ápice do aprendizado, onde teoria e prática se encontram para resolver problemas do mundo real.
* 🇺🇸 This repository embodies my journey through the Data Science universe. It's not a mere collection of projects, but rather the final thesis that consolidates and connects a wide range of skills. Like a final graduation project, it represents the pinnacle of learning, where theory and practice meet to solve real-world problems.
🕵️ Prova de Autoria, Proatividade e Ambiente Profissional / Proof of Authorship, Proactivity, and Professional Environment
🇧🇷 Para garantir a transparência e validar a autenticidade do trabalho, este repositório foi estruturado para conter múltiplas "impressões digitais" forenses. Elas comprovam não apenas a autoria, mas também uma abordagem proativa que transcende o escopo de um curso online, refletindo a mentalidade de um cientista de dados profissional.
🇺🇸 To ensure transparency and validate the authenticity of the work presented, this repository has been structured to contain multiple forensic "digital fingerprints". These prove not only the authorship but also a proactive approach that transcends the scope of a standard online course, reflecting a professional data scientist's mindset.
Evidência Forense / Forensic Evidence | Descrição / Description | Prova / Proof (Link) |
---|---|---|
🇧🇷 Execução em Ambiente Linux Local 🇺🇸 Execution in a Local Linux Environment |
🇧🇷 Os tracebacks de execução apontam para um diretório home de um sistema Ubuntu (/home/jeff/... ), provando o desenvolvimento em um ambiente de trabalho real.🇺🇸 Execution tracebacks point to a local Ubuntu home directory ( /home/jeff/... ), proving development in a real-world work environment. |
Gerador de Relatórios em PDF |
🇧🇷 Customização e Localização 🇺🇸 Customization & Localization |
🇧🇷 Artefatos com gráficos, comentários e saídas em português brasileiro, evidenciando que a análise e a interpretação dos dados foram realizadas de forma original. 🇺🇸 Artifacts with charts, comments, and outputs in Brazilian Portuguese, evidencing that the analysis and data interpretation were performed originally. |
🇧🇷 Notebook de SQL 🇺🇸 SQL Notebook 🇧🇷 Projetos de Análise de Ações 🇺🇸 Stock Analysis Projects |
🇧🇷 Iniciativa na Curadoria de Dados 🇺🇸 Proactive Data Curation |
🇧🇷 Substituição de datasets desatualizados do curso por fontes mais recentes e relevantes do Kaggle, uma prática essencial para cientistas de dados. 🇺🇸 Replacement of outdated course datasets with more recent and relevant sources from Kaggle, an essential practice for data scientists. |
🇧🇷 Uso de datasets do Kaggle 🇺🇸 Use of Kaggle datasets |
🇧🇷 Uso Estratégico de Formatos 🇺🇸 Strategic Use of Formats |
🇧🇷 Entrega de resultados em formatos estáticos como .pdf e .png para proteger a propriedade intelectual do código, incentivando a consulta em vez do plágio.🇺🇸 Delivery of results in static formats like .pdf and .png to protect the code's intellectual property, encouraging consultation over plagiarism. |
🇧🇷 Entregáveis em .pdf e .png 🇺🇸 Deliverables in .pdf & .png |
🇧🇷 Consolidação e Síntese 🇺🇸 Knowledge Consolidation & Synthesis |
🇧🇷 Artefatos que não são meros templates, mas o resultado da consolidação do conhecimento adquirido, demonstrando a capacidade de comunicar resultados complexos. 🇺🇸 Artifacts that are not mere templates but the result of consolidating the acquired knowledge, demonstrating the ability to communicate complex results. |
🇧🇷 Ecossistema de Data Science 🇺🇸 Data Science Ecosystem 🇧🇷 Apresentação Final 🇺🇸 Final Presentation |
* 🇧🇷 Clique na imagem acima para verificar a certificação.
🇺🇸 Click the image above to verify the certification.
* 🇧🇷 A especialização profissional é composta por uma série de cursos rigorosos que desenvolvem competências essenciais e aplicadas na área de Ciência de Dados.
* 🇺🇸 The professional specialization consists of a series of rigorous courses that develop essential and applied competencies in the field of Data Science.
Categoria / Category | Habilidades / Skills |
---|---|
Análise de Dados / Data Analysis | Análise de Regressão (Regression Analysis), Mineração de Dados (Data Mining), SQL, Análise Exploratória de Dados (Exploratory Data Analysis). |
Machine Learning | Scikit-learn, Aprendizado Supervisionado (Supervised Learning), Aprendizado Não Supervisionado (Unsupervised Learning). |
Ferramentas e Linguagens / Tools & Languages | Python, SQL, Jupyter Notebooks, Pandas, NumPy. |
Visualização de Dados / Data Visualization | Matplotlib, Seaborn, Plotly, Folium. |
Tecnologias Emergentes / Emerging Technologies | IA Generativa (Generative AI). |
Competências Profissionais / Professional Skills | Alfabetização de Dados (Data Literacy), Networking Profissional (Professional Networking). |
- What is Data Science?
- Tools for Data Science
- Data Science Methodology
- Generative AI: Elevate Your Data Science Career
- Data Scientist Career Guide and Interview Preparation
- Applied Data Science Capstone
Competência / Competency | Descrição / Description | Artefato Principal / Key Artifact |
---|---|---|
Engenharia de Dados e SQL Data Engineering & SQL |
* 🇧🇷 Análise de múltiplos datasets da cidade de Chicago para responder a perguntas complexas usando queries SQL com JOINS , CASE e subqueries.* 🇺🇸 Analysis of multiple Chicago datasets to answer complex questions using SQL queries with JOINS , CASE , and subqueries. |
Análise de Dados de Chicago com SQL |
Machine Learning Preditivo Predictive Machine Learning |
* 🇧🇷 Desenvolvimento ponta a ponta de modelos de Regressão para prever preços de imóveis, validado por uma série de screenshots que provam a construção da solução. * 🇺🇸 End-to-end development of Regression models to predict house prices, validated by a series of screenshots proving the solution's construction. |
Evidências do Projeto de Machine Learning |
Web Scraping e APIs Web Scraping & APIs |
* 🇧🇷 Extração de dados de ações (Tesla & GME) via yfinance e BeautifulSoup para a construção de um dashboard interativo.* 🇺🇸 Extraction of stock data (Tesla & GME) via yfinance and BeautifulSoup to build an interactive dashboard. |
Dashboard e Web Scraping de Ações |
Análise Geoespacial Interativa Interactive Geospatial Analysis |
* 🇧🇷 Criação de um mapa interativo com Folium para analisar a localização dos locais de lançamento da SpaceX e sua relação com a infraestrutura circundante. * 🇺🇸 Creation of an interactive map with Folium to analyze SpaceX launch site locations and their relationship with surrounding infrastructure. |
Visualização Interativa com Folium |
Automação de Relatórios (PDF) Report Automation (PDF) |
* 🇧🇷 Desenvolvimento de um script em Python para automatizar a geração de relatórios em PDF, consolidando múltiplas análises em um documento profissional. * 🇺🇸 Development of a Python script to automate the generation of PDF reports, consolidating multiple analyses into a professional document. |
Gerador de Relatórios em PDF |
* 🇧🇷 Demonstrações visuais dos principais projetos do curso e das análises proativas desenvolvidas para expandir o escopo original, validando a aplicação prática das competências.
* 🇺🇸 Visual demonstrations of the main course projects and the proactive analyses developed to expand the original scope, validating the practical application of the competencies.
* 🇧🇷 Este GIF demonstra o processo de análise exploratória e a performance do modelo de regressão para prever os preços dos imóveis.
* 🇺🇸 This GIF demonstrates the exploratory data analysis process and the performance of the regression model for predicting house prices.
* 🇧🇷 Este GIF exibe o funcionamento do script que extrai dados financeiros das ações da Tesla e GameStop, culminando na criação de um dashboard interativo.
* 🇺🇸 This GIF showcases the script that extracts financial data for Tesla and GameStop stocks, culminating in the creation of an interactive dashboard.
🚀 Análise de Performance para Otimização de Lançamentos (Cargas > 5 Toneladas) / Performance Analysis for Launch Optimization (Payloads > 5 Tons)
* 🇧🇷 Análise proativa para identificar o melhor local de lançamento para foguetes com cargas úteis superiores a 5.000 kg, baseada na taxa de sucesso e destacada com visualização geoespacial.
* 🇺🇸 Proactive analysis to identify the optimal launch site for rockets with payloads over 5,000 kg, based on success rates and highlighted with geospatial visualization.
Principal Insight:
* 🇧🇷 Através da análise, o local VAFB SLC-4E (Lat: 34.63, Long: -120.61) foi identificado como o de maior performance para esta categoria de lançamento.
* 🇺🇸 Through this analysis, the VAFB SLC-4E site (Lat: 34.63, Long: -120.61) was identified as the top performer for this launch category.
💡 Análise de Fatores Socioeconômicos na Criminalidade em Propriedades Escolares (Chicago) / Analysis of Socioeconomic Factors in Crime on School Properties (Chicago)
* 🇧🇷 Investigação original sobre a correlação entre o Índice de Dificuldade de uma comunidade e a incidência de crimes em propriedades escolares, utilizando uma query SQL direcionada.
* 🇺🇸 Original investigation into the correlation between a community's Hardship Index and the incidence of crimes on school properties, using a targeted SQL query.
Query SQL Estratégica / Strategic SQL Query:
SELECT
C.COMMUNITY_AREA_NAME,
C.HARDSHIP_INDEX,
COUNT(CR.CASE_NUMBER) AS CRIMES_ON_SCHOOL_PROPERTY
FROM
CENSUS_DATA AS C
JOIN
CRIME_DATA AS CR ON C.COMMUNITY_AREA_NUMBER = CR.COMMUNITY_AREA_NUMBER_CRIME
WHERE
CR.LOCATION_DESCRIPTION LIKE '%SCHOOL%'
GROUP BY
C.COMMUNITY_AREA_NAME, C.HARDSHIP_INDEX
ORDER BY
C.HARDSHIP_INDEX DESC
LIMIT 10;
Resultado da Query / Query Result:
COMMUNITY_AREA_NAME | HARDSHIP_INDEX | CRIMES_ON_SCHOOL_PROPERTY
------------------------|------------------|-----------------------------
Brighton Park | 84.0 | 1
East Garfield Park | 83.0 | 1
Austin | 73.0 | 2
South Shore | 55.0 | 1
Douglas | 47.0 | 1
Rogers Park | 39.0 | 1
Ashburn | 37.0 | 2
Lincoln Square | 17.0 | 1
Principal Insight:
* 🇧🇷 A análise revelou uma tendência onde comunidades com maiores Índices de Dificuldade também figuram na lista de locais com crimes em propriedades escolares.
* 🇺🇸 The analysis revealed a trend where communities with higher Hardship Indices also appear on the list of locations with crimes on school properties.
graph TD
subgraph "Fase 1: Coleta e Engenharia"
A[<br><br><b>Fontes de Dados</b><br><br>APIs, CSVs, Web Scraping] --> B{<b>Processamento e Armazenamento</b><br><br>Python & SQL};
end
subgraph "Fase 2: Análise e Modelagem"
B --> C[<b>Limpeza e Análise Exploratória</b><br><br>Pandas, NumPy];
C --> D{<b>Machine Learning</b><br><br>Scikit-learn};
end
subgraph "Fase 3: Visualização e Comunicação"
D --> E[<b>Visualização de Dados</b><br><br>Matplotlib, Seaborn];
C --> E;
B --> F[<b>Mapas Geoespaciais</b><br><br>Folium];
E & F --> G((<b>Resultados e Insights</b><br><br>Dashboards, Relatórios, APIs));
end
style A fill:#D6EAF8,stroke:#2874A6
style B fill:#D1F2EB,stroke:#138D75
style C fill:#FDEDEC,stroke:#B03A2E
style D fill:#FAD7A0,stroke:#AF601A
style G fill:#bbf,stroke:#333,stroke-width:2px
- Linguagens / Languages: Python, SQL
- Bibliotecas de Dados / Data Libraries: Pandas, NumPy
- Visualização / Visualization: Matplotlib, Seaborn, Plotly Dash, Folium
- Machine Learning: Scikit-learn (Linear Regression, Ridge Regression, Pipelines)
- Banco de Dados / Database: IBM Db2, SQLite
- Desenvolvimento / Development: Jupyter Lab/Notebooks, Git/GitHub, Ambiente Linux (Ubuntu)
* 🇧🇷 Limitações: Alguns projetos, como a análise de imóveis, utilizaram datasets do Kaggle como alternativa a fontes originais que estavam inacessíveis. Os modelos preditivos podem ser otimizados com mais engenharia de features e ajuste de hiperparâmetros.
* 🇺🇸 Limitations: Some projects, such as the housing analysis, used Kaggle datasets as an alternative to original, inaccessible sources. The predictive models can be optimized with more feature engineering and hyperparameter tuning.
* 🇧🇷 Trabalhos Futuros: Os próximos passos incluem o deploy de um dos modelos como uma API REST, a criação de um pipeline de dados automatizado com Airflow e a configuração de GitHub Actions para testes contínuos.
* 🇺🇸 Future Work: Next steps include deploying one of the models as a REST API, creating an automated data pipeline with Airflow, and setting up GitHub Actions for continuous testing.
* 🇧🇷 Para clonar e executar este projeto localmente, siga os passos abaixo.
* 🇺🇸 To clone and run this project locally, follow the steps below.
- Clone o repositório / Clone the repository:
git clone https://github.com/jeffthedeveloper/applied-data-science-capstone-end-to-end-analysis-with-python-sql-and-machine-learning.git cd applied-data-science-capstone-end-to-end-analysis-with-python-sql-and-machine-learning
- Crie e ative um ambiente virtual / Create and activate a virtual environment:
python -m venv venv source venv/bin/activate # No Windows: venv\Scripts\activate
- Instale as dependências / Install dependencies:
pip install -r requirements.txt
- Inicie o Jupyter Lab / Start Jupyter Lab:
jupyter lab
* 🇧🇷 Este repositório é, primariamente, um portfólio pessoal. No entanto, sugestões de melhoria, correções de bugs ou otimizações são bem-vindas. Sinta-se à vontade para abrir uma Issue para discutir mudanças ou submeter um Pull Request.
* 🇺🇸 This repository is primarily a personal portfolio. However, suggestions for improvements, bug fixes, or optimizations are welcome. Feel free to open an Issue to discuss changes or submit a Pull Request.
- Curso Base / Base Course: IBM Data Science Professional Certificate via Coursera.
- Datasets: Agradecimentos à comunidade Kaggle por fornecer datasets alternativos. / Thanks to the Kaggle community for providing alternative datasets.
- Principais Bibliotecas / Main Libraries: Pandas, Scikit-learn, Matplotlib, Seaborn, Plotly, Folium.
* 🇧🇷 Este trabalho educacional está licenciado sob a Licença MIT.
* 🇺🇸 This educational work is licensed under the MIT License.