Python para Análise de Dados • Trabalho Final de Unidade

Exploração dos Microdados do INEP

Em equipes, escolham uma base abaixo (ENEM, Censo(s), SAEB, ENADE, ENCCEJA) e realizem uma Análise Exploratória de Dados (EDA) completa: qualidade dos dados, padrões, anomalias, curiosidades e insights que ajudem a contar uma história com evidências.

Entrega: 28/08/2025 (PDF + código reprodutível) tempo restante… Apresentação: opcional
ℹ️ Sobre as fontes

Requisitos mínimos

  • Data prep: avaliação de valores ausentes, tipos, duplicatas, outliers, consistência temporal/espacial.
  • EDA visual: distribuições, comparações, correlações; gráficos adequados e legibilidade.
  • Relato claro: contexto, perguntas investigativas, achados, limitações e próximos passos.
  • Ética e LGPD: dados são pseudonimizados; não tente reidentificar indivíduos.
  • Compartilhe no seu Linkedin

Ideias de exploração

  • Qualidade: dicionário vs. dados (codificações, ranges, códigos especiais).
  • Tempo: séries históricas, quebras de tendência, efeitos de políticas públicas.
  • Espaço: mapas por UF/município (taxas, notas, matrículas).
  • Equidade: recortes por sexo, raça/cor, rede, localização e nível socioeconômico.
  • Modelagem: clusters, regressões simples, árvores interpretáveis (com parcimônia).

Sobre as fontes

Os microdados do INEP são conjuntos detalhados sobre avaliações e pesquisas educacionais (ENEM, SAEB, ENADE, Censos). Em geral vêm em .zip com CSV (delimitador |), Leia-me, Dicionário de Dados e questionários. Desde 2018, o INEP adequa a divulgação à LGPD, reduzindo risco de identificação direta.

Dica: verifique o Leia-me e o Dicionário da edição escolhida para importar corretamente (codificações, tipos, pesos, amostras, agregações).

Entrega

  • Envio do notebook(s) por e-mail: aasouzaconsult@gmail.com
  • Adicione no e-mail um relatório (PDF/HTML) com narrativa, visualizações e achados.

Critérios de avaliação

  • Profundidade da exploração e justificativas.
  • Qualidade dos gráficos e interpretação.
  • Rigor metodológico (limpeza, checagens, replicabilidade).
  • Clareza e storytelling com evidências.

Boas práticas

  • Use pandas, matplotlib/pyodbc quando apropriado.
  • Documente decisões (códigos especiais, filtros, pesos amostrais).