Obs: Desenvolvi esse trabalho em 2024, mas não havia publicado para rede. Pretendo ampliar as análises, culturas e anos.
Este projeto analisa a relação entre produção agrícola das principais culturas brasileiras (soja, milho e arroz) e o desmatamento em municípios do país. A análise integra dados oficiais do IBGE e INPE para identificar padrões espaciais e temporais, classificar municípios por risco ambiental e desenvolver modelos preditivos.
- Mapear espacialmente municípios com maior desmatamento e produção agrícola
- Classificar municípios por nível de risco ambiental (baixo, médio, alto)
- Analisar séries temporais para identificar tendências de desmatamento e produção
- Desenvolver modelo preditivo usando Random Forest para estimar desmatamento
- Identificar variáveis-chave que mais contribuem para o desmatamento
Pessoal, sempre gosto de construir os scripts.R e um relatório.qmd nos meus projetos.
Produção Agrícola Municipal (PAM) - IBGE:
-
Produção total (toneladas)
-
Área colhida (hectares)
-
Valor da produção
-
Culturas: soja, milho e arroz em grão
Programa de Monitoramento do Desmatamento (PRODES) - INPE:
-
Desmatamento anual (hectares)
-
Área total municipal
-
Cobertura vegetal natural
Ambas as fontes foram acessadas via Base dos Dados (BigQuery), cobrindo o período de 2015 a 2021.
- Conexão ao BigQuery para extração de dados PAM e PRODES
- Integração das bases por município e ano
- Validação e limpeza de dados inconsistentes
Criação de variáveis derivadas para análise:
-
Temporais: lags de desmatamento, médias móveis, crescimento de produção
-
Eficiência: produtividade (ton/ha), risco por tonelada (ha/ton)
-
Pressão ambiental: relação entre área cultivada e vegetação natural
-
Classificação: classes de risco baseadas em percentis
- Divisão temporal: treino (2015-2019), validação (2020), teste (2021)
- Algoritmo: Random Forest com 300 árvores
- Features: 9 variáveis selecionadas (produção, área, produtividade, histórico de desmatamento, etc.)
- Avaliação: MAE, RMSE, R², MAPE
- Estatísticas descritivas por classe de risco
- Análise temporal agregada
- Distribuição espacial do desmatamento
- Gráficos de importância de variáveis
- Scatter plots de produção vs desmatamento
- Mapas interativos (Leaflet)
risco_desmatamento/
├── .gitignore
├── .Rprofile
├── renv/
├── renv.lock
├── risco_desmatamento.Rproj
├── README.md
├── scripts/
│ └── risco_desmatamento.R
├── outputs/
│ ├── figures/
│ ├── tables/
│ │ ├── analise_descritiva_por_risco.csv
│ │ ├── analise_descritiva_temporal.csv
│ │ ├── dataset_integrado.csv
│ │ ├── metricas_modelo.csv
│ │ ├── predicoes_teste.csv
│ │ ├── relatorio_execucao.csv
│ │ └── top50_municipios_2021.csv
│ └── maps/
│ ├── mapa_1_top_risco.html
│ ├── mapa_1_top_risco_files/
│ ├── mapa_2_intensidade.html
│ ├── mapa_2_intensidade_files/
│ ├── mapa_3_eficiencia.html
│ ├── mapa_3_eficiencia_files/
│ ├── mapa_4_estados.html
│ └── mapa_4_estados_files/
Municípios classificados em três categorias baseadas na relação desmatamento/produção:
-
Baixo risco: Alta produção com baixo desmatamento relativo
-
Médio risco: Equilíbrio intermediário
-
Alto risco: Desmatamento desproporcional à produção
O Random Forest demonstrou capacidade de estimar desmatamento com base em variáveis agrícolas e históricas. As variáveis mais importantes incluem:
-
Histórico de desmatamento (lags 1 e 2)
-
Área colhida total
-
Pressão sobre vegetação natural
-
Produção total
- Forte concentração de desmatamento em estados da fronteira agrícola
- Correlação espacial entre municípios vizinhos
- Inércia no processo de desmatamento (municípios com histórico elevado mantêm padrão)
- Relação não-linear entre produção e desmatamento
# Instalar pacotes necessários
install.packages("pacman")
library(pacman)
pacman::p_load(
dplyr,
tidyr,
ggplot2,
scales,
zoo,
DBI,
bigrquery,
sf,
geobr,
leaflet,
randomForest,
skimr,
rsample,
yardstick,
tibble,
stringr,
readr,
htmltools,
htmlwidgets)source("risco_desmatamento.R")-
Este script executa todo o pipeline:
-
Extração de dados do BigQuery
-
Processamento e engenharia de features
-
Análise exploratória
-
Modelagem preditiva
-
Geração de visualizações
-
Exportação de resultados
Tabelas (CSV):
-
dataset_integrado.csv: Base completa processada -
top50_municipios_2021.csv: Municípios com maior desmatamento -
predicoes_teste.csv: Previsões do modelo -
metricas_modelo.csv: Métricas de avaliação -
analise_descritiva_*.csv: Estatísticas
Visualizações:
-
figures/: Gráficos -
maps/: Mapas interativos HTML (abrir no navegador)
Modelo:
models/modelo_rf.rds: Modelo Random Forest
- Identificação de municípios prioritários para fiscalização
- Monitoramento de áreas de alto risco
- Avaliação de efetividade de políticas ambientais
- Benchmarking de eficiência produtiva
- Planejamento de expansão sustentável
- Subsídio para certificações ambientais
- Período de 7 anos pode não capturar ciclos longos
- Foco limitado a três culturas principais
- Variáveis omitidas (preços, políticas, infraestrutura)
- Incorporar variáveis socioeconômicas
- Expandir análise para outras culturas
- Integrar dados de fiscalização ambiental
- Desenvolver modelos de previsão de longo prazo
- Analisar efeitos de políticas específicas
Jennifer Luz Lopes
-
Portfólio: https://jenniferlopes.quarto.pub/portifolio/
-
GitHub: https://github.com/JenniferLopes
MIT.
- IBGE - Produção Agrícola Municipal (PAM)
- INPE - Programa de Monitoramento do Desmatamento (PRODES)
- Base dos Dados - https://basedosdados.org/