Perseval

Sistema de agentes autônomos para extração de questões de provas em PDF usando Cloudflare Agents SDK.

Arquitetura

O sistema utiliza uma arquitetura de múltiplos agentes que trabalham de forma coordenada:

┌─────────────────────────────────────────────────────────────────┐
│                         Upload PDF                               │
└─────────────────────────────────────────────────────────────────┘
                                │
                                ▼
┌─────────────────────────────────────────────────────────────────┐
│                    OrchestratorAgent                             │
│  • Analisa estrutura do PDF                                      │
│  • Identifica quantidade de questões                             │
│  • Extrai textos de apoio                                        │
│  • Coordena agentes extratores                                   │
└─────────────────────────────────────────────────────────────────┘
                                │
                    ┌───────────┼───────────┐
                    ▼           ▼           ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Extractor   │ │ Extractor   │ │ Extractor   │  ... (1 por questão)
│ Agent Q1    │ │ Agent Q2    │ │ Agent QN    │
│             │ │             │ │             │
│ • Extrai    │ │ • Extrai    │ │ • Extrai    │
│   enunciado │ │   enunciado │ │   enunciado │
│ • Extrai    │ │ • Extrai    │ │ • Extrai    │
│   opções    │ │   opções    │ │   opções    │
│ • Valida    │ │ • Valida    │ │ • Valida    │
└─────────────┘ └─────────────┘ └─────────────┘
                    │           │           │
                    └───────────┼───────────┘
                                ▼
┌─────────────────────────────────────────────────────────────────┐
│                    ConsolidatorAgent                             │
│  • Recebe todas as questões extraídas                            │
│  • Valida consistência                                           │
│  • Resolve referências cruzadas                                  │
│  • Gera documento final (JSON + Markdown)                        │
└─────────────────────────────────────────────────────────────────┘
                                │
                                ▼
┌─────────────────────────────────────────────────────────────────┐
│                      R2 Storage                                  │
│  • exam.json (estruturado)                                       │
│  • exam.md (visualização)                                        │
└─────────────────────────────────────────────────────────────────┘

Tecnologias

Cloudflare Workers - Runtime serverless
Cloudflare Agents SDK - Framework para agentes autônomos
Cloudflare Durable Objects - Estado persistente dos agentes
Cloudflare Workers AI - Modelos de IA para extração
Cloudflare R2 - Armazenamento de PDFs e resultados
Hono - Framework web leve
TypeScript - Tipagem estática

Instalação

# Clonar o repositório
git clone https://github.com/seu-usuario/exam-question-extractor.git
cd exam-question-extractor

# Instalar dependências
npm install

# Configurar Wrangler (se ainda não configurado)
npx wrangler login

# Criar bucket R2
npx wrangler r2 bucket create exam-pdfs

Configuração

Variáveis de Ambiente

Crie um arquivo .dev.vars para desenvolvimento local:

OPENAI_API_KEY=sk-... # Opcional, para usar OpenAI ao invés de Workers AI

Wrangler

O arquivo wrangler.jsonc já está configurado com:

Bindings para os 3 agentes (Durable Objects)
Binding para Workers AI
Binding para R2 bucket

Uso

Desenvolvimento Local

npm run dev

Deploy

npm run deploy

API

Endpoints

`POST /api/exams`

Inicia a extração de um novo exame.

Request:

{
  "pdfUrl": "https://exemplo.com/prova.pdf",
  "filename": "prova.pdf"
}

Ou com Base64:

{
  "pdfBase64": "JVBERi0xLjQK...",
  "filename": "prova.pdf"
}

Response:

{
  "examId": "exam-1704538800000-abc123",
  "status": "processing",
  "message": "Iniciada extração de 20 questões"
}

`GET /api/exams/:examId/status`

Retorna o status da extração.

Response:

{
  "examId": "exam-1704538800000-abc123",
  "status": "extracting",
  "progress": {
    "total": 20,
    "extracted": 15,
    "percentage": 75
  },
  "errors": []
}

`GET /api/exams/:examId/result`

Retorna o resultado da extração em JSON.

Response:

{
  "examId": "exam-1704538800000-abc123",
  "result": {
    "examInfo": {
      "title": "Prova de Estatística",
      "year": 2019,
      "institution": "SELECON",
      "duration": "2h",
      "totalQuestions": 20,
      "subjects": [...]
    },
    "supportTexts": [...],
    "questions": [...],
    "extractedAt": "2024-01-06T12:00:00Z",
    "totalProcessingTime": 45000,
    "successRate": 0.95
  }
}

`GET /api/exams/:examId/markdown`

Retorna o resultado em formato Markdown.

`DELETE /api/exams/:examId`

Remove um exame e seus resultados.

WebSocket (Agentes)

Conexão direta com agentes via WebSocket:

ws://localhost:8787/agents/orchestrator-agent/{examId}

Estrutura do Projeto

exam-question-extractor/
├── src/
│   ├── agents/
│   │   ├── OrchestratorAgent.ts    # Agente coordenador
│   │   ├── QuestionExtractorAgent.ts # Agente extrator
│   │   └── ConsolidatorAgent.ts    # Agente consolidador
│   ├── types/
│   │   └── index.ts                # Definições de tipos
│   ├── utils/
│   │   ├── pdf.ts                  # Utilitários para PDF
│   │   └── formatting.ts           # Formatação e validação
│   └── index.ts                    # Entry point e rotas
├── tests/
│   └── ...                         # Testes
├── docs/
│   └── ...                         # Documentação adicional
├── wrangler.jsonc                  # Configuração Cloudflare
├── tsconfig.json                   # Configuração TypeScript
├── package.json                    # Dependências
└── README.md                       # Este arquivo

Formato de Saída

Questão Extraída

{
  "number": 1,
  "subject": "Língua Portuguesa",
  "supportTextId": "texto_1",
  "statement": "O autor, para dar credibilidade às ideias expostas, faz uso de variados recursos...",
  "options": [
    {
      "letter": "A",
      "text": "citação de outro autor especializado na questão da saúde..."
    },
    {
      "letter": "B",
      "text": "abordagem de um problema comprovando sua gravidade..."
    },
    {
      "letter": "C",
      "text": "descrição impessoal, com neutralidade, puramente objetiva..."
    },
    {
      "letter": "D",
      "text": "predomínio da flexão dos verbos no pretérito do modo indicativo..."
    }
  ],
  "images": [],
  "tables": [],
  "formulas": [],
  "pageNumber": 2,
  "extractedAt": "2024-01-06T12:00:00Z",
  "confidence": 0.95
}

Limitações Conhecidas

Extração de PDF: A extração de texto de PDFs complexos pode requerer serviços adicionais (OCR, Adobe PDF Services, etc.)
Imagens: Imagens dentro de questões são identificadas mas não extraídas automaticamente
Fórmulas Matemáticas: Conversão para LaTeX é baseada em heurísticas e pode não ser 100% precisa
Rate Limits: Workers AI tem limites de requisições que podem afetar provas muito grandes

Melhorias Futuras

Integração com serviço de OCR para PDFs escaneados
Suporte a mais formatos de prova
Extração de imagens e diagramas
Interface web para upload e visualização
Exportação para formatos adicionais (DOCX, HTML)
Detecção automática de gabarito
Suporte a questões discursivas

Contribuindo

Fork o repositório
Crie uma branch para sua feature (git checkout -b feature/nova-feature)
Commit suas mudanças (git commit -am 'Adiciona nova feature')
Push para a branch (git push origin feature/nova-feature)
Abra um Pull Request

Licença

MIT License - veja LICENSE para detalhes.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Perseval

Arquitetura

Tecnologias

Instalação

Configuração

Variáveis de Ambiente

Wrangler

Uso

Desenvolvimento Local

Deploy

API

Endpoints

`POST /api/exams`

`GET /api/exams/:examId/status`

`GET /api/exams/:examId/result`

`GET /api/exams/:examId/markdown`

`DELETE /api/exams/:examId`

WebSocket (Agentes)

Estrutura do Projeto

Formato de Saída

Questão Extraída

Limitações Conhecidas

Melhorias Futuras

Contribuindo

Licença

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
docs		docs
src		src
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
package-lock.json		package-lock.json
package.json		package.json
tsconfig.json		tsconfig.json
vitest.config.ts		vitest.config.ts
wrangler.jsonc		wrangler.jsonc

License

qcx/perseval

Folders and files

Latest commit

History

Repository files navigation

Perseval

Arquitetura

Tecnologias

Instalação

Configuração

Variáveis de Ambiente

Wrangler

Uso

Desenvolvimento Local

Deploy

API

Endpoints

POST /api/exams

GET /api/exams/:examId/status

GET /api/exams/:examId/result

GET /api/exams/:examId/markdown

DELETE /api/exams/:examId

WebSocket (Agentes)

Estrutura do Projeto

Formato de Saída

Questão Extraída

Limitações Conhecidas

Melhorias Futuras

Contribuindo

Licença

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

`POST /api/exams`

`GET /api/exams/:examId/status`

`GET /api/exams/:examId/result`

`GET /api/exams/:examId/markdown`

`DELETE /api/exams/:examId`

Packages