Skip to content

Introducción

BCN Extractor es un sistema de extracción y almacenamiento de normas legales chilenas desde los servicios web de la Biblioteca del Congreso Nacional de Chile (BCN).

Está pensado como la capa de Extracción de un pipeline ELT (Extract, Load, Transform) para análisis legal, permitiendo a investigadores, desarrolladores y organizaciones acceder de forma programática a las normas relevantes para instituciones específicas.

BCN Extractor automatiza tres tareas:

  1. Extrae instituciones desde la página de agrupadores de la BCN
  2. Descarga las normas legales asociadas a cada institución vía servicios web XML
  3. Almacena todo en una base de datos PostgreSQL con full-text search en español
CasoDescripción
Análisis legalInvestigadores que necesitan analizar legislación de un sector específico
ComplianceEmpresas que deben monitorear normativas aplicables a su industria
TransparenciaCiudadanos y organizaciones que buscan información legal estructurada
Data Science / NLPCientíficos de datos que quieren aplicar ML sobre corpus legales
  • Python 3.9+ — lenguaje principal
  • PostgreSQL 15+ — almacenamiento con FTS en español
  • FastAPI — REST API con Swagger UI autogenerado
  • Docker — deploy reproducible con docker-compose
  • lxml — parsing de documentos XML de la BCN

WIP BCN Extractor está en desarrollo activo. Las fases 1, 2 y 3 están completas; la fase 4 (web) está en curso.

Consulta el Roadmap para ver el estado detallado de cada fase.