Introducción
BCN Extractor es un sistema de extracción y almacenamiento de normas legales chilenas desde los servicios web de la Biblioteca del Congreso Nacional de Chile (BCN).
Está pensado como la capa de Extracción de un pipeline ELT (Extract, Load, Transform) para análisis legal, permitiendo a investigadores, desarrolladores y organizaciones acceder de forma programática a las normas relevantes para instituciones específicas.
¿Qué hace?
Section titled “¿Qué hace?”BCN Extractor automatiza tres tareas:
- Extrae instituciones desde la página de agrupadores de la BCN
- Descarga las normas legales asociadas a cada institución vía servicios web XML
- Almacena todo en una base de datos PostgreSQL con full-text search en español
Casos de uso
Section titled “Casos de uso”| Caso | Descripción |
|---|---|
| Análisis legal | Investigadores que necesitan analizar legislación de un sector específico |
| Compliance | Empresas que deben monitorear normativas aplicables a su industria |
| Transparencia | Ciudadanos y organizaciones que buscan información legal estructurada |
| Data Science / NLP | Científicos de datos que quieren aplicar ML sobre corpus legales |
Tecnologías
Section titled “Tecnologías”- Python 3.9+ — lenguaje principal
- PostgreSQL 15+ — almacenamiento con FTS en español
- FastAPI — REST API con Swagger UI autogenerado
- Docker — deploy reproducible con
docker-compose - lxml — parsing de documentos XML de la BCN
Estado del proyecto
Section titled “Estado del proyecto”WIP BCN Extractor está en desarrollo activo. Las fases 1, 2 y 3 están completas; la fase 4 (web) está en curso.
Consulta el Roadmap para ver el estado detallado de cada fase.