Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
The table of contents is too big for display.
Diff view
Diff view
  •  
  •  
  •  
148 changes: 148 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -113,6 +113,154 @@ Sitio estático construido con HTML, CSS y JavaScript vanilla. Sin paso de compi

Las imágenes de páginas escaneadas se sirven desde CDN. Desplegado en [Cloudflare Pages](https://pages.cloudflare.com/).

## Transcripciones OCR

El sitio puede incorporar transcripciones OCR de las páginas escaneadas para habilitar:

- búsqueda por contenido dentro de los documentos
- visualización sincronizada entre imagen y transcripción en el visor
- conservación de una versión legible de las transcripciones dentro del repositorio

Las herramientas de OCR **no forman parte de este repositorio**. La extracción debe ejecutarse localmente, fuera del proyecto, y luego sólo se versionan los artefactos finales.

### Estructura de datos

```text
data/
├── search-index.json # Índice compacto para búsqueda cliente-side
├── transcripts/ # JSON runtime por documento
│ └── doc-12.json
└── transcripts-md/ # Markdown legible por documento
└── doc-12.md
```

### Formato recomendado

JSON por documento:

```json
{
"id": "doc-12",
"title": "Titulo del documento",
"page_count": 14,
"pages": [
{
"page": 1,
"global_page": 123,
"text": "texto extraido..."
}
]
}
```

Markdown por documento:

```md
# doc-12

## Titulo
Titulo del documento

## Pagina 1
texto extraido...
```

Índice de búsqueda:

```json
[
{
"docId": "doc-12",
"title": "Titulo del documento",
"page": 4,
"globalPage": 126,
"text": "texto normalizado para busqueda"
}
]
```

### Criterios editoriales

- preservar la estructura por página
- conservar saltos de línea cuando aporten contexto
- omitir encabezados o pies repetidos si no agregan valor documental
- evitar correcciones agresivas del texto OCR
- asumir idioma español

### Flujo de trabajo sugerido

1. Ejecutar OCR fuera del repositorio sobre `images/pages/`.
2. Comparar calidad sobre una muestra antes de procesar el corpus completo.
3. Generar los archivos finales en `data/transcripts/` y `data/transcripts-md/`.
4. Generar `data/search-index.json` con texto normalizado para búsqueda.
5. Verificar que cada resultado apunte a la página correcta en `/documentos/ver/?id=...&page=...`.

### Motores OCR sugeridos

- `Tesseract` con idioma `spa`, como línea base libre y fácil de automatizar
- `PaddleOCR` como alternativa si la calidad sobre escaneos degradados resulta superior

Dado que este archivo documental contiene imágenes históricas escaneadas, conviene evaluar ambos motores sobre una muestra con preprocesamiento previo: escala de grises, binarización, aumento de contraste y corrección de inclinación cuando sea necesario.

El estado operativo y la lista de tareas pendientes se mantienen en `TRANSCRIPTS_OCR_PLAN.md`.

### Estado actual de la implementación

Hasta el momento se realizó lo siguiente:

- extracción OCR completa fuera del repositorio sobre las `987` imágenes en `images/pages/`
- generación de un conjunto corregido de transcripciones OCR a nivel página
- incorporación al repositorio de artefactos por documento en:
- `data/transcripts/`
- `data/transcripts-md/`
- generación de un índice global de búsqueda en `data/search-index.json`
- integración de transcripciones en el visor `/documentos/ver/?id=...`
- integración de búsqueda full-text por página en `/documentos/`
- incorporación de una lectura histórica breve en la portada y una lectura ampliada en la sección `Acerca de`

### Cómo quedó integrado en el sitio

- cada documento carga su transcripción desde `data/transcripts/<doc-id>.json`
- el visor muestra la imagen y la transcripción de la página actual
- la navegación por página actualiza también la transcripción
- el catálogo puede buscar coincidencias en título, descripción y texto OCR
- los resultados de búsqueda de transcripción enlazan directamente a la página correspondiente del visor

### Cobertura OCR actual

- documentos con transcripción integrada: `26`
- páginas indexadas para búsqueda: `962`
- páginas sin texto OCR útil: `25`

Estas páginas vacías o con OCR muy deficiente siguen siendo candidatas para revisión manual o para una segunda pasada específica.

### Limitaciones actuales

- algunas páginas con tablas, diagramas, sellos o maquetaciones complejas todavía presentan fragmentación del texto
- la imagen escaneada sigue siendo la referencia principal
- la transcripción debe leerse como apoyo de lectura y búsqueda, no como reemplazo exacto del documento fuente

### Vista local

Para revisar el sitio localmente:

```bash
python3 -m http.server 8000
```

Luego abrir:

```text
http://127.0.0.1:8000/
```

Ejemplos útiles:

```text
http://127.0.0.1:8000/documentos/
http://127.0.0.1:8000/documentos/ver/?id=doc-12&page=45
```

## Abreviaturas

| Sigla | Significado |
Expand Down
75 changes: 75 additions & 0 deletions acerca-desclasificacion/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -171,6 +171,81 @@ <h2>Organización del Material</h2>
<li><strong>Carpeta 3 — Comisión Asesora de Antecedentes (CAA):</strong> 11 Resoluciones sobre la creación, funcionamiento y normas de calificación ideológica de la CAA (1973–1983).</li>
</ul>

<section class="findings-section findings-section-about">
<div class="findings-intro">
<h2>Qué Revelan Estos Documentos</h2>
<p>
Tomados en conjunto, estos materiales permiten leer dimensiones centrales del funcionamiento
de la SIDE durante la última dictadura militar. No se trata sólo de papeles administrativos:
la documentación deja ver la lógica de organización, ocultamiento, coordinación territorial y
vigilancia ideológica con la que operó el aparato de inteligencia estatal entre 1976 y 1983.
</p>
</div>

<div class="finding-detail">
<h3>1. Reorganización institucional después del golpe</h3>
<p>
Las resoluciones sobre estructura orgánica, organigramas, misiones y funciones muestran que
la SIDE no fue un dispositivo difuso, sino una organización cuidadosamente jerarquizada y
reconfigurada a lo largo del período. En estos documentos aparecen nuevas áreas, cambios de
dependencia y la formalización de tareas internas, lo que permite observar cómo se consolidó
el aparato de inteligencia en los años posteriores a 1976.
</p>
</div>

<div class="finding-detail">
<h3>2. Encubrimiento y codificación del propio organismo</h3>
<p>
Las normas de encubrimiento del personal y de las dependencias, así como la codificación de
áreas y subsecretarías, revelan una preocupación institucional por enmascarar la estructura
misma de la Secretaría. Esto resulta significativo porque indica que el secreto no recaía sólo
sobre la información producida, sino también sobre la arquitectura del organismo, sus circuitos
internos y sus identidades operativas.
</p>
</div>

<div class="finding-detail">
<h3>3. Delegaciones territoriales y coordinación funcional</h3>
<p>
Las directivas y manuales sobre delegaciones regionales y provinciales sugieren una red
territorial de obtención de informaciones y coordinación con otras jefaturas del período.
En ese marco, la referencia a la colaboración en la “lucha contra la subversión” vuelve
visible el modo en que la estructura de inteligencia se proyectaba fuera de la sede central
y se articulaba con otros actores estatales y militares.
</p>
</div>

<div class="finding-detail">
<h3>4. Vigilancia ideológica sobre personas y materiales culturales</h3>
<p>
La documentación vinculada a la Comisión Asesora de Antecedentes exhibe un sistema de
clasificación y asesoramiento ideológico aplicado a personas, publicaciones, grabaciones,
películas y otros materiales. Esto es particularmente importante porque muestra que el control
no se limitaba a la inteligencia política en sentido estricto, sino que también alcanzaba la
circulación cultural y los criterios de evaluación de ideas, doctrinas y corrientes políticas.
</p>
</div>

<div class="finding-detail">
<h3>5. Sistematización de antecedentes y bases de datos</h3>
<p>
Los documentos finales del período dejan entrever una etapa de formalización más intensa del
registro interno, con referencias a equivalencias de calificación, microfichas y bases de datos
de antecedentes. Esa evolución resulta relevante porque muestra un pasaje desde la clasificación
ideológica hacia formas más estructuradas de administración y circulación de antecedentes dentro
del sistema de inteligencia.
</p>
</div>

<div class="findings-note">
<p>
Esta lectura se apoya en la documentación identificada y en sus descripciones archivísticas.
Cuando el texto OCR de una página presenta dudas o fragmentación, prevalece el sentido general
documentado en el conjunto del archivo antes que una interpretación aislada de una línea mal leída.
</p>
</div>
</section>

<h2>Antecedentes Históricos</h2>
<p>
En 1946 durante el primer gobierno de Juan Domingo Perón se creó la <strong>Coordinación de
Expand Down
Loading