OCR se usa cuando el PDF es una imagen
Si cada página es básicamente una foto o un escaneo, la herramienta no encuentra una capa de texto real. OCR intenta reconocer las letras a partir de la imagen.
Guía
OCR y extracción de texto no son la misma tarea. Uno reconoce letras dentro de una imagen; el otro lee texto que ya estaba incrustado en el PDF.
Si cada página es básicamente una foto o un escaneo, la herramienta no encuentra una capa de texto real. OCR intenta reconocer las letras a partir de la imagen.
Si el PDF se creó digitalmente con texto seleccionable, una herramienta de extracción puede leer esa capa de texto directamente, sin reconocimiento OCR.
Si usas una herramienta de extracción sobre un escaneo, el resultado puede estar vacío o casi vacío. Eso no significa necesariamente que el archivo esté roto; puede significar que necesitas OCR.
Extraer Texto de PDF está pensado para PDF que ya contienen texto seleccionable. Si el archivo es un escaneo, consulta antes esta guía y no esperes un resultado equivalente a OCR.