Los PDF de imagen solo parecen texto
Un PDF escaneado suele ser una imagen de página. Puedes ver letras en pantalla, pero quizá no haya una capa de texto incrustada para copiar o extraer. En ese caso necesitas OCR.
Guía
Ver letras en un PDF no significa siempre que haya texto copiable debajo. La causa depende de cómo se creó el archivo y de si el documento permite extraerlo.
Un PDF escaneado suele ser una imagen de página. Puedes ver letras en pantalla, pero quizá no haya una capa de texto incrustada para copiar o extraer. En ese caso necesitas OCR.
Algunos PDF usan fuentes personalizadas o una codificación poco habitual. El texto puede verse bien y aun así salir roto, sin espacios o en un orden extraño al extraerse.
Un PDF también puede incluir restricciones de seguridad que impidan copiar o extraer. Aunque visualmente contenga texto, el lector o la biblioteca pueden negarse a exponerlo.
Prueba a seleccionar una línea corta en un lector PDF normal. Si no puedes seleccionar nada, quizá sea un PDF de imagen o protegido. Si puedes seleccionar pero el texto sale roto, es más probable que el problema sea de codificación.
Extraer Texto de PDF lee una capa de texto existente en el navegador. No hace OCR a PDF de imagen ni puede saltarse restricciones que respeten el navegador o la biblioteca PDF.