Guía

Por qué no se puede copiar el texto de un PDF

Ver letras en un PDF no significa siempre que haya texto copiable debajo. La causa depende de cómo se creó el archivo y de si el documento permite extraerlo.

Los PDF de imagen solo parecen texto

Un PDF escaneado suele ser una imagen de página. Puedes ver letras en pantalla, pero quizá no haya una capa de texto incrustada para copiar o extraer. En ese caso necesitas OCR.

La codificación de fuentes puede romper la extracción

Algunos PDF usan fuentes personalizadas o una codificación poco habitual. El texto puede verse bien y aun así salir roto, sin espacios o en un orden extraño al extraerse.

Los permisos pueden bloquear la copia

Un PDF también puede incluir restricciones de seguridad que impidan copiar o extraer. Aunque visualmente contenga texto, el lector o la biblioteca pueden negarse a exponerlo.

Qué conviene comprobar primero

Prueba a seleccionar una línea corta en un lector PDF normal. Si no puedes seleccionar nada, quizá sea un PDF de imagen o protegido. Si puedes seleccionar pero el texto sale roto, es más probable que el problema sea de codificación.

Qué puede y qué no puede hacer PDFresh

Extraer Texto de PDF lee una capa de texto existente en el navegador. No hace OCR a PDF de imagen ni puede saltarse restricciones que respeten el navegador o la biblioteca PDF.