画像PDFは文字に見えてもテキストではない
スキャンPDFはページ全体が画像であることが多く、画面上では文字が見えていても、コピーや抽出に使える文字レイヤーが存在しない場合があります。この場合に必要なのは通常の文字抽出ではなくOCRです。
ガイド
PDFに文字が見えていても、内部にコピー可能な文字データがあるとは限りません。原因はPDFの作られ方や権限制限によって変わります。
スキャンPDFはページ全体が画像であることが多く、画面上では文字が見えていても、コピーや抽出に使える文字レイヤーが存在しない場合があります。この場合に必要なのは通常の文字抽出ではなくOCRです。
一部のPDFでは特殊フォントや独自の文字コードが使われており、画面上では読めても抽出時に文字化け、空白欠落、順序崩れが起こることがあります。
PDFにはコピーや抽出を制限する設定が入っていることがあります。見た目に文字が入っていても、ブラウザやPDFライブラリが通常の方法ではテキストを取り出せないことがあります。
PDFビューアで短い一行を選択してみてください。まったく選択できないなら画像PDFか保護付きの可能性があります。選択はできるのに抽出結果だけ崩れるなら、文字コードや埋め込み方を疑うべきです。
PDF文字抽出 は既存の文字レイヤーをブラウザ内で読み取ります。画像だけのPDFをOCRしたり、PDFライブラリが尊重する権限制限を回避したりはしません。
選択可能な文字があるPDFなら PDF文字抽出 を使ってください。スキャンPDFなら OCRとは何か|PDF文字抽出との違い を確認し、一部ページだけ必要なら PDFから一部ページだけを抽出する方法 に進んでください。