PDF文字抽出は既存の文字レイヤーを読む
PDF文字抽出 が向いているのは、PDF内部に本物の文字データがすでに入っている場合です。Officeアプリ、ブラウザ、業務システムから出力されたPDFでよく見られます。
ガイド
OCRとPDF文字抽出は近いようで別の処理です。片方はPDF内にすでにある文字を読む処理で、もう片方は画像から文字を認識する処理です。
PDF文字抽出 が向いているのは、PDF内部に本物の文字データがすでに入っている場合です。Officeアプリ、ブラウザ、業務システムから出力されたPDFでよく見られます。
ページ全体がスキャン画像や写真なら、抽出できる文字レイヤーが存在しないことがあります。OCRは、その画像から文字を推定して後からテキスト化する処理です。
文字抽出はPDF内の構造化済みテキストを読むので比較的きれいです。一方OCRは画像品質、傾き、ノイズ、言語特性から文字を推定するため、誤認識が起こりやすくなります。
通常のPDFビューアで文字を選択してコピーできるなら、文字レイヤーがある可能性が高いです。ページ全体が一枚画像のように振る舞う、または選択できないならOCRが必要なケースを疑ってください。
PDFreshは現在、文字レイヤーを持つPDFのブラウザ内抽出に対応しています。画像だけのPDFにOCRをかける機能は、現行ツールの範囲には含めていません。
文字レイヤーのあるPDFなら PDF文字抽出、一部ページだけ必要なら PDFから一部ページだけを抽出する方法、削除と抽出の使い分けなら PDF分割とPDFページ削除の違い を参照してください。別要因でコピーできない場合は なぜPDFの文字をコピーできないのか も役立ちます。