ガイド

OCRとは何か|PDF文字抽出との違い

OCRとPDF文字抽出は近いようで別の処理です。片方はPDF内にすでにある文字を読む処理で、もう片方は画像から文字を認識する処理です。

PDF文字抽出は既存の文字レイヤーを読む

PDF文字抽出 が向いているのは、PDF内部に本物の文字データがすでに入っている場合です。Officeアプリ、ブラウザ、業務システムから出力されたPDFでよく見られます。

OCRはスキャンPDFや画像PDF向け

ページ全体がスキャン画像や写真なら、抽出できる文字レイヤーが存在しないことがあります。OCRは、その画像から文字を推定して後からテキスト化する処理です。

結果品質が違う理由

文字抽出はPDF内の構造化済みテキストを読むので比較的きれいです。一方OCRは画像品質、傾き、ノイズ、言語特性から文字を推定するため、誤認識が起こりやすくなります。

どちらが必要か見分ける方法

通常のPDFビューアで文字を選択してコピーできるなら、文字レイヤーがある可能性が高いです。ページ全体が一枚画像のように振る舞う、または選択できないならOCRが必要なケースを疑ってください。

現在のPDFreshの対応範囲

PDFreshは現在、文字レイヤーを持つPDFのブラウザ内抽出に対応しています。画像だけのPDFにOCRをかける機能は、現行ツールの範囲には含めていません。