ガイド

なぜPDFの文字をコピーできないのか

PDFに文字が見えていても、内部にコピー可能な文字データがあるとは限りません。原因はPDFの作られ方や権限制限によって変わります。

画像PDFは文字に見えてもテキストではない

スキャンPDFはページ全体が画像であることが多く、画面上では文字が見えていても、コピーや抽出に使える文字レイヤーが存在しない場合があります。この場合に必要なのは通常の文字抽出ではなくOCRです。

フォントエンコードの問題で抽出が崩れることがある

一部のPDFでは特殊フォントや独自の文字コードが使われており、画面上では読めても抽出時に文字化け、空白欠落、順序崩れが起こることがあります。

権限制限でコピーできない場合もある

PDFにはコピーや抽出を制限する設定が入っていることがあります。見た目に文字が入っていても、ブラウザやPDFライブラリが通常の方法ではテキストを取り出せないことがあります。

最初に確認したいこと

PDFビューアで短い一行を選択してみてください。まったく選択できないなら画像PDFか保護付きの可能性があります。選択はできるのに抽出結果だけ崩れるなら、文字コードや埋め込み方を疑うべきです。

PDFreshでできることとできないこと

PDF文字抽出 は既存の文字レイヤーをブラウザ内で読み取ります。画像だけのPDFをOCRしたり、PDFライブラリが尊重する権限制限を回避したりはしません。