PDNobでPDFをOCR処理する方法|ユーザーガイド
OCR(光学文字認識)を使うことで、画像やスキャンPDF内の文字を編集・検索可能なテキストとして抽出できます。PDNobなら、スキャンPDFを簡単にOCR処理し、コピーや編集が可能な状態に変換できます。ここでは、OCR機能のインストール方法から実際の使い方まで詳しく紹介します。
- 01. OCRとは?
- 02. OCR機能をインストールする
- 03. PDFをOCR処理する
- 04. OCRの詳細設定(PDNob 2.0対応)
1. OCRとは?
OCR(Optical Character Recognition)は、スキャン画像や画像ベースのPDFから文字を認識し、編集・検索可能なテキストへ変換する技術です。紙をスキャンした資料や画像PDFでも、テキストのコピー・検索・編集ができるようになります。
2. OCR機能をインストールする
- PDNobを起動します。
- メイン画面から「OCR PDF」をクリックします。
- OCRしたいPDFを選択し、「開く」をクリックしてPDNobへ読み込みます。
- OCRモジュールのインストール画面が表示された場合は、「ダウンロード」をクリックしてOCR機能を追加します。
3. PDFをOCR処理する
- OCR機能のインストール完了後、ツールバーの「OCR」ボタンをクリックします。
- 設定画面で、用途に応じてOCRモードを選択します。
-
編集可能なテキスト
スキャン文字を編集可能なテキストへ変換します。OCR後は、PDF内の文字を編集・移動・コピー・削除できます。 -
検索可能なテキスト
元のスキャン画像を保持したまま、テキスト検索や選択を可能にします。レイアウトを維持したい場合に便利です。 - 「OCRを実行」をクリックして認識を開始します。
- OCR完了後、PDF内の文字を検索・コピーできるようになります。「編集可能なテキスト」を選択した場合は、そのままPDF編集も可能です。
4. OCRの詳細設定(PDNob 2.0対応)
PDNob 2.0では、OCR精度を向上させる「詳細設定」が追加されています。設定を有効にすると処理時間が少し長くなる場合がありますが、認識精度をより高められます。
OCR設定画面で「詳細設定」をクリックすると、各種オプションを利用できます。必要に応じて画像補正や文字検出機能をオンにしてください。
主な機能は以下の通りです。
- ページを自動トリミング – コンテンツ範囲を自動検出し、余白を調整してOCR精度を向上します。
-
ページの自動傾き補正 – 傾いたページを水平に補正し、文字認識しやすくします。
-
ローカルコントラストを強調 – ぼやけた文字部分のコントラストを強化し、視認性を改善します。
-
黒点を除去 – 小さな黒点やノイズを除去し、ページをより見やすくします。
-
ノイズを除去 – 白い点や画像ノイズを除去し、OCR認識を安定させます。
-
画像内の文字を検出 – 画像に埋め込まれた文字も検出し、OCR対象として認識します。