ホーム > コピー&ペーストの方法

PDFをテキストに変換するには?文字起こし・OCRツールとテキストをPDFに変換する方法を徹底解説

ホーム > OCR > PDFをテキストに変換するには?文字起こし・OCRツールとテキストをPDFに変換する方法を徹底解説

PDFをテキストに変換するには?文字起こし・OCRツールとテキストをPDFに変換する方法を徹底解説

PDFの文字をコピーしようとしたら「選択できない」と気づいた経験はないでしょうか。その原因の多くは、PDFの種類にあります。テキストとして作られたPDFと、スキャンで作られた画像型PDFでは、必要な変換方法がまったく異なります。本記事では状況別にPDFをテキストに変換する方法を5つ解説し、逆方向の「テキストをPDFに変換」する手順も紹介します。

なぜPDFをテキストに変換できないのか?主な原因

  • スキャンされた「画像ベース」のPDFである

    複合機でスキャンして作られたPDFは、文字が「画像」として保存されています。見た目は普通の文書でも、コンピューターからすれば1枚の写真と同じです。このため文字を選択・コピーできず、テキスト化には後述のOCR技術が必要になります。

  • セキュリティ制限(パスワード保護)がかかっている

    作成者がテキストのコピーを禁止する設定を施している場合も、通常の操作ではテキストを取り出せません。この場合は、正規の権限で制限を解除してから変換する必要があります。

PDFをテキストに変換する最良の方法(OCR対応)

PDFをテキストに高精度変換できる「PDNob」

Tenorshare社の「PDNob」は、OCR・編集・変換をひとつにまとめたPDFソフトです。傾き補正やノイズ除去を自動で行ってから文字認識するため、品質の低いスキャン文書でも他の無料ツールより安定した結果が得られます。日本語縦書きにも対応している点も実用上の強みです。

PDNob

PDNobでPDFをテキストに変換する手順

  • PDNobを起動し、テキスト化したいPDFファイルを読み込みます。
  • winmac
    windows購入 btnmac購入 btn
  • ツールバーから「OCR PDF」を選択します。
    PDNobでOCR PDF処理
  • OCRの言語を文書に合わせて設定します。必要に応じてノイズ除去・傾き補正をオンにして「適用」をクリックします。
    OCRの言語などを詳細設定
  • 数秒でPDF内の文字を認識できます。処理完了後は、そのままテキストを編集したり、コピーしたりできます。
    PDF内の文字を認識後編集やコピーなど可能
  • 必要に応じて、Word形式(.docx)やTXT形式でエクスポートします。
    必要な形式でエクスポート

一方で、無料版は処理できる回数に制限があり(週1回)、頻繁に使う場合は有料プランへの切り替えが必要です。ただし有料版は買い切り型(永続ライセンス)のため、月額課金が続くサービスと比べるとPDFソフトとしての費用対効果は高めです。まずは無料で試してから判断するのが現実的でしょう。また、OCR言語の設定を英語のままにしておくと日本語の認識精度が著しく下がるため、必ず「日本語」に変更してから使うことが重要です。

メリット

  • 傾き補正・ノイズ除去で認識精度が安定する
  • 縦書き日本語対応
  • 変換後もそのまま編集可能

デメリット

  • 無料版はページ数制限あり
  • 大量処理には有料プランが必要
  • インストール型のため導入の一手間がある

注意点:OCR言語設定を「英語」のまま使うと日本語の認識精度が大幅に下がる。必ず「日本語」に変更すること。

winmac
windows購入 btnmac購入 btn

無料でPDFをテキストに変換するツール・裏技

Googleドライブ(Googleドキュメント)でPDFをテキストに変換

GoogleアカウントがあればPDFをGoogleドライブにアップロードし、右クリックから「Googleドキュメントで開く」を選ぶだけでテキスト化できます。完全無料で手軽な反面、表や段組みなど複雑なレイアウトは大きく崩れやすい点に注意が必要です。

手順は以下の通りです。

  • Googleドライブで「新規」→「ファイルのアップロード」からPDFを追加します。
    PDFをGoogleドライブにアップロード
  • アップロードされたPDFを右クリックし、「アプリで開く」→「Googleドキュメント」を選択します。
    Googleドライブにアップロードしたファイルを開く
  • OCR処理されたテキストが表示されたら、コピーまたはダウンロードします。
    PDFが自動でPDFがテキストに変換された

メリット

  • 完全無料
  • インストール不要

デメリット

  • 表・図・段組みなど複雑なレイアウトは崩れやすい

注意点:機密情報を含む文書のクラウドアップロードには注意する。

Adobe AcrobatオンラインツールでPDFをテキストに変換

Adobe AcrobatのオンラインツールはPDFをWordや他の形式に変換でき、一部機能は無料で利用できます。ログインなしで使用した場合、アップロードデータは処理後にサーバーから自動削除されます。高度なOCR編集機能はAcrobat Pro(有料)が必要です。

Adobe Acrobat オンラインツールでPDFをテキストに変換手順:
  • Adobe AcrobatのOCRページにアクセスする
  • 「ファイルを選択」をクリックするか、PDFファイルをドラッグ&ドロップで読み込む
    Adobe AcrobatオンラインでPDFをテキストに変換
  • AcrobatがOCR処理を自動で実行し、テキストデータに変換する
    AcrobatがOCR処理を実行
  • 変換完了後、ログインしてPDFをダウンロードするか他の人と共有する
    変換完了後、ログインしてPDFをダウンロードする

メリット

  • 信頼性の高い変換精度
  • Word形式へのエクスポートに対応

デメリット

  • 無料版は1日の変換回数に制限あり

注意点:スキャンPDFの高精度OCRにはPro版が必要。

iLovePDFでPDFをテキストに変換

iLovePDFはブラウザだけで使えるオンラインツールで、OCR機能を搭載しています。段落構成や改行が比較的保持されるため、レイアウトを重視したい文書の文字起こしに向いています。登録なしで使えるため、初めてOCRを試す方の入り口としても最適です。

iLovePDF

メリット

  • インストール不要
  • レイアウトが崩れにくい

デメリット

  • 無料プランはファイルサイズと変換回数に制限あり

注意点:機密文書のアップロードには注意が必要。

PDFをテキストに変換する際によくある問題と対処法

PDFをテキストへの変換がうまくいかないときは、まず下表で原因と対処法を確認してください。多くの場合、ツールの設定変更か、PDFの種類に合ったツールへの切り替えで解決できます。

問題
主な原因
対処法
文字化けが起きる
OCR言語設定が「英語」のまま、または特殊フォントの問題
OCR言語を「日本語」に変更して再変換。改善しない場合は別ツールを試す
表・レイアウトが崩れる
複雑な段組みや表はOCRの解析が苦手な構造
レイアウト解析に対応したツール(PDNob・Adobe Acrobatなど)に切り替える
テキストが選択・コピーできない
文字データを持たない画像型PDF
OCR対応ツールで画像をテキストデータに変換してから操作する
認識精度が低い
スキャン画像の解像度不足・傾き・ノイズ
傾き補正・ノイズ除去機能付きのツールを使う。再スキャンできる場合は300dpi以上で取り込む
winmac
windows購入 btnmac購入 btn

逆にテキストをPDFに変換するツールと作成手順

Windows / Macの標準機能(印刷メニュー)を使う

ソフトをインストールしなくても、OS標準の印刷機能を使ってテキストファイルをPDFに変換できます。ローカル環境で完結するため、ファイルをクラウドへアップロードする必要がなく、情報漏洩リスクを抑えられます。

Windowsの場合

  • メモ帳などでテキストファイルを開きます。
  • 「ファイル」→「印刷」を選択します。
  • プリンタ→一覧から「Microsoft Print to PDF」を選択します。
  • 「印刷」をクリックし、保存先を指定してPDFとして保存します。

Macの場合

  • テキストエディットで対象ファイルを開きます。
  • 「ファイル」→「プリント」を選択します。
  • 画面左下の「PDF」をクリックします。
  • 「PDFとして保存」を選択して保存します。

オンラインツール(PDF24 / Soda PDF)を使う

スマートフォンからのテキストをPDFに変換することや、ブラウザで手軽に処理したい場合に便利です。TXTファイルをアップロードするだけでPDF化でき、UTF-8など日本語の文字コードにも対応しています。

方法
メリット
デメリット
OSの印刷機能
無料・安全・インストール不要
フォントやレイアウト調整は難しい
PDF24 / Soda PDF
ブラウザ完結・スマホ対応
クラウドへのアップロードが必要
PDNob
テキスト化後そのまま編集・PDF保存まで一貫対応
高機能版は有料プランが必要

PDFをテキストに変換・逆変換する際によくある質問(FAQ)

縦書きの日本語PDFもテキストに変換できますか?

PDNobなどの高性能OCRソフトは縦書きに対応しています。無料のオンラインツールやGoogleドライブでは横書きとして誤認識されることが多いため、縦書き文書には専用ソフトの使用を推奨します。

PDFを無料でテキストに変換できますか?

可能です。Googleドライブ・iLovePDF・Smallpdfなどが無料で利用できます。PDNobも無料トライアルを提供しています。ただし、無料ツールには変換回数やファイルサイズの制限が多く、大量処理には有料プランが現実的です。

TXTとWordどちらに変換すべきですか?

テキストデータを取り出すだけならTXT、変換後に書式を整えて再利用したいならWordが適しています。PDNobやAdobe Acrobatであれば、変換後にそのまま文書内を直接編集できます。

スマートフォンでテキストをPDFに変換できますか?

可能です。iPhoneは「ファイル」アプリのプリント機能から「PDFを保存」で対応できます。Androidの場合は、Google ドキュメントアプリやPDF24のスマホ版を活用する方法があります。

TXTとWordの違いは?

TXTは書式を持たないプレーンテキスト、Wordは文字装飾や表・画像などを含めたリッチテキスト形式です。変換後の用途によって選択してください。

OCR変換後は編集できますか?

はい。PDNobやAdobe Acrobat Proなど、編集機能を備えたソフトであれば、OCR後のテキストを直接修正・レイアウト調整することが可能です。

まとめ:用途に合わせてPDFとテキストを柔軟に変換しよう

PDFをテキストに変換する方法は、PDFの種類と目的によって変わります。スキャン文書や画像型PDFには必ずOCR対応ツールが必要で、日本語の精度や縦書き対応を重視するならPDNobが有力な選択肢です。単純なテキストファイルのPDF化であれば、OSの印刷機能で十分対応できます。

また逆方向の「テキストをPDFに変換」する際にも、標準機能からオンラインツール、専用ソフトまで状況に応じて最適な方法を選ぶことが大切です。

皆さんのご意見・ご感想をお聞かせください。

登録 / ログイン

レビューを投稿してください

皆さんのご意見・ご感想をお聞かせください。

コメントを投稿する

PDNobの記事レビューを投稿してください

関連記事