ChatGPTで医療費領収書入力を大幅効率化

まだ少し早いですが、来年の確定申告を意識し始める時期となりました。
業務で負担がかかるのは、各種明細書の入力。
特に医療費控除のための領収書入力は相当なボリュームになります。

領収書をPDF化 → OCRで文字認識 → ChatGPT の流れで試したところ、入力業務を大幅に削減できそうです。

ただし、医療というセンシティブな内容を伴うため、情報の取り扱いには注意する必要もあります。

医療費領収書の入力

昨年の確定申告は、税理士登録初年度とあって、確定申告のお客さまもそれほど多くはありませんでした。
そのため、医療費控除の入力も短時間で終了。
ただ、将来、件数が多くなったら大変な労力になると感じていました。

今年は、その予感が現実のものとなりそうです。

医療費領収書の入力が大変なのは、その件数。
また、医療機関によって領収書のフォームもバラバラ。
日付や金額を拾うだけでも一苦労です。

いくつか入力を省く方法はありますが、それなりに手間やコストがかかります。

  • マイナポータルから医療費通知情報を取得
    →2月に入らないと1年分が取得できない。領収書との重複チェックも必要。
  • AI-OCRを搭載した会計専用機を導入
    →とても高い
  • 入力の外注化
    →安くはない。月額基本料が発生することも

生成AIでは、テキストの分析もできると聞いています。
うまくいけば、入力作業を大幅削減、ほぼゼロにできそうです。
自分の領収書を使い、ChatGPT(GPT-5)でテストしてみました。

省力化の手順

全体的なイメージとしては、医療費領収書をPDFにし、必要項目をcsvに書き出すという流れです。
国税庁の「医療費集計フォーム」に整形すれば、そのままe-Taxやマネーフォワードで読み込むことができます。
フォームを変更すれば達人などでもインポートが可能です。

STEP1 領収書をPDFにする

まずは、医療費領収書をPDFに変換します。
私はScanSnapで読み込ました。

領収書を日付や医療機関ごとに並び替えたりはしていません。
家族の分も混ざっています。
読み込みがスムーズにいくように、おおよその大きさだけを揃えただけです。

今回のサンプルは10枚でしたが、100枚程度の領収書であっても2~3分で読み取りが終わるはずです。

STEP2 OCRで文字認識をする

PDFで読み取ったデータから、文字部分を抽出します。
PDFソフトのOCRでテキスト化することができます。
ScanSnapなら読み込み時にOCR処理が可能です。

オプションをクリックして「検索可能なPDF」をチェックします。

STEP3 ChatGPTを開き、プロンプトを準備する

次にChatGPTを起動し、読み取ったデータからcsvを作成するためのプロンプトを準備します。
私が使ったプロンプトは、こんな感じです。

以下はOCR処理後の医療費領収書テキストです。
この中から、医療費控除集計に必要な次の4項目を抽出してCSV形式で出力してください。


【抽出項目】

  • 患者名(例:「山田太郎」「ヤマダタロウ」など。カタカナでも氏名と判断してください)
  • 医療機関名(例:「○○医院」「△△眼科」「□□薬局△△店」など)
  • 支払金額(数字+「円」または「¥」の形で表記された金額。整数で出力)
  • 利用日(領収証発行日、診療日、またはレシートの日付を優先)

【出力形式】

  • CSV形式で出力
  • 列名は「患者名,医療機関名,支払金額,利用日」
  • 金額は「円」や「¥」を除去して数値のみ
  • 日付は「YYYY-MM-DD」形式に統一
  • 同一人物・同一医療機関の複数領収書があってもすべて出力
  • 不明項目は空欄でもよい(列数は固定)
  • 出力順はOCRテキスト中の出現順(入力順)に従う

【入力データ】

(ここにOCR処理後の領収書テキストを貼り付ける)

STEP4 データの貼り付け

次にAcrobatなどのPDFソフトを起動し、OCR処理後の文字をすべてコピーします。
PDFのページが多いとかなりの文字数になります。それでも問題ありません。
「Ctrl」+「A」で全体を選択し、「Ctrl」+「C」でコピーです。

ブルーがコピー対象となる文字の部分です。

先ほどのプロンプト「入力データ」の下に、コピーしたテキストをそのまま貼り付けます。
医療機関もバラバラですが、構わず一気にペーストです。

STEP5 結果確認

手元にあった10枚の領収書を読み込ませ、先ほどのプロンプトを実行です。
瞬時にcsvが作成されます。
もちろんエクセルにインポートすることもできます。

肝心な読取精度ですが、1件も間違いなし。
バラバラな形式の領収書データをよく分析できたと感心します。

最終的には目で確認する必要はありますが、その手間もわずかだと思います。

本日のまとめ

確定申告で必須となる医療費の領収書の入力業務。
実験の結果、業務を大幅に削減できそうです。

テキストだけで領収書の内容を分析できるとは驚きです。
ふるさと納税の領収書もこれでいけるのではないかと思います。

テキストの解析なので無料のGPT-4でいけるようです。
パターン認識が優れているGPT-5を使った方が精度は高いようですが、それでも月額3,000円程度で済みます。

個人情報の扱いについては、今後の討課題となっています。
OCRで処理した氏名を「AAA」などへ置き換えてプロンプトを実行するなど、いくつかの方法を考えたいと思います。