まだ少し早いですが、来年の確定申告を意識し始める時期となりました。
業務で負担がかかるのは、各種明細書の入力。
特に医療費控除のための領収書入力は相当なボリュームになります。
領収書をPDF化 → OCRで文字認識 → ChatGPT の流れで試したところ、入力業務を大幅に削減できそうです。
ただし、医療というセンシティブな内容を伴うため、情報の取り扱いには注意する必要もあります。
医療費領収書の入力
昨年の確定申告は、税理士登録初年度とあって、確定申告のお客さまもそれほど多くはありませんでした。
そのため、医療費控除の入力も短時間で終了。
ただ、将来、件数が多くなったら大変な労力になると感じていました。
今年は、その予感が現実のものとなりそうです。
医療費領収書の入力が大変なのは、その件数。
また、医療機関によって領収書のフォームもバラバラ。
日付や金額を拾うだけでも一苦労です。
いくつか入力を省く方法はありますが、それなりに手間やコストがかかります。
- マイナポータルから医療費通知情報を取得
→2月に入らないと1年分が取得できない。領収書との重複チェックも必要。 - AI-OCRを搭載した会計専用機を導入
→とても高い - 入力の外注化
→安くはない。月額基本料が発生することも
生成AIでは、テキストの分析もできると聞いています。
うまくいけば、入力作業を大幅削減、ほぼゼロにできそうです。
自分の領収書を使い、ChatGPT(GPT-5)でテストしてみました。
省力化の手順
全体的なイメージとしては、医療費領収書をPDFにし、必要項目をcsvに書き出すという流れです。
国税庁の「医療費集計フォーム」に整形すれば、そのままe-Taxやマネーフォワードで読み込むことができます。
フォームを変更すれば達人などでもインポートが可能です。
STEP1 領収書をPDFにする
まずは、医療費領収書をPDFに変換します。
私はScanSnapで読み込ました。
領収書を日付や医療機関ごとに並び替えたりはしていません。
家族の分も混ざっています。
読み込みがスムーズにいくように、おおよその大きさだけを揃えただけです。
今回のサンプルは10枚でしたが、100枚程度の領収書であっても2~3分で読み取りが終わるはずです。
STEP2 OCRで文字認識をする
PDFで読み取ったデータから、文字部分を抽出します。
PDFソフトのOCRでテキスト化することができます。
ScanSnapなら読み込み時にOCR処理が可能です。

オプションをクリックして「検索可能なPDF」をチェックします。

STEP3 ChatGPTを開き、プロンプトを準備する
次にChatGPTを起動し、読み取ったデータからcsvを作成するためのプロンプトを準備します。
私が使ったプロンプトは、こんな感じです。
以下はOCR処理後の医療費領収書テキストです。
この中から、医療費控除集計に必要な次の4項目を抽出してCSV形式で出力してください。
【抽出項目】
- 患者名(例:「山田太郎」「ヤマダタロウ」など。カタカナでも氏名と判断してください)
- 医療機関名(例:「○○医院」「△△眼科」「□□薬局△△店」など)
- 支払金額(数字+「円」または「¥」の形で表記された金額。整数で出力)
- 利用日(領収証発行日、診療日、またはレシートの日付を優先)
【出力形式】
- CSV形式で出力
- 列名は「患者名,医療機関名,支払金額,利用日」
- 金額は「円」や「¥」を除去して数値のみ
- 日付は「YYYY-MM-DD」形式に統一
- 同一人物・同一医療機関の複数領収書があってもすべて出力
- 不明項目は空欄でもよい(列数は固定)
- 出力順はOCRテキスト中の出現順(入力順)に従う
【入力データ】
(ここにOCR処理後の領収書テキストを貼り付ける)
STEP4 データの貼り付け
次にAcrobatなどのPDFソフトを起動し、OCR処理後の文字をすべてコピーします。
PDFのページが多いとかなりの文字数になります。それでも問題ありません。
「Ctrl」+「A」で全体を選択し、「Ctrl」+「C」でコピーです。
ブルーがコピー対象となる文字の部分です。

先ほどのプロンプト「入力データ」の下に、コピーしたテキストをそのまま貼り付けます。
医療機関もバラバラですが、構わず一気にペーストです。

STEP5 結果確認
手元にあった10枚の領収書を読み込ませ、先ほどのプロンプトを実行です。
瞬時にcsvが作成されます。
もちろんエクセルにインポートすることもできます。

肝心な読取精度ですが、1件も間違いなし。
バラバラな形式の領収書データをよく分析できたと感心します。
最終的には目で確認する必要はありますが、その手間もわずかだと思います。
本日のまとめ
確定申告で必須となる医療費の領収書の入力業務。
実験の結果、業務を大幅に削減できそうです。
テキストだけで領収書の内容を分析できるとは驚きです。
ふるさと納税の領収書もこれでいけるのではないかと思います。
テキストの解析なので無料のGPT-4でいけるようです。
パターン認識が優れているGPT-5を使った方が精度は高いようですが、それでも月額3,000円程度で済みます。
個人情報の扱いについては、今後の討課題となっています。
OCRで処理した氏名を「AAA」などへ置き換えてプロンプトを実行するなど、いくつかの方法を考えたいと思います。

