D O C U M E N T   I N T E L L I G E N C E

あらゆる帳票を、
AI で構造化。

PDF / Excel / 手書きの紙書類を 1 つの API に投げるだけで、 JSON 構造データに変換。フォーマット自動クラスタリング・明細配列対応・ 手書き OCR まで揃った、業界横断の文書解析プラットフォーム。

発注書 → JSON 抽出
注文書
納期
11/20
送り先
東京蓬業
品名数量単価
T-7102 20/350
T-7102 30/230
DIP
{
  "po_number": "Y-128",
  "po_date": "2023-11-07",
  "delivery_date": "2023-11-20",
  "vendor": "東京蓬業",
  "line_items": [
    {
      "item_name": "T-7102 20/3",
      "quantity": 50
    },
    {
      "item_name": "T-7102 30/2",
      "quantity": 30
    }
  ]
}
The problems

紙・PDF・Excel — 構造化のたびに発生する課題

「読む」だけなら OCR で十分。でも「業務に使える」までには、もう一段の構造化が必要です。

OCR は読めるが、意味として使えない

市販 OCR は文字を返すが「氏名 = 山田、単価 = 60万円」のような構造化はしない。後段の集計・検索・突合が結局できない。

明細行が 1 つの文字列に潰れる

請求書 / 発注書の表は LLM に投げても「商品 A, 商品 B, 商品 C」と連結されてしまい、品目ごとの数量・単価が失われる。

同じ書類でも会社ごとに様式が違う

スキルシートや請求書のテンプレは取引先ごとにバラバラ。それぞれにルールを書く運用は破綻、ノーコード抽出にも限界。

手書き帳票は OCR を通しても精度が出ない

製造業の点検表 / 発注書の手書き欄は Tesseract や ChatGPT 単体では誤読が多く、業務に耐えない。

The solution

「文書フォーマット」と「返却フォーマット」を分けて管理

紙・PDF・Excel の見た目はバラバラでも、欲しい JSON 構造はテンプレ化できる。 DIP は文書のレイアウトと返却の JSON 構造を分離して管理し、同じ JSON を異なる紙の様式から取り出します。

API 1 本で帳票 → JSON へ

書類を POST するだけで、テナント定義の項目カタログとあなたの「返却フォーマット」に従って JSON が返ります。フォーマット未登録の書類も AI が自動でクラスタリングし、 次回以降の同型書類は同じ JSON 構造で出力されます。

  • フォーマット自動学習 — 投入するほどクラスタが育つ
  • 返却スキーマで明細 (line_items) を配列で扱える
  • Azure Document Intelligence 連携で手書きにも対応
  • 抽出根拠を画像上に番号で重ねて返す (誤読チェックが容易)
  • 人手レビューが正規化マスタへフィードバック
PDFスキャン書類Excel表データ手書き帳票点検表 / 発注書DIP文書解析プラットフォームフォーマット自動分類Claude + Azure DIJSON{ "po_number": "Y-128","line_items": [ ... ] }
Key features

主要機能

「読む」だけでなく「業務で使える形に揃える」までを 1 つの基盤で。

Feature 01

フォーマット自動クラスタリング

同じ Excel テンプレ・同じレイアウトの PDF が投入されると、AI が自動でグループ化。次回以降の同型書類は迷わず分類され、ROI 定義も自動推定されます。

  • 画像は pHash + OpenCV テンプレマッチで形状判定
  • Excel は Markdown ラベル構造ハッシュで集約
  • 会社名ヒントを与えれば取引先別にきれいに分離
  • 高信頼度抽出はサンプルとして自動取込し精度が育つ
Feature 02

返却フォーマット (返却スキーマ) を別管理

抽出したい JSON 構造をテンプレとして登録し、複数の文書フォーマットで使い回せます。明細行 (line_items) は配列で表現でき、後段の集計に直結します。

  • Swagger 風スキーマビューアで構造を可視化
  • 明細 (請求書の品目、発注書の品番) を配列で取得
  • 同じ JSON 構造を複数文書テンプレで共有可
  • 抽出時のプロンプトに自動で型ヒントを差し込み
Feature 03

手書き対応 (Azure Document Intelligence 連携)

製造業の点検表・受注メモなど手書きが混在する帳票は、Azure DI Read API の手書きモード経由で OCR。語ごとの座標を保持したまま Claude で構造化します。

  • 手書き / 活字を自動判別し精度を上げる
  • OCR の語座標と抽出値を逆引きしてエビデンス保持
  • PDF / PNG / JPEG の全ページ対応
  • 抽出結果カードの番号と画像上の枠が 1 対 1 で対応
Feature 04

レビュー + 自己改善ループ

抽出結果は信頼度に応じて auto / review / reject に分類。人手で直した値は履歴として残り、後の正規化マスタとマッチングや次回プロンプトのヒントに反映されます。

  • 信頼度別の 3 ルート (緑 / 黄 / 赤) 自動振分
  • インライン編集で 1 クリック修正、reviews に履歴保存
  • 生 JSON / クロップ画像 / 重畳画像で根拠を一覧
  • 将来: 取引先マスタ / 駅マスタ等で取込時点の正規化
Use cases

業界横断、共通プラットフォーム

同じ DIP 基盤で、業界ごとの帳票を異なる返却フォーマットで取り出せます。

SES マッチング

SES 業界

スキルシート / 職務経歴書の自動構造化。氏名・年齢・最寄駅・単金・スキル一覧・職歴を JSON 化し、案件マッチングや人材検索の集計データとして直接利用。

請求書 OCR

経理 / 請求

請求書 / 領収書 / 発注書を取込→明細を配列で取得。会計ソフト / 在庫システムへの API 連携や、月次集計に直結。インボイス番号も自動抽出。

点検表 / 受発注

製造業 (Phase 3)

手書き点検表 / 発注書 / 検査記録を Azure DI と Claude の合せ技で構造化。○×△・数値範囲・チェック欄の占有率まで読み取り、PLC データと突合可能に。

How it works

導入は API キー発行から

既存システムからは Bearer 1 本で叩けるシンプル API。導入は弊社で伴走します。

1

API キーを発行

管理画面で `dip-sk-...` の API キーを発行。月次上限・IP 制限つきで運用できます。

2

書類を POST

PDF / Excel / 画像をエンドポイントに投げるだけ。返却フォーマットは別画面で事前定義。

3

JSON が戻る

構造化された値と信頼度、根拠画像が返却。明細は配列のままで受け取れます。

4

使うほど精度が上がる

高信頼度抽出は自動でサンプルへ取込、レビュー結果は次回プロンプトに反映。クラスタが育ちます。

紙・PDF・Excel を、業務データに。

「OCR は導入したが構造化までは届かない」「業界ごとに違うテンプレで運用が破綻している」 そんなお困りごとがあればご相談ください。御社の帳票で動くか、PoC からご一緒します。

無料相談を申し込む