pdf_signature_extraction/PP_OCRV5_RESEARCH_FINDINGS.md at pp-ocrv5-research

gbanyan 21df0ff387 Complete PP-OCRv5 research and v4 vs v5 comparison

## 研究成果

### PP-OCRv5 API 測試
- 成功升級到 PaddleOCR 3.3.2 (PP-OCRv5)
- 理解新 API 結構和調用方式
- 驗證基礎檢測功能

### 關鍵發現
❌ PP-OCRv5 **沒有內建手寫分類功能**
- text_type 字段是語言類型，不是手寫/印刷分類
- 仍需要 OpenCV Method 3 來分離手寫和印刷文字

### 完整 Pipeline 對比測試
- v4 (2.7.3): 檢測 14 個文字 → 4 個候選區域
- v5 (3.3.2): 檢測 50 個文字 → 7 個候選區域
- 主簽名區域：兩個版本幾乎相同 (1150x511 vs 1144x511)

### 性能分析
優點：
- v5 手寫識別準確率 +13.7% (文檔承諾)
- 可能減少漏檢

缺點：
- 過度檢測（印章小字等）
- API 完全重寫，不兼容
- 仍無法替代 OpenCV Method 3

### 文件
- PP_OCRV5_RESEARCH_FINDINGS.md: 完整研究報告
- signature-comparison/: v4 vs v5 對比結果
- test_results/: v5 測試輸出
- test_*_pipeline.py: 完整測試腳本

### 建議
當前方案（v2.7.3 + OpenCV Method 3）已足夠穩定，
除非遇到大量漏檢，否則暫不升級到 v5。

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

特性	v2.7.3	v3.3.2
初始化	`PaddleOCR(lang='ch')`	`PaddleOCR(text_detection_model_name=...)`
預測方法	`ocr.ocr()`	`ocr.predict()`
`cls` 參數	✅ 支持	❌ 已移除
`show_log` 參數	✅ 支持	❌ 已移除
返回格式	`[[[box], (text, conf)], ...]`	`OCRResult` 對象 with `.json` 屬性
依賴	獨立	需要 PaddleX >=3.3.0

類型	PP-OCRv4	PP-OCRv5	提升
手寫中文	0.706	0.803	+13.7%
手寫英文	0.249	0.841	+237%

7.5 KiB

Raw Permalink Blame History

PP-OCRv5 研究發現

📋 研究摘要

✅ 成功完成

❌ 關鍵限制

🔧 技術細節

API 變更

主要 API 差異

📊 返回數據結構

v3.3.2 返回格式

🔍 手寫檢測功能測試

測試問題

測試結果：❌ 不能

測試過程

官方文檔說明

結論

📈 性能提升（根據官方文檔）

手寫文字識別準確率

實測結果（full_page_original.png）

💡 升級影響分析

優勢

劣勢

🎯 對我們項目的影響

當前方案（v2.7.3 + OpenCV Method 3）

PP-OCRv5 方案

關鍵發現

🤔 升級建議

升級的理由

不升級的理由

推薦決策

📝 技術債務記錄

如果決定升級到 v3.3.2

✅ 完成的工作

🎓 學到的經驗

🔗 相關文檔

📌 下一步

7.5 KiB Raw Permalink Blame History Unescape Escape

PP-OCRv5 研究發現

📋 研究摘要

✅ 成功完成

❌ 關鍵限制

🔧 技術細節

API 變更

主要 API 差異

📊 返回數據結構

v3.3.2 返回格式

🔍 手寫檢測功能測試

測試問題

測試結果：❌ 不能

測試過程

官方文檔說明

結論

📈 性能提升（根據官方文檔）

手寫文字識別準確率

實測結果（full_page_original.png）

💡 升級影響分析

優勢

劣勢

🎯 對我們項目的影響

當前方案（v2.7.3 + OpenCV Method 3）

PP-OCRv5 方案

關鍵發現

🤔 升級建議

升級的理由

不升級的理由

推薦決策

📝 技術債務記錄

如果決定升級到 v3.3.2

✅ 完成的工作

🎓 學到的經驗

🔗 相關文檔

📌 下一步

7.5 KiB

Raw Permalink Blame History