Files
pdf_signature_extraction/paper/fusion_review_todo.md
T
gbanyan da455791de Paper A v13 rev8: fusion-review revision (29 items) + verified data analysis
Address all 29 items from the fused reviewer report (Gemini 3.1 Pro +
ChatGPT 5.5 + Opus 4.8): 3 fatal, 4 severe, arbitration A/B, 5 fusion-new,
15 minor. All new numbers computed from signature_analysis.db; nothing
fabricated.

Claim honesty (F1/F3/F4/F7/G3):
- Retract all "139x the floor" comparisons; ICCR -> between-accountant
  specificity proxy throughout; state within-accountant FPR is not
  estimable and ICCR is not even a bound (anti-conservative direction).
- Firm A reframed as quasi-positive known-positive benchmark (not blinded).
- byte-identity recast as prevalence signal, not a recall/sanity check.
- tunable -> single-direction conservativeness dial (no P-R frontier).

New data analysis (verified, bit-reproducible via committed scripts):
- F2/G1 (Sec V-B): 880-PDF imaging-pipeline audit (Table V) - plain scans
  82% (2013) -> 1% (2021); producer strings name scanner hardware
  (Fuji Xerox D125 etc.); substrate transforms at 2020/21 = named confound.
- F5 (Sec IV-C): four robustness checks - pool-size stratification,
  accountant-clustered bootstrap (gap 53.7pp [49.5,57.5]), firm+year FE
  logistic (B/C/D OR 0.06-0.12), leave-one-year-out (gap 53.1-54.9pp).
- byte-identity era split: 30 scan-era (18 Firm A, pipeline-robust) vs
  232 digital-era (detectability-inflated, hedged).
- G5: archive-wide 888 expected chance HC flags [677,1098].
- M4: Figure 3 replaced with real 2D density (n=150,441).

Structure/minor: abstract restructured (M1); operational definition (M2);
interview disclaimer (M3); Threats to Validity subsection (M8); review
protocol framed as design not evidence (M9); N reconciliations (M10/M11);
Table II-c 2020-23 five-way (M12); Section refs, American spelling,
notation table (M5/M13/M15); reference URLs verified (M14).

Open (author-only): placeholders (M13), II-b/IV table merge (M15).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Claude-Session: https://claude.ai/code/session_01Qn59FdF9JMyfFg3sjcUNNG
2026-06-23 14:36:51 +08:00

87 lines
9.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 融合審查 — 修訂 TODO 清單
**來源**`Fusion_Review_Crosscheck_Table.docx`Gemini 3.1 Pro + ChatGPT 5.5 + Opus 4.8 → Opus 4.8 融合,2026-06-19
**對象稿件**`paper/v13_build/paper_v13_filled.md`rev7 submission 單一真實來源)
**建議結論**Major Revision
**統計**:致命共識 ×3 · 嚴重 ×4 · 融合新增 ×5 · 改向/不採納 ×1 · 結構/Minor ×15
投票圖例:★ = 強烈標記 / ● = 提及 / ○ = 弱提及 / — = 未提。欄位 G=Gemini, C=ChatGPT, O=Opus。
執行順序:① F1 → ② F2+G1 → ③ F3、F7 與宣稱降溫 → ④ F4–F6 與 F5 穩健性套組 → ⑤ 結構與 Minor。
---
## Tier 1 — 致命(三審高共識,不修則中心宣稱垮)
- [x] **F1 — 校準 null 類別錯誤**(G★ C○ O★)|偏誤方向 anti-conservative ✅ 文字完成(abstract/§I/§III-D/§III-E/§IV-C/§V/§VI
- 已做:全文 ICCR→specificity proxy;撤回所有「139×/4059×」式比較;§III-E 新增 between vs within 區分、明說 within-CPA 偽陽率不可估計、ICCR 連 bound 都不是、偏誤 anti-conservative。
- ✅ benchmark 問題已 §III-E 主動防守:無 OUR-population 親簽標記、公開集屬不同族群/字體/管線→借入會重引跨分布假設(違 label-free 初衷),故報告限制非誤導 proxy。不做(用戶/領域判斷確認做不出)。
- [x] **F2 — Firm 為被混淆的 treatment**(G★ C★ O★)✅ 完成(PDF 解析具名證據)
- ✅ 880 份 PDF 管線審計:純掃描 2013 82% → 2021 崩到 1%metadata 點名掃描機型(Fuji Xerox D125/ApeosPort)→ Table V 寫入 §V-B;量測基底本身在 2020/21 轉變 = 混淆具名鐵證。
- ✅ byte-identical era split232 數位年代(偵測性放大,已 hedge)vs 30 掃描年代(管線無關鐵證,18 在 Firm A)→ §V-B + §IV-C 交叉註記。
- 腳本 pipeline_audit.py / pipeline_audit.csv 已存。
- [x] **F3 — 吃重輸出零驗證**G○ C★ O★)✅ 完成
- 已做:刪除 byte-identical「sanity check / recall 下界」修辭→改 prevalence signalheadline 全面 screening/triage/prevalence 口徑(abstract/貢獻/結論皆已轉),通讀確認無 detection-verdict 過度宣稱。
## Tier 2 — 嚴重(雙審共識)
- [x] **F4 — held-out ≠ blinded**(G○ C★ O★)|Firm A 為已知 institutional positive case ✅ 完成
- 已做:§IV-C 標題改「Held-Out Benchmark: Firm A (a Known Positive)」+ 新增 quasi-positive institutional benchmark 段;abstract/§II 資料切分/§VI 全部改「known-positive benchmark / not a blinded test」。
- [x] **F5 — 旗標率 pool-size / 極值依賴**G● C★ O●)|any-pair 爭議真正內核 ✅ 核心完成
- ✅ 已做:pool-size 分層(Firm A 每一層都壓制 BCD<50 66 vs 20%、…、400+ 82 vs 29%)→ pool size 無法解釋 firm gapaccountant-clustered bootstrap gap 53.7pp CI[49.5,57.5]。皆寫入 §IV-C。
- ✅ 增補完成:firm+year FE logistic(控時間/管線後 B/C/D OR 0.116/0.061/0.070,仍低一個量級);leave-one-year-out gap 53.154.9pp(任一年剔除皆穩,含 202223)。寫入 §IV-C「Four further checks」;腳本 f5_fe_loyo.py。
- [x] **F6 — clean reference exogeneity** ✅ 完成(文字+既有證據)
- §III-E 新增:floor 為 conditional-on-correct-clean;污染只會抬高 floor → 對 Firm A 對比保守(known-safe 方向);leave-one-baseline-firm-out 不動 floorcrossover scope 0.8547→0.8302(≤0.025)。ICCR 在不同 clean-group 下重算需 canonical sampler,未擅自重做。
- [x] **F7 — 宣稱範圍過大**G● C★ O●)|detection / operational labels / tunable / 中文語料可直接採用 ✅ 完成
- 已做:貢獻條列 operational labels→risk strata;全文 specificity→specificity proxy;中文語料「adopt directly」→「starting reference for comparable Chinese-signature pipelines, subject to recalibration」;tunable 見 G3。
## 仲裁(三審分歧,注意採納方向)
- [x] **A — 不 fine-tune 是 label-free 的必然** ✅ 完成
- §II 末新增主動論證段:supervised metric learning 需 labelled pairs = 正是 archive 沒有的 ground truthlabel-free 非弱化版而是唯一誠實選項;貢獻為方法論非架構;fine-tune 留待 protocol first-run 取得 labelled sample 後。
- [x] **B — any-pair 嚴重性分歧** ✅ 併入 F5(已完成)
## 融合新增(三審皆漏,全採納)
- [x] **G1 — staggered e-signing adoption → event study** |**改為誠實描述+招認限制(用戶定案)** ✅ 完成
- 硬發現:資料無乾淨 staggered adoptionA 全程高、C 2022 跳、B 2023 跳、D 緩升),跳升跨整年且集中審計季 → 內部時序無法分離 adoption vs 管線變動,且反推導入點會循環。
- ✅ 已做:§V-B 升級為「Time Trend and the FirmPipeline Confound」,注入真實異質時序 + F2 指紋 + 明列 event study(需外部導入日期)為 future work;不杜撰日期。firm_year_hc_panel.csv 已存備圖。
- [x] **G2 — 前處理壓縮 cosine 尺度** ✅ 完成(可驗證事實+constructablation 列 future
- §V-A 新增:cosine 97.7% ≥0.90、median 0.969、僅 0.3% <0.850.95 cut 坐落飽和區(~76% 在其上)→ cosine 單獨幾乎不分辨、靠 dHashpadding/normalization 完整量化需重跑 CNN ablationDB 做不到)列 future。注意:融合表「95.2%」我配對驗證對不上,未引用。
- [x] **G3 — 「tunable operating point」單向空心**(recall 不可觀測 → 無 PR trade-off)✅ 完成
- 已做:§III-D (i) + §V operating-point 改為「conservativeness dial, not a precisionrecall control」;只能單向收緊、無可校準的 recall 取捨面;abstract 移除 operator-tunable 措辭。
- [x] **G4 — byte-identical 跨案件/跨日期** ✅ 完成(DB 驗證)
- 驗證:262 筆 pixel-identical 全部 match 到**不同 source_pdf**0 同檔),170/262 跨月 → 排除重複申報/同報表雙計;§IV-C 補述。
- [x] **G5 — 低率 ≠ 少數** ✅ 完成
- ✅ 已做:§IV-A 補「888 期望巧合 HC flagsCI [677,1,098]= 0.59%×150,442」+「low rate ≠ small number、單一 HC flag 不單獨解讀」。
## 結構 / 格式 — Minor(含三審共識與細讀)
- [x] **M1** — 摘要重構 ✅;problem→method→data→finding→limitation 弧線,刪「This is not forgery」口語句,併入 F1/F4/F5/F7 誠實框架。
- [x] **M2** — §I 首次出現處新增 operational definition ✅;明確區分 handwritten/seal/overlay/e-sign/proxy + 排除 cryptographic digital signature,準則=image reuse 可見結果。
- [x] **M3** — §III-A 強化免責 ✅;訪談 self-reported/anonymized/不可重製,吻合=consistency with domain knowledge,非 accuracy/recall 量測。
- [x] **M4** — Figure 3 換真實 2D density ✅;make_fig3_density.py 產 n=150,441 log-density + 五區疊加 + 軸刻度;caption 改為描述真實分布。
- [x] **M5** — §X→Section X ✅(114 處全替換,無 malformed)。
- [x] **M6** — specificity→specificity proxy ✅(隨 F1/F7 完成)。
- [x] **M7** — Table II-b 後新增 reconciliation 段 ✅;直接解釋 within(2129%) vs between(0.59%) 不同量,「clean」=between 巧合罕見非 within 低。
- [x] **M8** — 新增 §V-D Threats to Validity ✅;8 條集中列出(含 bias 方向與交叉引用)。
- [x] **M9** — §IV-B 新增框架句 ✅;分清 empirical(比率/巧合率/byte-id) vs designed procedure(4 moves)protocol first-run 明列 future work。
- [x] **M10** — 對齊完成 ✅;168,755=matched、168,740=有測值(差 15=單簽會計師 pool=1,DB 驗證),§IV-A 補註;226=cell 全部、206=有足夠簽名子集,§V future-work 補「206 of 226」。
- [x] **M11**(半-Major)— 語料範圍釐清 ✅
- §III-B 新增一句:primary sample=Big-4150,442=valid∩有兩測值(60,448/38,993/34,248/16,752);non-Big-4 僅入 §V-C crossover 穩健性、不入 calibration/headline。
- [x] **M12** — 新增 Table II-cAD 20202023 五分類)✅;邏輯以 20132019 Firm B 重現 Table II-b 驗證通過。
- [x] **M13** — 拼寫統一美式 ✅(behaviour/labelled/centring/colour→美式,30 處;references 內保留原拼寫)。⏳ placeholder 作者/機構/DOI/biography 投稿前補(double-blind,待你)。
- [x] **M14** — 參考文獻體例 ✅(網路查證)
- 查證結論:[4]SigNetdblp=CoRR)、[8]Brimoh、[9]Woodruff、[24]Qwen2.5-VL **皆無正式刊出版本,維持 arXiv 即正確**reviewer 誤判有正式版)。[25] 補官方 docs URL;[27] 升級為精確永久連結 + 日期(Jan 21, 2013)。
- [x] **M15** — 新增 Table I-a 縮寫/門檻對照表 ✅(HC/MC/HSC/UN/LH + cuts + ICCR/c/d 記號)。⏳ II-b vs IV 整併為主觀排版判斷,建議你決定。
---
## 分類:可立即文字改 vs 需新分析/資料 vs 需 co-author 決策
**A. 純文字重構(無需新數據,可現在做)**:F1(術語/撤回 139×)、F4、F7、G3、G4(若資料已知)、M1、M2、M3、M5、M6、M8、M9、M13、M15、A(主動論證段落)
**B. 需新分析 / 跑資料**F2firm-metadata 抽取)、F3prevalence 數字)、F5subsampling + bootstrap + FE + LOYO 套組)、F6clean-group 敏感度)、G1event study)、G2(前處理量化)、G5(絕對期望數)、M4(真實 density 圖)、M7B/C/D HC 解釋需查數)、M11(語料分母核對)、M12(五分類表)
**C. 需 co-authorJimmy)決策 / 確認**:是否補 within-CPA 親簽 benchmarkF1 理想項)、G1 event study 範圍、最終宣稱降溫幅度