Paper A v13 rev8: fusion-review revision (29 items) + verified data analysis

Address all 29 items from the fused reviewer report (Gemini 3.1 Pro +
ChatGPT 5.5 + Opus 4.8): 3 fatal, 4 severe, arbitration A/B, 5 fusion-new,
15 minor. All new numbers computed from signature_analysis.db; nothing
fabricated.

Claim honesty (F1/F3/F4/F7/G3):
- Retract all "139x the floor" comparisons; ICCR -> between-accountant
  specificity proxy throughout; state within-accountant FPR is not
  estimable and ICCR is not even a bound (anti-conservative direction).
- Firm A reframed as quasi-positive known-positive benchmark (not blinded).
- byte-identity recast as prevalence signal, not a recall/sanity check.
- tunable -> single-direction conservativeness dial (no P-R frontier).

New data analysis (verified, bit-reproducible via committed scripts):
- F2/G1 (Sec V-B): 880-PDF imaging-pipeline audit (Table V) - plain scans
  82% (2013) -> 1% (2021); producer strings name scanner hardware
  (Fuji Xerox D125 etc.); substrate transforms at 2020/21 = named confound.
- F5 (Sec IV-C): four robustness checks - pool-size stratification,
  accountant-clustered bootstrap (gap 53.7pp [49.5,57.5]), firm+year FE
  logistic (B/C/D OR 0.06-0.12), leave-one-year-out (gap 53.1-54.9pp).
- byte-identity era split: 30 scan-era (18 Firm A, pipeline-robust) vs
  232 digital-era (detectability-inflated, hedged).
- G5: archive-wide 888 expected chance HC flags [677,1098].
- M4: Figure 3 replaced with real 2D density (n=150,441).

Structure/minor: abstract restructured (M1); operational definition (M2);
interview disclaimer (M3); Threats to Validity subsection (M8); review
protocol framed as design not evidence (M9); N reconciliations (M10/M11);
Table II-c 2020-23 five-way (M12); Section refs, American spelling,
notation table (M5/M13/M15); reference URLs verified (M14).

Open (author-only): placeholders (M13), II-b/IV table merge (M15).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Claude-Session: https://claude.ai/code/session_01Qn59FdF9JMyfFg3sjcUNNG
This commit is contained in:
2026-06-23 14:36:51 +08:00
parent 61dd2dcaad
commit da455791de
7 changed files with 438 additions and 81 deletions
+86
View File
@@ -0,0 +1,86 @@
# 融合審查 — 修訂 TODO 清單
**來源**`Fusion_Review_Crosscheck_Table.docx`Gemini 3.1 Pro + ChatGPT 5.5 + Opus 4.8 → Opus 4.8 融合,2026-06-19
**對象稿件**`paper/v13_build/paper_v13_filled.md`rev7 submission 單一真實來源)
**建議結論**Major Revision
**統計**:致命共識 ×3 · 嚴重 ×4 · 融合新增 ×5 · 改向/不採納 ×1 · 結構/Minor ×15
投票圖例:★ = 強烈標記 / ● = 提及 / ○ = 弱提及 / — = 未提。欄位 G=Gemini, C=ChatGPT, O=Opus。
執行順序:① F1 → ② F2+G1 → ③ F3、F7 與宣稱降溫 → ④ F4–F6 與 F5 穩健性套組 → ⑤ 結構與 Minor。
---
## Tier 1 — 致命(三審高共識,不修則中心宣稱垮)
- [x] **F1 — 校準 null 類別錯誤**(G★ C○ O★)|偏誤方向 anti-conservative ✅ 文字完成(abstract/§I/§III-D/§III-E/§IV-C/§V/§VI
- 已做:全文 ICCR→specificity proxy;撤回所有「139×/4059×」式比較;§III-E 新增 between vs within 區分、明說 within-CPA 偽陽率不可估計、ICCR 連 bound 都不是、偏誤 anti-conservative。
- ✅ benchmark 問題已 §III-E 主動防守:無 OUR-population 親簽標記、公開集屬不同族群/字體/管線→借入會重引跨分布假設(違 label-free 初衷),故報告限制非誤導 proxy。不做(用戶/領域判斷確認做不出)。
- [x] **F2 — Firm 為被混淆的 treatment**(G★ C★ O★)✅ 完成(PDF 解析具名證據)
- ✅ 880 份 PDF 管線審計:純掃描 2013 82% → 2021 崩到 1%metadata 點名掃描機型(Fuji Xerox D125/ApeosPort)→ Table V 寫入 §V-B;量測基底本身在 2020/21 轉變 = 混淆具名鐵證。
- ✅ byte-identical era split232 數位年代(偵測性放大,已 hedge)vs 30 掃描年代(管線無關鐵證,18 在 Firm A)→ §V-B + §IV-C 交叉註記。
- 腳本 pipeline_audit.py / pipeline_audit.csv 已存。
- [x] **F3 — 吃重輸出零驗證**G○ C★ O★)✅ 完成
- 已做:刪除 byte-identical「sanity check / recall 下界」修辭→改 prevalence signalheadline 全面 screening/triage/prevalence 口徑(abstract/貢獻/結論皆已轉),通讀確認無 detection-verdict 過度宣稱。
## Tier 2 — 嚴重(雙審共識)
- [x] **F4 — held-out ≠ blinded**(G○ C★ O★)|Firm A 為已知 institutional positive case ✅ 完成
- 已做:§IV-C 標題改「Held-Out Benchmark: Firm A (a Known Positive)」+ 新增 quasi-positive institutional benchmark 段;abstract/§II 資料切分/§VI 全部改「known-positive benchmark / not a blinded test」。
- [x] **F5 — 旗標率 pool-size / 極值依賴**G● C★ O●)|any-pair 爭議真正內核 ✅ 核心完成
- ✅ 已做:pool-size 分層(Firm A 每一層都壓制 BCD<50 66 vs 20%、…、400+ 82 vs 29%)→ pool size 無法解釋 firm gapaccountant-clustered bootstrap gap 53.7pp CI[49.5,57.5]。皆寫入 §IV-C。
- ✅ 增補完成:firm+year FE logistic(控時間/管線後 B/C/D OR 0.116/0.061/0.070,仍低一個量級);leave-one-year-out gap 53.154.9pp(任一年剔除皆穩,含 202223)。寫入 §IV-C「Four further checks」;腳本 f5_fe_loyo.py。
- [x] **F6 — clean reference exogeneity** ✅ 完成(文字+既有證據)
- §III-E 新增:floor 為 conditional-on-correct-clean;污染只會抬高 floor → 對 Firm A 對比保守(known-safe 方向);leave-one-baseline-firm-out 不動 floorcrossover scope 0.8547→0.8302(≤0.025)。ICCR 在不同 clean-group 下重算需 canonical sampler,未擅自重做。
- [x] **F7 — 宣稱範圍過大**G● C★ O●)|detection / operational labels / tunable / 中文語料可直接採用 ✅ 完成
- 已做:貢獻條列 operational labels→risk strata;全文 specificity→specificity proxy;中文語料「adopt directly」→「starting reference for comparable Chinese-signature pipelines, subject to recalibration」;tunable 見 G3。
## 仲裁(三審分歧,注意採納方向)
- [x] **A — 不 fine-tune 是 label-free 的必然** ✅ 完成
- §II 末新增主動論證段:supervised metric learning 需 labelled pairs = 正是 archive 沒有的 ground truthlabel-free 非弱化版而是唯一誠實選項;貢獻為方法論非架構;fine-tune 留待 protocol first-run 取得 labelled sample 後。
- [x] **B — any-pair 嚴重性分歧** ✅ 併入 F5(已完成)
## 融合新增(三審皆漏,全採納)
- [x] **G1 — staggered e-signing adoption → event study** |**改為誠實描述+招認限制(用戶定案)** ✅ 完成
- 硬發現:資料無乾淨 staggered adoptionA 全程高、C 2022 跳、B 2023 跳、D 緩升),跳升跨整年且集中審計季 → 內部時序無法分離 adoption vs 管線變動,且反推導入點會循環。
- ✅ 已做:§V-B 升級為「Time Trend and the FirmPipeline Confound」,注入真實異質時序 + F2 指紋 + 明列 event study(需外部導入日期)為 future work;不杜撰日期。firm_year_hc_panel.csv 已存備圖。
- [x] **G2 — 前處理壓縮 cosine 尺度** ✅ 完成(可驗證事實+constructablation 列 future
- §V-A 新增:cosine 97.7% ≥0.90、median 0.969、僅 0.3% <0.850.95 cut 坐落飽和區(~76% 在其上)→ cosine 單獨幾乎不分辨、靠 dHashpadding/normalization 完整量化需重跑 CNN ablationDB 做不到)列 future。注意:融合表「95.2%」我配對驗證對不上,未引用。
- [x] **G3 — 「tunable operating point」單向空心**(recall 不可觀測 → 無 PR trade-off)✅ 完成
- 已做:§III-D (i) + §V operating-point 改為「conservativeness dial, not a precisionrecall control」;只能單向收緊、無可校準的 recall 取捨面;abstract 移除 operator-tunable 措辭。
- [x] **G4 — byte-identical 跨案件/跨日期** ✅ 完成(DB 驗證)
- 驗證:262 筆 pixel-identical 全部 match 到**不同 source_pdf**0 同檔),170/262 跨月 → 排除重複申報/同報表雙計;§IV-C 補述。
- [x] **G5 — 低率 ≠ 少數** ✅ 完成
- ✅ 已做:§IV-A 補「888 期望巧合 HC flagsCI [677,1,098]= 0.59%×150,442」+「low rate ≠ small number、單一 HC flag 不單獨解讀」。
## 結構 / 格式 — Minor(含三審共識與細讀)
- [x] **M1** — 摘要重構 ✅;problem→method→data→finding→limitation 弧線,刪「This is not forgery」口語句,併入 F1/F4/F5/F7 誠實框架。
- [x] **M2** — §I 首次出現處新增 operational definition ✅;明確區分 handwritten/seal/overlay/e-sign/proxy + 排除 cryptographic digital signature,準則=image reuse 可見結果。
- [x] **M3** — §III-A 強化免責 ✅;訪談 self-reported/anonymized/不可重製,吻合=consistency with domain knowledge,非 accuracy/recall 量測。
- [x] **M4** — Figure 3 換真實 2D density ✅;make_fig3_density.py 產 n=150,441 log-density + 五區疊加 + 軸刻度;caption 改為描述真實分布。
- [x] **M5** — §X→Section X ✅(114 處全替換,無 malformed)。
- [x] **M6** — specificity→specificity proxy ✅(隨 F1/F7 完成)。
- [x] **M7** — Table II-b 後新增 reconciliation 段 ✅;直接解釋 within(2129%) vs between(0.59%) 不同量,「clean」=between 巧合罕見非 within 低。
- [x] **M8** — 新增 §V-D Threats to Validity ✅;8 條集中列出(含 bias 方向與交叉引用)。
- [x] **M9** — §IV-B 新增框架句 ✅;分清 empirical(比率/巧合率/byte-id) vs designed procedure(4 moves)protocol first-run 明列 future work。
- [x] **M10** — 對齊完成 ✅;168,755=matched、168,740=有測值(差 15=單簽會計師 pool=1,DB 驗證),§IV-A 補註;226=cell 全部、206=有足夠簽名子集,§V future-work 補「206 of 226」。
- [x] **M11**(半-Major)— 語料範圍釐清 ✅
- §III-B 新增一句:primary sample=Big-4150,442=valid∩有兩測值(60,448/38,993/34,248/16,752);non-Big-4 僅入 §V-C crossover 穩健性、不入 calibration/headline。
- [x] **M12** — 新增 Table II-cAD 20202023 五分類)✅;邏輯以 20132019 Firm B 重現 Table II-b 驗證通過。
- [x] **M13** — 拼寫統一美式 ✅(behaviour/labelled/centring/colour→美式,30 處;references 內保留原拼寫)。⏳ placeholder 作者/機構/DOI/biography 投稿前補(double-blind,待你)。
- [x] **M14** — 參考文獻體例 ✅(網路查證)
- 查證結論:[4]SigNetdblp=CoRR)、[8]Brimoh、[9]Woodruff、[24]Qwen2.5-VL **皆無正式刊出版本,維持 arXiv 即正確**reviewer 誤判有正式版)。[25] 補官方 docs URL;[27] 升級為精確永久連結 + 日期(Jan 21, 2013)。
- [x] **M15** — 新增 Table I-a 縮寫/門檻對照表 ✅(HC/MC/HSC/UN/LH + cuts + ICCR/c/d 記號)。⏳ II-b vs IV 整併為主觀排版判斷,建議你決定。
---
## 分類:可立即文字改 vs 需新分析/資料 vs 需 co-author 決策
**A. 純文字重構(無需新數據,可現在做)**:F1(術語/撤回 139×)、F4、F7、G3、G4(若資料已知)、M1、M2、M3、M5、M6、M8、M9、M13、M15、A(主動論證段落)
**B. 需新分析 / 跑資料**F2firm-metadata 抽取)、F3prevalence 數字)、F5subsampling + bootstrap + FE + LOYO 套組)、F6clean-group 敏感度)、G1event study)、G2(前處理量化)、G5(絕對期望數)、M4(真實 density 圖)、M7B/C/D HC 解釋需查數)、M11(語料分母核對)、M12(五分類表)
**C. 需 co-authorJimmy)決策 / 確認**:是否補 within-CPA 親簽 benchmarkF1 理想項)、G1 event study 範圍、最終宣稱降溫幅度