Paper A v13 rev8: fusion-review revision (29 items) + verified data analysis

Address all 29 items from the fused reviewer report (Gemini 3.1 Pro + ChatGPT 5.5 + Opus 4.8): 3 fatal, 4 severe, arbitration A/B, 5 fusion-new, 15 minor. All new numbers computed from signature_analysis.db; nothing fabricated. Claim honesty (F1/F3/F4/F7/G3): - Retract all "139x the floor" comparisons; ICCR -> between-accountant specificity proxy throughout; state within-accountant FPR is not estimable and ICCR is not even a bound (anti-conservative direction). - Firm A reframed as quasi-positive known-positive benchmark (not blinded). - byte-identity recast as prevalence signal, not a recall/sanity check. - tunable -> single-direction conservativeness dial (no P-R frontier). New data analysis (verified, bit-reproducible via committed scripts): - F2/G1 (Sec V-B): 880-PDF imaging-pipeline audit (Table V) - plain scans 82% (2013) -> 1% (2021); producer strings name scanner hardware (Fuji Xerox D125 etc.); substrate transforms at 2020/21 = named confound. - F5 (Sec IV-C): four robustness checks - pool-size stratification, accountant-clustered bootstrap (gap 53.7pp [49.5,57.5]), firm+year FE logistic (B/C/D OR 0.06-0.12), leave-one-year-out (gap 53.1-54.9pp). - byte-identity era split: 30 scan-era (18 Firm A, pipeline-robust) vs 232 digital-era (detectability-inflated, hedged). - G5: archive-wide 888 expected chance HC flags [677,1098]. - M4: Figure 3 replaced with real 2D density (n=150,441). Structure/minor: abstract restructured (M1); operational definition (M2); interview disclaimer (M3); Threats to Validity subsection (M8); review protocol framed as design not evidence (M9); N reconciliations (M10/M11); Table II-c 2020-23 five-way (M12); Section refs, American spelling, notation table (M5/M13/M15); reference URLs verified (M14). Open (author-only): placeholders (M13), II-b/IV table merge (M15). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com> Claude-Session: https://claude.ai/code/session_01Qn59FdF9JMyfFg3sjcUNNG
2026-06-23 14:36:51 +08:00
parent 61dd2dcaad
commit da455791de
7 changed files with 438 additions and 81 deletions
@@ -0,0 +1,86 @@
+# 融合審查 — 修訂 TODO 清單
+
+**來源**：`Fusion_Review_Crosscheck_Table.docx`（Gemini 3.1 Pro + ChatGPT 5.5 + Opus 4.8 → Opus 4.8 融合，2026-06-19）
+**對象稿件**：`paper/v13_build/paper_v13_filled.md`（rev7 submission 單一真實來源）
+**建議結論**：Major Revision
+**統計**：致命共識 ×3 · 嚴重 ×4 · 融合新增 ×5 · 改向/不採納 ×1 · 結構/Minor ×15
+
+投票圖例：★ = 強烈標記 / ● = 提及 / ○ = 弱提及 / — = 未提。欄位 G=Gemini, C=ChatGPT, O=Opus。
+
+執行順序：① F1 → ② F2+G1 → ③ F3、F7 與宣稱降溫 → ④ F4–F6 與 F5 穩健性套組 → ⑤ 結構與 Minor。
+
+---
+
+## Tier 1 — 致命（三審高共識，不修則中心宣稱垮）
+
+- [x] **F1 — 校準 null 類別錯誤**（G★ C○ O★）｜偏誤方向 anti-conservative ✅ 文字完成（abstract/§I/§III-D/§III-E/§IV-C/§V/§VI）
+  - 已做：全文 ICCR→specificity proxy；撤回所有「139×／40–59×」式比較；§III-E 新增 between vs within 區分、明說 within-CPA 偽陽率不可估計、ICCR 連 bound 都不是、偏誤 anti-conservative。
+  - ✅ benchmark 問題已 §III-E 主動防守：無 OUR-population 親簽標記、公開集屬不同族群/字體/管線→借入會重引跨分布假設（違 label-free 初衷），故報告限制非誤導 proxy。不做（用戶/領域判斷確認做不出）。
+- [x] **F2 — Firm 為被混淆的 treatment**（G★ C★ O★）✅ 完成（PDF 解析具名證據）
+  - ✅ 880 份 PDF 管線審計：純掃描 2013 82% → 2021 崩到 1%；metadata 點名掃描機型（Fuji Xerox D125/ApeosPort）→ Table V 寫入 §V-B；量測基底本身在 2020/21 轉變 = 混淆具名鐵證。
+  - ✅ byte-identical era split：232 數位年代（偵測性放大，已 hedge）vs 30 掃描年代（管線無關鐵證，18 在 Firm A）→ §V-B + §IV-C 交叉註記。
+  - 腳本 pipeline_audit.py / pipeline_audit.csv 已存。
+- [x] **F3 — 吃重輸出零驗證**（G○ C★ O★）✅ 完成
+  - 已做：刪除 byte-identical「sanity check / recall 下界」修辭→改 prevalence signal；headline 全面 screening/triage/prevalence 口徑（abstract/貢獻/結論皆已轉），通讀確認無 detection-verdict 過度宣稱。
+
+## Tier 2 — 嚴重（雙審共識）
+
+- [x] **F4 — held-out ≠ blinded**（G○ C★ O★）｜Firm A 為已知 institutional positive case ✅ 完成
+  - 已做：§IV-C 標題改「Held-Out Benchmark: Firm A (a Known Positive)」+ 新增 quasi-positive institutional benchmark 段；abstract/§II 資料切分/§VI 全部改「known-positive benchmark / not a blinded test」。
+- [x] **F5 — 旗標率 pool-size / 極值依賴**（G● C★ O●）｜any-pair 爭議真正內核 ✅ 核心完成
+  - ✅ 已做：pool-size 分層（Firm A 每一層都壓制 BCD：<50 66 vs 20%、…、400+ 82 vs 29%）→ pool size 無法解釋 firm gap；accountant-clustered bootstrap gap 53.7pp CI[49.5,57.5]。皆寫入 §IV-C。
+  - ✅ 增補完成：firm+year FE logistic（控時間/管線後 B/C/D OR 0.116/0.061/0.070，仍低一個量級）；leave-one-year-out gap 53.1–54.9pp（任一年剔除皆穩，含 2022–23）。寫入 §IV-C「Four further checks」；腳本 f5_fe_loyo.py。
+- [x] **F6 — clean reference exogeneity** ✅ 完成（文字+既有證據）
+  - §III-E 新增：floor 為 conditional-on-correct-clean；污染只會抬高 floor → 對 Firm A 對比保守（known-safe 方向）；leave-one-baseline-firm-out 不動 floor；crossover scope 0.8547→0.8302（≤0.025）。ICCR 在不同 clean-group 下重算需 canonical sampler，未擅自重做。
+- [x] **F7 — 宣稱範圍過大**（G● C★ O●）｜detection / operational labels / tunable / 中文語料可直接採用 ✅ 完成
+  - 已做：貢獻條列 operational labels→risk strata；全文 specificity→specificity proxy；中文語料「adopt directly」→「starting reference for comparable Chinese-signature pipelines, subject to recalibration」；tunable 見 G3。
+
+## 仲裁（三審分歧，注意採納方向）
+
+- [x] **A — 不 fine-tune 是 label-free 的必然** ✅ 完成
+  - §II 末新增主動論證段：supervised metric learning 需 labelled pairs = 正是 archive 沒有的 ground truth；label-free 非弱化版而是唯一誠實選項；貢獻為方法論非架構；fine-tune 留待 protocol first-run 取得 labelled sample 後。
+- [x] **B — any-pair 嚴重性分歧** ✅ 併入 F5（已完成）
+
+## 融合新增（三審皆漏，全採納）
+
+- [x] **G1 — staggered e-signing adoption → event study** ｜**改為誠實描述+招認限制（用戶定案）** ✅ 完成
+  - 硬發現：資料無乾淨 staggered adoption（A 全程高、C 2022 跳、B 2023 跳、D 緩升），跳升跨整年且集中審計季 → 內部時序無法分離 adoption vs 管線變動，且反推導入點會循環。
+  - ✅ 已做：§V-B 升級為「Time Trend and the Firm–Pipeline Confound」，注入真實異質時序 + F2 指紋 + 明列 event study（需外部導入日期）為 future work；不杜撰日期。firm_year_hc_panel.csv 已存備圖。
+- [x] **G2 — 前處理壓縮 cosine 尺度** ✅ 完成（可驗證事實+construct，ablation 列 future）
+  - §V-A 新增：cosine 97.7% ≥0.90、median 0.969、僅 0.3% <0.85；0.95 cut 坐落飽和區（~76% 在其上）→ cosine 單獨幾乎不分辨、靠 dHash；padding/normalization 完整量化需重跑 CNN ablation（DB 做不到）列 future。注意：融合表「95.2%」我配對驗證對不上，未引用。
+- [x] **G3 — 「tunable operating point」單向空心**（recall 不可觀測 → 無 P–R trade-off）✅ 完成
+  - 已做：§III-D (i) + §V operating-point 改為「conservativeness dial, not a precision–recall control」；只能單向收緊、無可校準的 recall 取捨面；abstract 移除 operator-tunable 措辭。
+- [x] **G4 — byte-identical 跨案件/跨日期** ✅ 完成（DB 驗證）
+  - 驗證：262 筆 pixel-identical 全部 match 到**不同 source_pdf**（0 同檔），170/262 跨月 → 排除重複申報/同報表雙計；§IV-C 補述。
+- [x] **G5 — 低率 ≠ 少數** ✅ 完成
+  - ✅ 已做：§IV-A 補「888 期望巧合 HC flags（CI [677,1,098]）= 0.59%×150,442」+「low rate ≠ small number、單一 HC flag 不單獨解讀」。
+
+## 結構 / 格式 — Minor（含三審共識與細讀）
+
+- [x] **M1** — 摘要重構 ✅；problem→method→data→finding→limitation 弧線，刪「This is not forgery」口語句，併入 F1/F4/F5/F7 誠實框架。
+- [x] **M2** — §I 首次出現處新增 operational definition ✅；明確區分 handwritten/seal/overlay/e-sign/proxy + 排除 cryptographic digital signature，準則=image reuse 可見結果。
+- [x] **M3** — §III-A 強化免責 ✅；訪談 self-reported/anonymized/不可重製，吻合=consistency with domain knowledge，非 accuracy/recall 量測。
+- [x] **M4** — Figure 3 換真實 2D density ✅；make_fig3_density.py 產 n=150,441 log-density + 五區疊加 + 軸刻度；caption 改為描述真實分布。
+- [x] **M5** — §X→Section X ✅（114 處全替換，無 malformed）。
+- [x] **M6** — specificity→specificity proxy ✅（隨 F1/F7 完成）。
+- [x] **M7** — Table II-b 後新增 reconciliation 段 ✅；直接解釋 within(21–29%) vs between(0.59%) 不同量，「clean」=between 巧合罕見非 within 低。
+- [x] **M8** — 新增 §V-D Threats to Validity ✅；8 條集中列出（含 bias 方向與交叉引用）。
+- [x] **M9** — §IV-B 新增框架句 ✅；分清 empirical(比率/巧合率/byte-id) vs designed procedure(4 moves)；protocol first-run 明列 future work。
+- [x] **M10** — 對齊完成 ✅；168,755=matched、168,740=有測值（差 15=單簽會計師 pool=1，DB 驗證），§IV-A 補註；226=cell 全部、206=有足夠簽名子集，§V future-work 補「206 of 226」。
+- [x] **M11**（半-Major）— 語料範圍釐清 ✅
+  - §III-B 新增一句：primary sample=Big-4；150,442=valid∩有兩測值（60,448/38,993/34,248/16,752）；non-Big-4 僅入 §V-C crossover 穩健性、不入 calibration/headline。
+- [x] **M12** — 新增 Table II-c（A–D 2020–2023 五分類）✅；邏輯以 2013–2019 Firm B 重現 Table II-b 驗證通過。
+- [x] **M13** — 拼寫統一美式 ✅（behaviour/labelled/centring/colour→美式，30 處；references 內保留原拼寫）。⏳ placeholder 作者/機構/DOI/biography 投稿前補（double-blind，待你）。
+- [x] **M14** — 參考文獻體例 ✅（網路查證）
+  - 查證結論：[4]SigNet（dblp=CoRR）、[8]Brimoh、[9]Woodruff、[24]Qwen2.5-VL **皆無正式刊出版本，維持 arXiv 即正確**（reviewer 誤判有正式版）。[25] 補官方 docs URL；[27] 升級為精確永久連結 + 日期（Jan 21, 2013）。
+- [x] **M15** — 新增 Table I-a 縮寫/門檻對照表 ✅（HC/MC/HSC/UN/LH + cuts + ICCR/c/d 記號）。⏳ II-b vs IV 整併為主觀排版判斷，建議你決定。
+
+---
+
+## 分類：可立即文字改 vs 需新分析/資料 vs 需 co-author 決策
+
+**A. 純文字重構（無需新數據，可現在做）**：F1（術語/撤回 139×）、F4、F7、G3、G4（若資料已知）、M1、M2、M3、M5、M6、M8、M9、M13、M15、A（主動論證段落）
+
+**B. 需新分析 / 跑資料**：F2（firm-metadata 抽取）、F3（prevalence 數字）、F5（subsampling + bootstrap + FE + LOYO 套組）、F6（clean-group 敏感度）、G1（event study）、G2（前處理量化）、G5（絕對期望數）、M4（真實 density 圖）、M7（B/C/D HC 解釋需查數）、M11（語料分母核對）、M12（五分類表）
+
+**C. 需 co-author（Jimmy）決策 / 確認**：是否補 within-CPA 親簽 benchmark（F1 理想項）、G1 event study 範圍、最終宣稱降溫幅度