Files
pdf_signature_extraction/paper/fusion_review_todo.md
gbanyan da455791de Paper A v13 rev8: fusion-review revision (29 items) + verified data analysis
Address all 29 items from the fused reviewer report (Gemini 3.1 Pro +
ChatGPT 5.5 + Opus 4.8): 3 fatal, 4 severe, arbitration A/B, 5 fusion-new,
15 minor. All new numbers computed from signature_analysis.db; nothing
fabricated.

Claim honesty (F1/F3/F4/F7/G3):
- Retract all "139x the floor" comparisons; ICCR -> between-accountant
  specificity proxy throughout; state within-accountant FPR is not
  estimable and ICCR is not even a bound (anti-conservative direction).
- Firm A reframed as quasi-positive known-positive benchmark (not blinded).
- byte-identity recast as prevalence signal, not a recall/sanity check.
- tunable -> single-direction conservativeness dial (no P-R frontier).

New data analysis (verified, bit-reproducible via committed scripts):
- F2/G1 (Sec V-B): 880-PDF imaging-pipeline audit (Table V) - plain scans
  82% (2013) -> 1% (2021); producer strings name scanner hardware
  (Fuji Xerox D125 etc.); substrate transforms at 2020/21 = named confound.
- F5 (Sec IV-C): four robustness checks - pool-size stratification,
  accountant-clustered bootstrap (gap 53.7pp [49.5,57.5]), firm+year FE
  logistic (B/C/D OR 0.06-0.12), leave-one-year-out (gap 53.1-54.9pp).
- byte-identity era split: 30 scan-era (18 Firm A, pipeline-robust) vs
  232 digital-era (detectability-inflated, hedged).
- G5: archive-wide 888 expected chance HC flags [677,1098].
- M4: Figure 3 replaced with real 2D density (n=150,441).

Structure/minor: abstract restructured (M1); operational definition (M2);
interview disclaimer (M3); Threats to Validity subsection (M8); review
protocol framed as design not evidence (M9); N reconciliations (M10/M11);
Table II-c 2020-23 five-way (M12); Section refs, American spelling,
notation table (M5/M13/M15); reference URLs verified (M14).

Open (author-only): placeholders (M13), II-b/IV table merge (M15).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
Claude-Session: https://claude.ai/code/session_01Qn59FdF9JMyfFg3sjcUNNG
2026-06-23 14:36:51 +08:00

9.7 KiB
Raw Permalink Blame History

融合審查 — 修訂 TODO 清單

來源Fusion_Review_Crosscheck_Table.docxGemini 3.1 Pro + ChatGPT 5.5 + Opus 4.8 → Opus 4.8 融合,2026-06-19 對象稿件paper/v13_build/paper_v13_filled.mdrev7 submission 單一真實來源) 建議結論Major Revision 統計:致命共識 ×3 · 嚴重 ×4 · 融合新增 ×5 · 改向/不採納 ×1 · 結構/Minor ×15

投票圖例:★ = 強烈標記 / ● = 提及 / ○ = 弱提及 / — = 未提。欄位 G=Gemini, C=ChatGPT, O=Opus。

執行順序:① F1 → ② F2+G1 → ③ F3、F7 與宣稱降溫 → ④ F4–F6 與 F5 穩健性套組 → ⑤ 結構與 Minor。


Tier 1 — 致命(三審高共識,不修則中心宣稱垮)

  • F1 — 校準 null 類別錯誤(G★ C○ O★)|偏誤方向 anti-conservative 文字完成(abstract/§I/§III-D/§III-E/§IV-C/§V/§VI
    • 已做:全文 ICCR→specificity proxy;撤回所有「139×/4059×」式比較;§III-E 新增 between vs within 區分、明說 within-CPA 偽陽率不可估計、ICCR 連 bound 都不是、偏誤 anti-conservative。
    • benchmark 問題已 §III-E 主動防守:無 OUR-population 親簽標記、公開集屬不同族群/字體/管線→借入會重引跨分布假設(違 label-free 初衷),故報告限制非誤導 proxy。不做(用戶/領域判斷確認做不出)。
  • F2 — Firm 為被混淆的 treatmentG★ C★ O★) 完成(PDF 解析具名證據)
    • 880 份 PDF 管線審計:純掃描 2013 82% → 2021 崩到 1%metadata 點名掃描機型(Fuji Xerox D125/ApeosPort)→ Table V 寫入 §V-B;量測基底本身在 2020/21 轉變 = 混淆具名鐵證。
    • byte-identical era split232 數位年代(偵測性放大,已 hedge)vs 30 掃描年代(管線無關鐵證,18 在 Firm A)→ §V-B + §IV-C 交叉註記。
    • 腳本 pipeline_audit.py / pipeline_audit.csv 已存。
  • F3 — 吃重輸出零驗證G○ C★ O★) 完成
    • 已做:刪除 byte-identical「sanity check / recall 下界」修辭→改 prevalence signalheadline 全面 screening/triage/prevalence 口徑(abstract/貢獻/結論皆已轉),通讀確認無 detection-verdict 過度宣稱。

Tier 2 — 嚴重(雙審共識)

  • F4 — held-out ≠ blinded(G○ C★ O★)|Firm A 為已知 institutional positive case 完成
    • 已做:§IV-C 標題改「Held-Out Benchmark: Firm A (a Known Positive)」+ 新增 quasi-positive institutional benchmark 段;abstract/§II 資料切分/§VI 全部改「known-positive benchmark / not a blinded test」。
  • F5 — 旗標率 pool-size / 極值依賴G● C★ O●)|any-pair 爭議真正內核 核心完成
    • 已做:pool-size 分層(Firm A 每一層都壓制 BCD<50 66 vs 20%、…、400+ 82 vs 29%)→ pool size 無法解釋 firm gapaccountant-clustered bootstrap gap 53.7pp CI[49.5,57.5]。皆寫入 §IV-C。
    • 增補完成:firm+year FE logistic(控時間/管線後 B/C/D OR 0.116/0.061/0.070,仍低一個量級);leave-one-year-out gap 53.154.9pp(任一年剔除皆穩,含 202223)。寫入 §IV-C「Four further checks」;腳本 f5_fe_loyo.py。
  • F6 — clean reference exogeneity 完成(文字+既有證據)
    • §III-E 新增:floor 為 conditional-on-correct-clean;污染只會抬高 floor → 對 Firm A 對比保守(known-safe 方向);leave-one-baseline-firm-out 不動 floorcrossover scope 0.8547→0.8302(≤0.025)。ICCR 在不同 clean-group 下重算需 canonical sampler,未擅自重做。
  • F7 — 宣稱範圍過大G● C★ O●)|detection / operational labels / tunable / 中文語料可直接採用 完成
    • 已做:貢獻條列 operational labels→risk strata;全文 specificity→specificity proxy;中文語料「adopt directly」→「starting reference for comparable Chinese-signature pipelines, subject to recalibration」;tunable 見 G3。

仲裁(三審分歧,注意採納方向)

  • A — 不 fine-tune 是 label-free 的必然 完成
    • §II 末新增主動論證段:supervised metric learning 需 labelled pairs = 正是 archive 沒有的 ground truthlabel-free 非弱化版而是唯一誠實選項;貢獻為方法論非架構;fine-tune 留待 protocol first-run 取得 labelled sample 後。
  • B — any-pair 嚴重性分歧 併入 F5(已完成)

融合新增(三審皆漏,全採納)

  • G1 — staggered e-signing adoption → event study 改為誠實描述+招認限制(用戶定案) 完成
    • 硬發現:資料無乾淨 staggered adoptionA 全程高、C 2022 跳、B 2023 跳、D 緩升),跳升跨整年且集中審計季 → 內部時序無法分離 adoption vs 管線變動,且反推導入點會循環。
    • 已做:§V-B 升級為「Time Trend and the FirmPipeline Confound」,注入真實異質時序 + F2 指紋 + 明列 event study(需外部導入日期)為 future work;不杜撰日期。firm_year_hc_panel.csv 已存備圖。
  • G2 — 前處理壓縮 cosine 尺度 完成(可驗證事實+constructablation 列 future
    • §V-A 新增:cosine 97.7% ≥0.90、median 0.969、僅 0.3% <0.850.95 cut 坐落飽和區(~76% 在其上)→ cosine 單獨幾乎不分辨、靠 dHashpadding/normalization 完整量化需重跑 CNN ablationDB 做不到)列 future。注意:融合表「95.2%」我配對驗證對不上,未引用。
  • G3 — 「tunable operating point」單向空心(recall 不可觀測 → 無 PR trade-off 完成
    • 已做:§III-D (i) + §V operating-point 改為「conservativeness dial, not a precisionrecall control」;只能單向收緊、無可校準的 recall 取捨面;abstract 移除 operator-tunable 措辭。
  • G4 — byte-identical 跨案件/跨日期 完成(DB 驗證)
    • 驗證:262 筆 pixel-identical 全部 match 到不同 source_pdf(0 同檔),170/262 跨月 → 排除重複申報/同報表雙計;§IV-C 補述。
  • G5 — 低率 ≠ 少數 完成
    • 已做:§IV-A 補「888 期望巧合 HC flagsCI [677,1,098]= 0.59%×150,442」+「low rate ≠ small number、單一 HC flag 不單獨解讀」。

結構 / 格式 — Minor(含三審共識與細讀)

  • M1 — 摘要重構 problem→method→data→finding→limitation 弧線,刪「This is not forgery」口語句,併入 F1/F4/F5/F7 誠實框架。
  • M2 — §I 首次出現處新增 operational definition ;明確區分 handwritten/seal/overlay/e-sign/proxy + 排除 cryptographic digital signature,準則=image reuse 可見結果。
  • M3 — §III-A 強化免責 ;訪談 self-reported/anonymized/不可重製,吻合=consistency with domain knowledge,非 accuracy/recall 量測。
  • M4 — Figure 3 換真實 2D density make_fig3_density.py 產 n=150,441 log-density + 五區疊加 + 軸刻度;caption 改為描述真實分布。
  • M5 — §X→Section X 114 處全替換,無 malformed)。
  • M6 — specificity→specificity proxy (隨 F1/F7 完成)。
  • M7 — Table II-b 後新增 reconciliation 段 ;直接解釋 within(2129%) vs between(0.59%) 不同量,「clean」=between 巧合罕見非 within 低。
  • M8 — 新增 §V-D Threats to Validity ;8 條集中列出(含 bias 方向與交叉引用)。
  • M9 — §IV-B 新增框架句 ;分清 empirical(比率/巧合率/byte-id) vs designed procedure(4 moves)protocol first-run 明列 future work。
  • M10 — 對齊完成 168,755=matched、168,740=有測值(差 15=單簽會計師 pool=1,DB 驗證),§IV-A 補註;226=cell 全部、206=有足夠簽名子集,§V future-work 補「206 of 226」。
  • M11(半-Major)— 語料範圍釐清
    • §III-B 新增一句:primary sample=Big-4150,442=valid∩有兩測值(60,448/38,993/34,248/16,752);non-Big-4 僅入 §V-C crossover 穩健性、不入 calibration/headline。
  • M12 — 新增 Table II-cAD 20202023 五分類);邏輯以 20132019 Firm B 重現 Table II-b 驗證通過。
  • M13 — 拼寫統一美式 behaviour/labelled/centring/colour→美式,30 處;references 內保留原拼寫)。 placeholder 作者/機構/DOI/biography 投稿前補(double-blind,待你)。
  • M14 — 參考文獻體例 (網路查證)
    • 查證結論:[4]SigNetdblp=CoRR)、[8]Brimoh、[9]Woodruff、[24]Qwen2.5-VL 皆無正式刊出版本,維持 arXiv 即正確reviewer 誤判有正式版)。[25] 補官方 docs URL;[27] 升級為精確永久連結 + 日期(Jan 21, 2013)。
  • M15 — 新增 Table I-a 縮寫/門檻對照表 HC/MC/HSC/UN/LH + cuts + ICCR/c/d 記號)。 II-b vs IV 整併為主觀排版判斷,建議你決定。

分類:可立即文字改 vs 需新分析/資料 vs 需 co-author 決策

A. 純文字重構(無需新數據,可現在做):F1(術語/撤回 139×)、F4、F7、G3、G4(若資料已知)、M1、M2、M3、M5、M6、M8、M9、M13、M15、A(主動論證段落)

B. 需新分析 / 跑資料F2firm-metadata 抽取)、F3prevalence 數字)、F5subsampling + bootstrap + FE + LOYO 套組)、F6clean-group 敏感度)、G1event study)、G2(前處理量化)、G5(絕對期望數)、M4(真實 density 圖)、M7B/C/D HC 解釋需查數)、M11(語料分母核對)、M12(五分類表)

C. 需 co-authorJimmy)決策 / 確認:是否補 within-CPA 親簽 benchmarkF1 理想項)、G1 event study 範圍、最終宣稱降溫幅度