Files
novelty-seeking/experiments/docs/presentation_notes_zh.md
gbanyan 43c025e060 feat: Add experiments framework and novelty-driven agent loop
- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-20 10:16:21 +08:00

4.5 KiB
Raw Permalink Blame History

簡報備忘稿


開場1-2 分鐘)

問題: LLM 生成創意時有「語義引力」問題

  • 問「椅子創新用途」→ 都是「人體工學椅」「折疊椅」
  • 想法集中在訓練數據的高頻區域

我們的解法: Bisociation雙重聯想

  • 拆解屬性 + 專家視角 + 無上下文關鍵字
  • 強迫產生意外連結

實驗設計1 分鐘)

五個條件2×2 + 控制組:

條件 記法 重點
C1 直接生成 Baseline
C2 只有專家 專家自由發揮
C3 只有屬性 結構但無專家
C4 完整管線 屬性 + 專家
C5 隨機詞彙 控制組:隨機 vs 專家

關鍵設計: 專家生成關鍵字時看不到原始查詢

  • 會計師 + 「便攜」→ 「流動資產」(不知道是椅子)
  • 再把「流動資產」+ 「椅子」結合

四個研究問題的答案

RQ 問題 答案 一句話
RQ1 屬性有效? ✓ Yes p=0.027
RQ2 專家有效? ✓ Yes p<0.001
RQ3 有加乘效果? ✗ No Sub-additive
RQ4 專家 > 隨機? ✗ No p=0.463

意外發現: 隨機詞彙跟專家一樣好 → 價值在「視角轉換」本身


核心數據(記住這幾個數字)

新穎性(距離質心,越高越新穎)

C4: 0.395 ← 最高!
C5: 0.365
C3: 0.337
C2: 0.315
C1: 0.273 ← 最低(最典型)

彈性(組合跳躍數,越高越分散)

C2: 48 ← 最高!(專家自由探索)
C3: 33
C5: 20
C4: 13 ← 最低!(專注探索)
C1: 0  ← 單一群集

🔑 關鍵發現(重點中的重點)

發現 1原創性-彈性相關性

論文說:

  • 人類r ≈ 0無相關
  • 典型 LLMr > 0正相關

我們的結果r = 0.071(接近零)

產生「類似人類」的創意模式!

發現 2C4 的獨特位置

C4 = 最高新穎性 + 最低彈性

這代表:「專注的新穎性」
- 不是到處亂跳(高彈性)
- 而是深入一個新穎領域(低彈性但高新穎)
- 像人類專家的創意模式

發現 3為什麼會這樣

屬性錨定效應:
  所有專家都回應同樣的屬性集
  → 想法被錨定在相似概念空間(低彈性)
  → 但無上下文關鍵字強迫新穎聯結(高新穎)

結果focused novelty聚焦的新穎性

方法論亮點

組合跳躍信號Combined Jump

  • 舊方法:只看類別切換
  • 新方法:類別切換 語義不相似
  • 減少假陽性,更準確

彈性檔案分類

檔案 跳躍比率 我們的結果
Persistent <30% 全部條件
Mixed 30-45%
Flexible >45%

→ LLM 傾向「持續探索」而非「靈活跳躍」


限制(誠實說)

  1. 樣本小: 10 個查詢pilot study
  2. 沒有人工評估: 只有 embedding 指標
  3. 單一模型: 只測 Qwen3:8b
  4. 語義距離 ≠ 真正新穎: 「量子糾纏椅」距離遠但不新穎

下一步(如果被問到)

  1. 人工評估介面(已建好)
  2. 多模型驗證GPT-4, Claude
  3. LLM-as-Judge 大規模評分
  4. 30 個查詢 增加統計效力

一句話總結

我們的屬性+專家管線讓 LLM 產生「類似人類專家」的創意模式: 高新穎性但專注探索,打破典型 LLM 的「彈性=新穎」正相關。


快問快答

Q: 為什麼隨機詞跟專家一樣好? A: 價值在「視角轉換」本身,不在專業知識

Q: 為什麼 C4 彈性最低但新穎性最高? A: 屬性把專家錨定在同一概念空間,但無上下文關鍵字強迫新穎連結

Q: r=0.071 代表什麼? A: 新穎性和彈性無相關,跟人類一樣,打破典型 LLM 的正相關模式

Q: Persistent profile 是好是壞? A: 不是好壞是探索策略。C4 證明可以 persistent 但仍然 novel

Q: 這對實務有什麼用? A: 想要高新穎性 → 用 C4想要多元類別 → 用 C2


數字速查表

指標 C1 C2 C3 C4 C5
想法數 195 198 125 402 199
新穎性 0.273 0.315 0.337 0.395 0.365
彈性(jumps) 0 48 33 13 20
跳躍比率 0% 24% 27% 3% 10%
凝聚度 71% 73% 51% 89% 71%

記憶口訣: C4 最新穎、最凝聚、最低彈性 = 「聚焦的新穎」