Files

gbanyan 43c025e060 feat: Add experiments framework and novelty-driven agent loop

- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-01-20 10:16:21 +08:00

10 KiB

Raw Blame History

AUT 彈性評估方法說明

什麼是 AUT（替代用途任務）？

AUT（Alternative Uses Task，替代用途任務）是一個經典的發散性思維測試，由 Guilford 在 1967 年提出。

測試方式：

問題：「請列出磚塊的所有可能用途」

典型回答：
1. 蓋房子
2. 當門擋
3. 壓紙張
4. 當武器
5. 墊高東西
...

Torrance 創造力四維度

維度	中文	定義	測量方式
Fluency	流暢性	產生多少想法	計算數量
Flexibility	彈性/靈活性	想法涵蓋多少不同類別	計算類別數
Originality	原創性	想法的稀有程度	統計罕見度
Elaboration	精緻性	想法的詳細程度	評估細節

我們實作的三種彈性評估方法

方法一：LLM 雙階段分類法（Hadas & Hershkovitz 2024）

原理： 讓大型語言模型識別想法的語義類別，然後計算類別數量

第一階段：讓 LLM 識別所有想法的語義類別
輸入：「椅子」的 195 個創意想法
輸出：["交通運輸", "藝術裝飾", "醫療健康", "教育", "儲存", ...]

第二階段：將每個想法分配到類別
想法 1：「太陽能充電椅」→ 科技類
想法 2：「椅子改裝成擔架」→ 醫療類
想法 3：「椅腳當鼓棒」→ 藝術類

彈性分數 = 使用的不同類別數量

優點： 類別名稱有語義意義，可解釋性強 缺點： 依賴 LLM 的一致性，可能有解析錯誤

方法二：嵌入向量階層式聚類法（arXiv:2405.00899）

原理： 將想法轉換成向量，用數學方法自動分群

步驟 1：將每個想法轉換成向量（embedding）
        「太陽能充電椅」→ [0.12, -0.34, 0.56, ...]（1024 維）

步驟 2：使用 Ward 連結法進行階層式聚類
        計算所有想法之間的餘弦距離
        由下而上合併最相似的群組

步驟 3：在相似度 ≥ 0.7 的閾值切割樹狀圖
        確保同一群內的想法夠相似

彈性分數 = 產生的群集數量

優點： 客觀、可重現、不依賴 LLM 判斷 缺點： 群集沒有語義標籤，需要人工解讀

方法三：組合跳躍信號分析（Combined Jump Signal, arXiv:2405.00899）

原理： 使用更嚴格的「真正跳躍」定義，減少假陽性

組合跳躍 = 類別跳躍 ∧ 語義跳躍

類別跳躍（jumpcat）：連續想法屬於不同的 embedding 群集
語義跳躍（jumpSS）：連續想法的語義相似度 < 0.7

真正跳躍 = 兩個條件都必須成立

為什麼需要組合跳躍？

問題：單獨使用類別跳躍可能產生假陽性
例如：「人體工學椅」和「可調節椅」
  - 可能被分到不同群集（類別跳躍 = True）
  - 但語義上很相似（語義跳躍 = False）
  - 不應該算作真正的「創意跳躍」

解決：組合跳躍要求兩者同時成立，更準確

跳躍比率	探索模式	含義
高（>45%）	靈活探索（Flexible）	廣泛切換類別，思維跳躍
中（30-45%）	混合模式（Mixed）	適度切換
低（<30%）	持續探索（Persistent）	深入單一領域，專注發展

應用： 區分 LLM 與人類的創意模式差異

研究發現

發現一：新穎性（Novelty）與彈性（Flexibility）是獨立維度

條件	新穎性分數	彈性（群集數）	平均相似度	模式
C4 完整管線	0.395（最高）	10	0.583	高新穎、中等彈性
C5 隨機視角	0.365	15（最高）	0.521	高新穎、高彈性
C2 專家視角	0.315	13	0.517	中等新穎、高彈性
C3 屬性分解	0.337	12	-	中等新穎、中等彈性
C1 直接生成	0.273（最低）	1（最低）	0.647	低新穎、低彈性

視覺化解讀：

C1 直接生成的想法：
┌─────────────────────────────────────┐
│  ○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○  │  ← 所有想法集中在一個「普通領域」
│     （彼此相似，且都很典型）          │     （低新穎性 + 低彈性）
└─────────────────────────────────────┘

C5 隨機視角的想法：
┌───┐  ┌───┐  ┌───┐  ┌───┐  ┌───┐
│ ★ │  │ ★ │  │ ★ │  │ ★ │  │ ★ │  ← 分散在多個「新穎領域」
└───┘  └───┘  └───┘  └───┘  └───┘     （高新穎性 + 高彈性）
  ↑      ↑      ↑      ↑      ↑
 交通   醫療   藝術   教育   科技

C4 完整管線的想法：
      ┌─────────────────┐
   ┌──┤  ★★★★★★★★★★★★  ├──┐  ← 集中在一個「新穎領域」但有多個子類別
   │  └─────────────────┘  │     （最高新穎性 + 中等彈性）
   │          ↓            │
   └── 10 個語義群集 ───────┘

發現二：組合跳躍信號分析結果

條件	類別跳躍	語義跳躍	組合跳躍	彈性檔案
C2 專家視角	54	125	48	持續探索
C3 屬性分解	34	107	33	持續探索
C5 隨機視角	22	116	20	持續探索
C4 完整管線	13	348	13	持續探索
C1 直接生成	0	104	0	持續探索

組合跳躍比率：

條件	組合跳躍比率	彈性檔案	解讀
C3 屬性分解	26.6%	Persistent	適度類別切換
C2 專家視角	24.4%	Persistent	適度類別切換
C5 隨機視角	10.1%	Persistent	較低類別切換
C4 完整管線	3.2%	Persistent	非常專注的探索
C1 直接生成	0.0%	Persistent	單一群集（無跳躍）

關鍵洞察： 組合跳躍 ≤ 類別跳躍（符合預期）。所有條件都呈現「持續探索」模式。

發現三：🔑 原創性-彈性相關性（關鍵發現）

論文發現（arXiv:2405.00899）：

人類： 原創性與彈性無相關（r ≈ 0）
典型 LLM： 正相關 — 靈活的 LLM 原創性更高

我們的結果：

指標	數值	解讀
Pearson r	0.071	接近零的相關性
模式	類似人類	打破典型 LLM 模式

各條件數據：

條件	新穎性分數	彈性（組合跳躍數）
C4 完整管線	0.395（最高）	13（最低）
C5 隨機視角	0.365	20
C3 屬性分解	0.337	33
C2 專家視角	0.315	48（最高）
C1 直接生成	0.273（最低）	0

重大發現： 屬性+專家管線（C4）實現最高新穎性但最低彈性，證明結構化的無上下文生成能產生聚焦的新穎性而非分散的探索。

這意味著什麼？

典型 LLM 模式：
  彈性高 → 新穎性高（正相關）
  想法越分散，越可能遇到新穎概念

我們的管線（C4）：
  彈性低 + 新穎性高（打破模式）
  專注探索一個新穎領域，而非到處跳躍

這是「類似人類」的創意模式！
  人類專家通常深入探索一個領域，而非廣泛但淺薄地涉獵

這對創意研究的意義

創造力是多維度的
- 新穎性（Novelty）和彈性（Flexibility）是獨立維度
- 高新穎不代表高彈性，反之亦然
- 需要同時考慮流暢性、彈性、原創性、精緻性

管線設計的取捨

策略	新穎性	彈性	特點
直接生成（C1）	低	低	快速但普通
專家視角（C2）	中	高	多元觀點
隨機視角（C5）	高	最高	強迫跳躍
完整管線（C4）	最高	中	結構化新穎

為什麼專家/隨機視角產生更多類別？

C1 直接生成：
  LLM 沒有外部刺激 → 停留在「家具改良」單一領域
  平均相似度 0.647（最高）→ 想法彼此很像

C2 專家視角：
  4 個不同領域專家 → 引入不同思維框架
  平均相似度 0.517（較低）→ 想法更分散

C5 隨機視角：
  隨機詞彙強迫跳躍 → 意外的連結
  平均相似度 0.521 → 最多語義類別（15 個）

實務建議
- 若需要高新穎性：使用完整管線（C4）
- 若需要高彈性/多元性：使用隨機視角（C5）或專家視角（C2）
- 若需要兩者兼顧：可能需要混合策略

方法論修正說明

原始演算法的問題

最初的聚類演算法有邏輯錯誤：

原本的邏輯（錯誤）：
  目標：找到群內相似度 >= 0.7 的群集

  問題：當想法很分散時（低相似度），
        無法形成符合閾值的緊密群集
        → 演算法放棄，回傳 1 個群集

  結果：C2/C5 的分散想法被錯誤標記為「1 個群集」

修正後的演算法

修正後的邏輯（正確）：
  方法：使用 average linkage 階層式聚類
  閾值：在距離 0.5 處切割樹狀圖
        （即相似度 < 0.5 時分開）

  結果：分散的想法正確地被分成多個群集

結果對比

條件	修正前群集數	修正後群集數	平均相似度
C1 直接生成	29	1	0.647（高）
C2 專家視角	1	13	0.517（低）
C5 隨機視角	1	15	0.521（低）

關鍵洞察： 低相似度 = 高多元性 = 高彈性分數

參考文獻

Hadas & Hershkovitz (2024). "Using Large Language Models to Evaluate Alternative Uses Task Flexibility Score." Thinking Skills and Creativity, Vol. 52.
arXiv:2405.00899 - "Characterising Creative Process in Humans and LLMs" - Jump signal methodology
Guilford, J.P. (1967). The Nature of Human Intelligence. McGraw-Hill.
Torrance, E.P. (1974). Torrance Tests of Creative Thinking. Scholastic Testing Service.

10 KiB Raw Blame History Unescape Escape