Files

gbanyan 43c025e060 feat: Add experiments framework and novelty-driven agent loop

- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-01-20 10:16:21 +08:00

18 KiB

Raw Blame History

創意過程特徵化指標詳解

基於 arXiv:2405.00899 論文的方法論

論文標題： "Characterising the Creative Process in Humans and Large Language Models" 來源： arXiv:2405.00899

本文檔詳細解釋我們從該論文引入的創意過程評估指標，以及這些指標在我們實驗中揭示的重要發現。

一、組合跳躍信號（Combined Jump Signal）

1.1 什麼是「跳躍」？

在創意發散思維中，「跳躍」指的是連續產生的想法之間的語義類別切換。

想法序列範例：
  1. 太陽能充電椅         → 科技類
  2. 智慧溫控座椅         → 科技類（無跳躍）
  3. 椅子改裝成擔架       → 醫療類（跳躍！）
  4. 輪椅輔助站立功能     → 醫療類（無跳躍）
  5. 椅腳當鼓棒           → 藝術類（跳躍！）

1.2 為什麼需要「組合」跳躍？

原始方法的問題：

單純使用類別跳躍（jumpcat）可能產生假陽性：

問題情境：
  想法 A：「可折疊露營椅」  → 群集 1
  想法 B：「便攜式野餐椅」  → 群集 2

  類別跳躍 = True（不同群集）
  但這兩個想法語義上非常相似！
  這不應該算作真正的「創意跳躍」

論文的解決方案：組合跳躍信號

組合跳躍 = 類別跳躍 ∧ 語義跳躍

其中：
  類別跳躍（jumpcat）：連續想法屬於不同的 embedding 群集
  語義跳躍（jumpSS）：連續想法的餘弦相似度 < 0.7

真正跳躍 = 兩個條件都必須成立

1.3 數學定義

對於連續的想法 i 和 $i-1$：


\text{jump}_i = \text{jump}_{cat,i} \land \text{jump}_{SS,i}

其中：

$\text{jump}{cat,i} = \mathbb{1}[c_i \neq c{i-1}]$（類別是否改變）
$\text{jump}{SS,i} = \mathbb{1}[\text{sim}(e_i, e{i-1}) < 0.7]$（相似度是否低於閾值）

1.4 我們的實驗結果

條件	類別跳躍	語義跳躍	組合跳躍	組合比率
C2 專家視角	54	125	48	24.4%
C3 屬性分解	34	107	33	26.6%
C5 隨機視角	22	116	20	10.1%
C4 完整管線	13	348	13	3.2%
C1 直接生成	0	104	0	0.0%

關鍵觀察：

組合跳躍 ≤ 類別跳躍（驗證方法有效性）
C4 的語義跳躍很高（348）但類別跳躍很低（13）→ 想法在語義上分散但停留在相似類別
C1 沒有類別跳躍 → 所有想法在單一語義群集內

二、彈性檔案分類（Flexibility Profile Classification）

2.1 三種創意探索模式

根據論文研究，創意探索可分為三種模式：

檔案	英文	跳躍比率	特徵
持續探索	Persistent	< 30%	深入單一領域，專注發展想法
混合模式	Mixed	30-45%	適度切換，平衡深度與廣度
靈活探索	Flexible	> 45%	頻繁跳躍，廣泛涉獵不同領域

2.2 視覺化理解

持續探索（Persistent）：
┌─────────────────────────────────────┐
│  ●→●→●→●→●→●→●→●→●→●                │  深入探索一個領域
│     科技類                           │  偶爾切換（<30%）
│              ↓                       │
│              ●→●→●→●                 │
│              醫療類                   │
└─────────────────────────────────────┘

靈活探索（Flexible）：
┌─────────────────────────────────────┐
│  ●→  ●→  ●→  ●→  ●→  ●→  ●→  ●      │  頻繁在不同領域間跳躍
│  科 醫 藝 教 科 社 環 科              │  每個領域停留很短
│  技 療 術 育 技 會 保 技              │  （>45% 跳躍）
└─────────────────────────────────────┘

混合模式（Mixed）：
┌─────────────────────────────────────┐
│  ●→●→●→●→  ●→●→●→  ●→●→●→●         │  適度平衡
│    科技類    醫療類    藝術類         │  （30-45% 跳躍）
└─────────────────────────────────────┘

2.3 我們的實驗結果

條件	組合跳躍比率	彈性檔案	解讀
C3 屬性分解	26.6%	Persistent	接近 Mixed 的邊界
C2 專家視角	24.4%	Persistent	適度的類別切換
C5 隨機視角	10.1%	Persistent	較少切換
C4 完整管線	3.2%	Persistent	非常專注的探索
C1 直接生成	0.0%	Persistent	單一群集

重要發現： 所有條件都呈現「持續探索」模式，但程度不同。

三、原創性-彈性相關性分析（Originality-Flexibility Correlation）

3.1 論文的核心發現

arXiv:2405.00899 論文發現了一個關鍵差異：

主體	原創性與彈性的關係	解讀
人類	r ≈ 0（無相關）	原創性和彈性是獨立的能力
典型 LLM	r > 0（正相關）	越靈活的 LLM 越原創

為什麼會有這種差異？

人類創意模式：
  - 有些人善於深入探索（低彈性、高原創）
  - 有些人善於廣泛聯想（高彈性、高原創）
  - 兩種能力是獨立的維度

典型 LLM 模式：
  - LLM 透過「隨機性」產生多樣性
  - 高 temperature → 更多跳躍 → 更多意外發現
  - 彈性和原創性被「隨機性」綁定在一起

3.2 我們的實驗結果

Pearson 相關係數：r = 0.071

指標	數值	解讀
Pearson r	0.071	接近零
統計意義	無顯著相關	兩個維度獨立
模式判定	類似人類	打破典型 LLM 模式

各條件詳細數據：

條件	新穎性（距離質心）	彈性（組合跳躍數）	組合
C4 完整管線	0.395（最高）	13（最低）	高新穎 + 低彈性
C5 隨機視角	0.365	20	高新穎 + 低彈性
C3 屬性分解	0.337	33	中新穎 + 中彈性
C2 專家視角	0.315	48（最高）	中新穎 + 高彈性
C1 直接生成	0.273（最低）	0	低新穎 + 低彈性

3.3 這個發現的重大意義

┌─────────────────────────────────────────────────────────────┐
│                    原創性-彈性空間                           │
│                                                             │
│  高原創 │  C4●                                              │
│         │       C5●                                         │
│         │            C3●                                    │
│         │                 C2●                               │
│         │                                                   │
│  低原創 │  C1●                                              │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r = 0.071 → 幾乎垂直於對角線 → 無相關 → 類似人類！         │
└─────────────────────────────────────────────────────────────┘

對比典型 LLM（r > 0.3）：
┌─────────────────────────────────────────────────────────────┐
│  高原創 │                              ●                    │
│         │                         ●                         │
│         │                    ●                              │
│         │               ●                                   │
│  低原創 │          ●                                        │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r > 0.3 → 沿對角線分布 → 正相關 → 典型 LLM 模式            │
└─────────────────────────────────────────────────────────────┘

四、累積跳躍輪廓（Cumulative Jump Profile）

4.1 什麼是累積跳躍輪廓？

追蹤在想法生成過程中，跳躍次數如何隨時間累積。

想法位置：  1   2   3   4   5   6   7   8   9   10
跳躍發生：  -   -   ✓   -   ✓   -   ✓   ✓   -   ✓
累積計數：  0   0   1   1   2   2   3   4   4   5

輪廓線：
  5 │                                        ●
  4 │                              ●────●
  3 │                    ●────●
  2 │          ●────●
  1 │    ●────●
  0 │●────●
    └────────────────────────────────────────
      1   2   3   4   5   6   7   8   9   10
                    想法位置

4.2 輪廓線的解讀

輪廓特徵	含義	創意模式
陡峭斜率	快速累積跳躍	頻繁切換類別
平緩區域	跳躍暫停	深入探索當前類別
階梯狀	突然爆發跳躍	類別耗盡後轉移
近乎水平	幾乎沒有跳躍	持續在單一領域

4.3 我們的實驗視覺化

各條件輪廓解讀：

條件	輪廓特徵	創意策略
C2 專家視角	穩定上升	持續的類別切換
C3 屬性分解	穩定上升	持續的類別切換
C5 隨機視角	緩慢上升	較少切換
C4 完整管線	幾乎水平	非常專注的單一領域探索
C1 直接生成	完全水平	無任何類別切換

五、實驗發現的綜合意義

5.1 核心發現總結

發現	內容	意義
發現一	原創性-彈性相關 r = 0.071	管線產生「類似人類」的創意模式
發現二	C4 最高新穎性 + 最低彈性	結構化方法產生聚焦的新穎性
發現三	所有條件都是 Persistent	LLM 傾向深度探索而非廣度
發現四	組合跳躍 < 類別跳躍	驗證方法學的有效性

5.2 為什麼 C4 能打破 LLM 模式？

典型 LLM 的問題：
┌─────────────────────────────────────────────────────────────┐
│  直接生成：「給我椅子的創新用途」                            │
│                                                             │
│  LLM 依賴 temperature 產生多樣性                            │
│    → 高 temperature = 更多隨機性                            │
│    → 更多隨機性 = 更多跳躍（高彈性）                        │
│    → 更多跳躍 = 更可能遇到新穎想法（高原創）                │
│                                                             │
│  結果：彈性和原創性被綁定（正相關）                         │
└─────────────────────────────────────────────────────────────┘

C4 管線的突破：
┌─────────────────────────────────────────────────────────────┐
│  結構化生成：                                                │
│                                                             │
│  Step 1: 屬性分解                                           │
│    「椅子」→ [便攜, 可堆疊, 人體工學, ...]                 │
│                                                             │
│  Step 2: 專家無上下文關鍵字                                 │
│    會計師 + 「便攜」→ 「流動資產」（不知道是椅子！）        │
│                                                             │
│  Step 3: 重新結合                                           │
│    「椅子」+ 「流動資產」+ 會計師視角                       │
│    → 「帶 RFID 資產追蹤的企業椅子」                        │
│                                                             │
│  關鍵機制：                                                  │
│    - 結構強制「跳出」典型語義空間（高新穎性）              │
│    - 但所有想法都錨定在相同屬性集（低彈性）                │
│    - 新穎性來自「強制bisociation」而非「隨機探索」         │
│                                                             │
│  結果：高新穎性 + 低彈性 → 打破正相關 → 類似人類            │
└─────────────────────────────────────────────────────────────┘

5.3 這對創意 AI 研究的意義

理論貢獻：

證明 LLM 可以產生「類似人類」的創意模式
- 不是透過模仿人類數據
- 而是透過結構化的創意管線設計
原創性和彈性是可以獨立控制的
- 傳統認為需要高隨機性才能高原創
- 我們證明結構化約束也能達到高原創
「專注的新穎性」vs「分散的探索」
- C4：深入一個新穎領域（專家策略）
- C5：廣泛接觸多個領域（通才策略）
- 兩種都有價值，但機制不同

實務應用：

目標	推薦策略	原因
最大化新穎性	C4 完整管線	最高距離質心分數
最大化類別多樣性	C2 專家視角	最多組合跳躍
平衡新穎與多樣	C3 屬性分解	中等水平
快速生成	C1 直接生成	最少 API 調用

六、方法論驗證

6.1 組合跳躍 ≤ 類別跳躍

這是方法學的必要條件驗證：

邏輯推導：
  組合跳躍 = 類別跳躍 ∧ 語義跳躍

  當類別跳躍 = False 時：
    組合跳躍 = False ∧ ? = False

  當類別跳躍 = True 時：
    組合跳躍 = True ∧ 語義跳躍 = 語義跳躍（可能 True 或 False）

  因此：組合跳躍 ≤ 類別跳躍（必然成立）

實驗驗證：

條件	類別跳躍	組合跳躍	驗證
C2	54	48	✓
C3	34	33	✓
C5	22	20	✓
C4	13	13	✓
C1	0	0	✓

6.2 彈性檔案閾值的選擇

論文使用的閾值（30%、45%）基於人類實驗數據的分布。我們的 LLM 實驗中，所有條件都落在 Persistent 區間，這本身就是一個發現：

人類分布（論文數據）：
  Persistent: ~33%
  Mixed: ~34%
  Flexible: ~33%

我們的 LLM 分布：
  Persistent: 100%（所有條件）
  Mixed: 0%
  Flexible: 0%

解讀：
  LLM（即使加入專家/屬性引導）仍傾向持續探索模式
  這可能是 LLM 架構的固有特性

七、與其他指標的整合

7.1 完整指標體系

維度	指標	來源	C4 表現
流暢性	想法數量	Torrance	402（最多）
彈性	組合跳躍數	arXiv:2405.00899	13（最低）
原創性	距離質心	本研究	0.395（最高）
精緻性	平均字數	Torrance	26.2

7.2 C4 的獨特位置

創意空間定位：

     高原創性
         │
    C4 ●│
         │    C5●
         │         C3●
         │              C2●
         │
    C1 ●│
         └──────────────────── 高彈性
     低原創性

C4 占據了「高原創性 + 低彈性」的獨特位置
這在人類創意者中常見（專家型），但在 LLM 中罕見

八、未來研究方向

基於這些發現，建議的後續研究：

跨模型驗證
- 在 GPT-4、Claude、Llama-3 上重複實驗
- 確認發現是否為通用現象
Temperature 敏感度測試
- 論文發現 LLM 對 temperature 不敏感
- 測試我們的管線是否也有此特性
人類基準比較
- 收集人類在相同任務上的數據
- 直接比較彈性檔案分布
管線變體測試
- 調整屬性數量、專家數量
- 找到最佳平衡點

參考文獻

arXiv:2405.00899 - "Characterising the Creative Process in Humans and Large Language Models"
- 組合跳躍信號、彈性檔案分類的原始論文
Hadas & Hershkovitz (2024) - "Using LLMs to Evaluate AUT Flexibility Score"
- LLM 雙階段分類法的來源
Torrance (1974) - Torrance Tests of Creative Thinking
- 創造力四維度框架
Koestler (1964) - The Act of Creation
- Bisociation 理論基礎

附錄：程式碼參考

相關分析程式碼位於：

experiments/aut_flexibility_analysis.py
- compute_jump_signal() - 組合跳躍計算
- classify_flexibility_profile() - 彈性檔案分類
- analyze_originality_flexibility_correlation() - 相關性分析
- compute_cumulative_jump_profile() - 累積跳躍輪廓
- plot_cumulative_jump_profiles() - 視覺化

執行分析：

cd experiments
source ../backend/venv/bin/activate
python aut_flexibility_analysis.py experiment_20260119_165650_deduped.json

18 KiB Raw Blame History Unescape Escape