novelty-seeking/experiments/docs/creative_process_metrics_zh.md

# 創意過程特徵化指標詳解

## 基於 arXiv:2405.00899 論文的方法論

**論文標題：** "Characterising the Creative Process in Humans and Large Language Models"
**來源：** [arXiv:2405.00899](https://arxiv.org/html/2405.00899v2)

本文檔詳細解釋我們從該論文引入的創意過程評估指標，以及這些指標在我們實驗中揭示的重要發現。

---

## 一、組合跳躍信號（Combined Jump Signal）

### 1.1 什麼是「跳躍」？

在創意發散思維中，「跳躍」指的是連續產生的想法之間的**語義類別切換**。

```
想法序列範例：
  1. 太陽能充電椅         → 科技類
  2. 智慧溫控座椅         → 科技類（無跳躍）
  3. 椅子改裝成擔架       → 醫療類（跳躍！）
  4. 輪椅輔助站立功能     → 醫療類（無跳躍）
  5. 椅腳當鼓棒           → 藝術類（跳躍！）
```

### 1.2 為什麼需要「組合」跳躍？

**原始方法的問題：**

單純使用類別跳躍（jumpcat）可能產生**假陽性**：

```
問題情境：
  想法 A：「可折疊露營椅」  → 群集 1
  想法 B：「便攜式野餐椅」  → 群集 2

  類別跳躍 = True（不同群集）
  但這兩個想法語義上非常相似！
  這不應該算作真正的「創意跳躍」
```

**論文的解決方案：組合跳躍信號**

```
組合跳躍 = 類別跳躍 ∧ 語義跳躍

其中：
  類別跳躍（jumpcat）：連續想法屬於不同的 embedding 群集
  語義跳躍（jumpSS）：連續想法的餘弦相似度 < 0.7

真正跳躍 = 兩個條件都必須成立
```

### 1.3 數學定義

對於連續的想法 $i$ 和 $i-1$：

$$
\text{jump}_i = \text{jump}_{cat,i} \land \text{jump}_{SS,i}
$$

其中：
- $\text{jump}_{cat,i} = \mathbb{1}[c_i \neq c_{i-1}]$（類別是否改變）
- $\text{jump}_{SS,i} = \mathbb{1}[\text{sim}(e_i, e_{i-1}) < 0.7]$（相似度是否低於閾值）

### 1.4 我們的實驗結果

| 條件 | 類別跳躍 | 語義跳躍 | **組合跳躍** | 組合比率 |
|------|:--------:|:--------:|:------------:|:--------:|
| C2 專家視角 | 54 | 125 | **48** | 24.4% |
| C3 屬性分解 | 34 | 107 | **33** | 26.6% |
| C5 隨機視角 | 22 | 116 | **20** | 10.1% |
| C4 完整管線 | 13 | 348 | **13** | 3.2% |
| C1 直接生成 | 0 | 104 | **0** | 0.0% |

**關鍵觀察：**
- 組合跳躍 ≤ 類別跳躍（驗證方法有效性）
- C4 的語義跳躍很高（348）但類別跳躍很低（13）→ 想法在語義上分散但停留在相似類別
- C1 沒有類別跳躍 → 所有想法在單一語義群集內

---

## 二、彈性檔案分類（Flexibility Profile Classification）

### 2.1 三種創意探索模式

根據論文研究，創意探索可分為三種模式：

| 檔案 | 英文 | 跳躍比率 | 特徵 |
|------|------|:--------:|------|
| **持續探索** | Persistent | < 30% | 深入單一領域，專注發展想法 |
| **混合模式** | Mixed | 30-45% | 適度切換，平衡深度與廣度 |
| **靈活探索** | Flexible | > 45% | 頻繁跳躍，廣泛涉獵不同領域 |

### 2.2 視覺化理解

```
持續探索（Persistent）：
┌─────────────────────────────────────┐
│  ●→●→●→●→●→●→●→●→●→●                │  深入探索一個領域
│     科技類                           │  偶爾切換（<30%）
│              ↓                       │
│              ●→●→●→●                 │
│              醫療類                   │
└─────────────────────────────────────┘

靈活探索（Flexible）：
┌─────────────────────────────────────┐
│  ●→  ●→  ●→  ●→  ●→  ●→  ●→  ●      │  頻繁在不同領域間跳躍
│  科 醫 藝 教 科 社 環 科              │  每個領域停留很短
│  技 療 術 育 技 會 保 技              │  （>45% 跳躍）
└─────────────────────────────────────┘

混合模式（Mixed）：
┌─────────────────────────────────────┐
│  ●→●→●→●→  ●→●→●→  ●→●→●→●         │  適度平衡
│    科技類    醫療類    藝術類         │  （30-45% 跳躍）
└─────────────────────────────────────┘
```

### 2.3 我們的實驗結果

| 條件 | 組合跳躍比率 | 彈性檔案 | 解讀 |
|------|:------------:|:--------:|------|
| C3 屬性分解 | 26.6% | Persistent | 接近 Mixed 的邊界 |
| C2 專家視角 | 24.4% | Persistent | 適度的類別切換 |
| C5 隨機視角 | 10.1% | Persistent | 較少切換 |
| **C4 完整管線** | **3.2%** | **Persistent** | 非常專注的探索 |
| C1 直接生成 | 0.0% | Persistent | 單一群集 |

**重要發現：** 所有條件都呈現「持續探索」模式，但程度不同。

---

## 三、原創性-彈性相關性分析（Originality-Flexibility Correlation）

### 3.1 論文的核心發現

arXiv:2405.00899 論文發現了一個關鍵差異：

| 主體 | 原創性與彈性的關係 | 解讀 |
|------|:------------------:|------|
| **人類** | r ≈ 0（無相關） | 原創性和彈性是獨立的能力 |
| **典型 LLM** | r > 0（正相關） | 越靈活的 LLM 越原創 |

**為什麼會有這種差異？**

```
人類創意模式：
  - 有些人善於深入探索（低彈性、高原創）
  - 有些人善於廣泛聯想（高彈性、高原創）
  - 兩種能力是獨立的維度

典型 LLM 模式：
  - LLM 透過「隨機性」產生多樣性
  - 高 temperature → 更多跳躍 → 更多意外發現
  - 彈性和原創性被「隨機性」綁定在一起
```

### 3.2 我們的實驗結果

**Pearson 相關係數：r = 0.071**

| 指標 | 數值 | 解讀 |
|------|:----:|------|
| **Pearson r** | **0.071** | 接近零 |
| 統計意義 | 無顯著相關 | 兩個維度獨立 |
| **模式判定** | **類似人類** | 打破典型 LLM 模式 |

**各條件詳細數據：**

| 條件 | 新穎性（距離質心） | 彈性（組合跳躍數） | 組合 |
|------|:------------------:|:------------------:|------|
| C4 完整管線 | **0.395**（最高） | **13**（最低） | 高新穎 + 低彈性 |
| C5 隨機視角 | 0.365 | 20 | 高新穎 + 低彈性 |
| C3 屬性分解 | 0.337 | 33 | 中新穎 + 中彈性 |
| C2 專家視角 | 0.315 | **48**（最高） | 中新穎 + 高彈性 |
| C1 直接生成 | 0.273（最低） | 0 | 低新穎 + 低彈性 |

### 3.3 這個發現的重大意義

```
┌─────────────────────────────────────────────────────────────┐
│                    原創性-彈性空間                           │
│                                                             │
│  高原創 │  C4●                                              │
│         │       C5●                                         │
│         │            C3●                                    │
│         │                 C2●                               │
│         │                                                   │
│  低原創 │  C1●                                              │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r = 0.071 → 幾乎垂直於對角線 → 無相關 → 類似人類！         │
└─────────────────────────────────────────────────────────────┘

對比典型 LLM（r > 0.3）：
┌─────────────────────────────────────────────────────────────┐
│  高原創 │                              ●                    │
│         │                         ●                         │
│         │                    ●                              │
│         │               ●                                   │
│  低原創 │          ●                                        │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r > 0.3 → 沿對角線分布 → 正相關 → 典型 LLM 模式            │
└─────────────────────────────────────────────────────────────┘
```

---

## 四、累積跳躍輪廓（Cumulative Jump Profile）

### 4.1 什麼是累積跳躍輪廓？

追蹤在想法生成過程中，跳躍次數如何隨時間累積。

```
想法位置：  1   2   3   4   5   6   7   8   9   10
跳躍發生：  -   -   ✓   -   ✓   -   ✓   ✓   -   ✓
累積計數：  0   0   1   1   2   2   3   4   4   5

輪廓線：
  5 │                                        ●
  4 │                              ●────●
  3 │                    ●────●
  2 │          ●────●
  1 │    ●────●
  0 │●────●
    └────────────────────────────────────────
      1   2   3   4   5   6   7   8   9   10
                    想法位置
```

### 4.2 輪廓線的解讀

| 輪廓特徵 | 含義 | 創意模式 |
|----------|------|----------|
| **陡峭斜率** | 快速累積跳躍 | 頻繁切換類別 |
| **平緩區域** | 跳躍暫停 | 深入探索當前類別 |
| **階梯狀** | 突然爆發跳躍 | 類別耗盡後轉移 |
| **近乎水平** | 幾乎沒有跳躍 | 持續在單一領域 |

### 4.3 我們的實驗視覺化

![累積跳躍輪廓](../results/cumulative_jump_profiles.png)

**各條件輪廓解讀：**

| 條件 | 輪廓特徵 | 創意策略 |
|------|----------|----------|
| C2 專家視角 | 穩定上升 | 持續的類別切換 |
| C3 屬性分解 | 穩定上升 | 持續的類別切換 |
| C5 隨機視角 | 緩慢上升 | 較少切換 |
| C4 完整管線 | 幾乎水平 | 非常專注的單一領域探索 |
| C1 直接生成 | 完全水平 | 無任何類別切換 |

---

## 五、實驗發現的綜合意義

### 5.1 核心發現總結

| 發現 | 內容 | 意義 |
|------|------|------|
| **發現一** | 原創性-彈性相關 r = 0.071 | 管線產生「類似人類」的創意模式 |
| **發現二** | C4 最高新穎性 + 最低彈性 | 結構化方法產生聚焦的新穎性 |
| **發現三** | 所有條件都是 Persistent | LLM 傾向深度探索而非廣度 |
| **發現四** | 組合跳躍 < 類別跳躍 | 驗證方法學的有效性 |

### 5.2 為什麼 C4 能打破 LLM 模式？

```
典型 LLM 的問題：
┌─────────────────────────────────────────────────────────────┐
│  直接生成：「給我椅子的創新用途」                            │
│                                                             │
│  LLM 依賴 temperature 產生多樣性                            │
│    → 高 temperature = 更多隨機性                            │
│    → 更多隨機性 = 更多跳躍（高彈性）                        │
│    → 更多跳躍 = 更可能遇到新穎想法（高原創）                │
│                                                             │
│  結果：彈性和原創性被綁定（正相關）                         │
└─────────────────────────────────────────────────────────────┘

C4 管線的突破：
┌─────────────────────────────────────────────────────────────┐
│  結構化生成：                                                │
│                                                             │
│  Step 1: 屬性分解                                           │
│    「椅子」→ [便攜, 可堆疊, 人體工學, ...]                 │
│                                                             │
│  Step 2: 專家無上下文關鍵字                                 │
│    會計師 + 「便攜」→ 「流動資產」（不知道是椅子！）        │
│                                                             │
│  Step 3: 重新結合                                           │
│    「椅子」+ 「流動資產」+ 會計師視角                       │
│    → 「帶 RFID 資產追蹤的企業椅子」                        │
│                                                             │
│  關鍵機制：                                                  │
│    - 結構強制「跳出」典型語義空間（高新穎性）              │
│    - 但所有想法都錨定在相同屬性集（低彈性）                │
│    - 新穎性來自「強制bisociation」而非「隨機探索」         │
│                                                             │
│  結果：高新穎性 + 低彈性 → 打破正相關 → 類似人類            │
└─────────────────────────────────────────────────────────────┘
```

### 5.3 這對創意 AI 研究的意義

**理論貢獻：**

1. **證明 LLM 可以產生「類似人類」的創意模式**
   - 不是透過模仿人類數據
   - 而是透過結構化的創意管線設計

2. **原創性和彈性是可以獨立控制的**
   - 傳統認為需要高隨機性才能高原創
   - 我們證明結構化約束也能達到高原創

3. **「專注的新穎性」vs「分散的探索」**
   - C4：深入一個新穎領域（專家策略）
   - C5：廣泛接觸多個領域（通才策略）
   - 兩種都有價值，但機制不同

**實務應用：**

| 目標 | 推薦策略 | 原因 |
|------|----------|------|
| 最大化新穎性 | C4 完整管線 | 最高距離質心分數 |
| 最大化類別多樣性 | C2 專家視角 | 最多組合跳躍 |
| 平衡新穎與多樣 | C3 屬性分解 | 中等水平 |
| 快速生成 | C1 直接生成 | 最少 API 調用 |

---

## 六、方法論驗證

### 6.1 組合跳躍 ≤ 類別跳躍

這是方法學的必要條件驗證：

```
邏輯推導：
  組合跳躍 = 類別跳躍 ∧ 語義跳躍

  當類別跳躍 = False 時：
    組合跳躍 = False ∧ ? = False

  當類別跳躍 = True 時：
    組合跳躍 = True ∧ 語義跳躍 = 語義跳躍（可能 True 或 False）

  因此：組合跳躍 ≤ 類別跳躍（必然成立）
```

**實驗驗證：**

| 條件 | 類別跳躍 | 組合跳躍 | 驗證 |
|------|:--------:|:--------:|:----:|
| C2 | 54 | 48 | ✓ |
| C3 | 34 | 33 | ✓ |
| C5 | 22 | 20 | ✓ |
| C4 | 13 | 13 | ✓ |
| C1 | 0 | 0 | ✓ |

### 6.2 彈性檔案閾值的選擇

論文使用的閾值（30%、45%）基於人類實驗數據的分布。我們的 LLM 實驗中，所有條件都落在 Persistent 區間，這本身就是一個發現：

```
人類分布（論文數據）：
  Persistent: ~33%
  Mixed: ~34%
  Flexible: ~33%

我們的 LLM 分布：
  Persistent: 100%（所有條件）
  Mixed: 0%
  Flexible: 0%

解讀：
  LLM（即使加入專家/屬性引導）仍傾向持續探索模式
  這可能是 LLM 架構的固有特性
```

---

## 七、與其他指標的整合

### 7.1 完整指標體系

| 維度 | 指標 | 來源 | C4 表現 |
|------|------|------|:-------:|
| **流暢性** | 想法數量 | Torrance | 402（最多） |
| **彈性** | 組合跳躍數 | arXiv:2405.00899 | 13（最低） |
| **原創性** | 距離質心 | 本研究 | 0.395（最高） |
| **精緻性** | 平均字數 | Torrance | 26.2 |

### 7.2 C4 的獨特位置

```
創意空間定位：

     高原創性
         │
    C4 ●│
         │    C5●
         │         C3●
         │              C2●
         │
    C1 ●│
         └──────────────────── 高彈性
     低原創性

C4 占據了「高原創性 + 低彈性」的獨特位置
這在人類創意者中常見（專家型），但在 LLM 中罕見
```

---

## 八、未來研究方向

基於這些發現，建議的後續研究：

1. **跨模型驗證**
   - 在 GPT-4、Claude、Llama-3 上重複實驗
   - 確認發現是否為通用現象

2. **Temperature 敏感度測試**
   - 論文發現 LLM 對 temperature 不敏感
   - 測試我們的管線是否也有此特性

3. **人類基準比較**
   - 收集人類在相同任務上的數據
   - 直接比較彈性檔案分布

4. **管線變體測試**
   - 調整屬性數量、專家數量
   - 找到最佳平衡點

---

## 參考文獻

1. **arXiv:2405.00899** - "Characterising the Creative Process in Humans and Large Language Models"
   - 組合跳躍信號、彈性檔案分類的原始論文

2. **Hadas & Hershkovitz (2024)** - "Using LLMs to Evaluate AUT Flexibility Score"
   - LLM 雙階段分類法的來源

3. **Torrance (1974)** - *Torrance Tests of Creative Thinking*
   - 創造力四維度框架

4. **Koestler (1964)** - *The Act of Creation*
   - Bisociation 理論基礎

---

## 附錄：程式碼參考

相關分析程式碼位於：
- `experiments/aut_flexibility_analysis.py`
  - `compute_jump_signal()` - 組合跳躍計算
  - `classify_flexibility_profile()` - 彈性檔案分類
  - `analyze_originality_flexibility_correlation()` - 相關性分析
  - `compute_cumulative_jump_profile()` - 累積跳躍輪廓
  - `plot_cumulative_jump_profiles()` - 視覺化

執行分析：
```bash
cd experiments
source ../backend/venv/bin/activate
python aut_flexibility_analysis.py experiment_20260119_165650_deduped.json
```