- Add complete experiments directory with pilot study infrastructure - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective) - Human assessment tool with React frontend and FastAPI backend - AUT flexibility analysis with jump signal detection - Result visualization and metrics computation - Add novelty-driven agent loop module (experiments/novelty_loop/) - NoveltyDrivenTaskAgent with expert perspective perturbation - Three termination strategies: breakthrough, exhaust, coverage - Interactive CLI demo with colored output - Embedding-based novelty scoring - Add DDC knowledge domain classification data (en/zh) - Add CLAUDE.md project documentation - Update research report with experiment findings Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
478 lines
18 KiB
Markdown
478 lines
18 KiB
Markdown
# 創意過程特徵化指標詳解
|
||
|
||
## 基於 arXiv:2405.00899 論文的方法論
|
||
|
||
**論文標題:** "Characterising the Creative Process in Humans and Large Language Models"
|
||
**來源:** [arXiv:2405.00899](https://arxiv.org/html/2405.00899v2)
|
||
|
||
本文檔詳細解釋我們從該論文引入的創意過程評估指標,以及這些指標在我們實驗中揭示的重要發現。
|
||
|
||
---
|
||
|
||
## 一、組合跳躍信號(Combined Jump Signal)
|
||
|
||
### 1.1 什麼是「跳躍」?
|
||
|
||
在創意發散思維中,「跳躍」指的是連續產生的想法之間的**語義類別切換**。
|
||
|
||
```
|
||
想法序列範例:
|
||
1. 太陽能充電椅 → 科技類
|
||
2. 智慧溫控座椅 → 科技類(無跳躍)
|
||
3. 椅子改裝成擔架 → 醫療類(跳躍!)
|
||
4. 輪椅輔助站立功能 → 醫療類(無跳躍)
|
||
5. 椅腳當鼓棒 → 藝術類(跳躍!)
|
||
```
|
||
|
||
### 1.2 為什麼需要「組合」跳躍?
|
||
|
||
**原始方法的問題:**
|
||
|
||
單純使用類別跳躍(jumpcat)可能產生**假陽性**:
|
||
|
||
```
|
||
問題情境:
|
||
想法 A:「可折疊露營椅」 → 群集 1
|
||
想法 B:「便攜式野餐椅」 → 群集 2
|
||
|
||
類別跳躍 = True(不同群集)
|
||
但這兩個想法語義上非常相似!
|
||
這不應該算作真正的「創意跳躍」
|
||
```
|
||
|
||
**論文的解決方案:組合跳躍信號**
|
||
|
||
```
|
||
組合跳躍 = 類別跳躍 ∧ 語義跳躍
|
||
|
||
其中:
|
||
類別跳躍(jumpcat):連續想法屬於不同的 embedding 群集
|
||
語義跳躍(jumpSS):連續想法的餘弦相似度 < 0.7
|
||
|
||
真正跳躍 = 兩個條件都必須成立
|
||
```
|
||
|
||
### 1.3 數學定義
|
||
|
||
對於連續的想法 $i$ 和 $i-1$:
|
||
|
||
$$
|
||
\text{jump}_i = \text{jump}_{cat,i} \land \text{jump}_{SS,i}
|
||
$$
|
||
|
||
其中:
|
||
- $\text{jump}_{cat,i} = \mathbb{1}[c_i \neq c_{i-1}]$(類別是否改變)
|
||
- $\text{jump}_{SS,i} = \mathbb{1}[\text{sim}(e_i, e_{i-1}) < 0.7]$(相似度是否低於閾值)
|
||
|
||
### 1.4 我們的實驗結果
|
||
|
||
| 條件 | 類別跳躍 | 語義跳躍 | **組合跳躍** | 組合比率 |
|
||
|------|:--------:|:--------:|:------------:|:--------:|
|
||
| C2 專家視角 | 54 | 125 | **48** | 24.4% |
|
||
| C3 屬性分解 | 34 | 107 | **33** | 26.6% |
|
||
| C5 隨機視角 | 22 | 116 | **20** | 10.1% |
|
||
| C4 完整管線 | 13 | 348 | **13** | 3.2% |
|
||
| C1 直接生成 | 0 | 104 | **0** | 0.0% |
|
||
|
||
**關鍵觀察:**
|
||
- 組合跳躍 ≤ 類別跳躍(驗證方法有效性)
|
||
- C4 的語義跳躍很高(348)但類別跳躍很低(13)→ 想法在語義上分散但停留在相似類別
|
||
- C1 沒有類別跳躍 → 所有想法在單一語義群集內
|
||
|
||
---
|
||
|
||
## 二、彈性檔案分類(Flexibility Profile Classification)
|
||
|
||
### 2.1 三種創意探索模式
|
||
|
||
根據論文研究,創意探索可分為三種模式:
|
||
|
||
| 檔案 | 英文 | 跳躍比率 | 特徵 |
|
||
|------|------|:--------:|------|
|
||
| **持續探索** | Persistent | < 30% | 深入單一領域,專注發展想法 |
|
||
| **混合模式** | Mixed | 30-45% | 適度切換,平衡深度與廣度 |
|
||
| **靈活探索** | Flexible | > 45% | 頻繁跳躍,廣泛涉獵不同領域 |
|
||
|
||
### 2.2 視覺化理解
|
||
|
||
```
|
||
持續探索(Persistent):
|
||
┌─────────────────────────────────────┐
|
||
│ ●→●→●→●→●→●→●→●→●→● │ 深入探索一個領域
|
||
│ 科技類 │ 偶爾切換(<30%)
|
||
│ ↓ │
|
||
│ ●→●→●→● │
|
||
│ 醫療類 │
|
||
└─────────────────────────────────────┘
|
||
|
||
靈活探索(Flexible):
|
||
┌─────────────────────────────────────┐
|
||
│ ●→ ●→ ●→ ●→ ●→ ●→ ●→ ● │ 頻繁在不同領域間跳躍
|
||
│ 科 醫 藝 教 科 社 環 科 │ 每個領域停留很短
|
||
│ 技 療 術 育 技 會 保 技 │ (>45% 跳躍)
|
||
└─────────────────────────────────────┘
|
||
|
||
混合模式(Mixed):
|
||
┌─────────────────────────────────────┐
|
||
│ ●→●→●→●→ ●→●→●→ ●→●→●→● │ 適度平衡
|
||
│ 科技類 醫療類 藝術類 │ (30-45% 跳躍)
|
||
└─────────────────────────────────────┘
|
||
```
|
||
|
||
### 2.3 我們的實驗結果
|
||
|
||
| 條件 | 組合跳躍比率 | 彈性檔案 | 解讀 |
|
||
|------|:------------:|:--------:|------|
|
||
| C3 屬性分解 | 26.6% | Persistent | 接近 Mixed 的邊界 |
|
||
| C2 專家視角 | 24.4% | Persistent | 適度的類別切換 |
|
||
| C5 隨機視角 | 10.1% | Persistent | 較少切換 |
|
||
| **C4 完整管線** | **3.2%** | **Persistent** | 非常專注的探索 |
|
||
| C1 直接生成 | 0.0% | Persistent | 單一群集 |
|
||
|
||
**重要發現:** 所有條件都呈現「持續探索」模式,但程度不同。
|
||
|
||
---
|
||
|
||
## 三、原創性-彈性相關性分析(Originality-Flexibility Correlation)
|
||
|
||
### 3.1 論文的核心發現
|
||
|
||
arXiv:2405.00899 論文發現了一個關鍵差異:
|
||
|
||
| 主體 | 原創性與彈性的關係 | 解讀 |
|
||
|------|:------------------:|------|
|
||
| **人類** | r ≈ 0(無相關) | 原創性和彈性是獨立的能力 |
|
||
| **典型 LLM** | r > 0(正相關) | 越靈活的 LLM 越原創 |
|
||
|
||
**為什麼會有這種差異?**
|
||
|
||
```
|
||
人類創意模式:
|
||
- 有些人善於深入探索(低彈性、高原創)
|
||
- 有些人善於廣泛聯想(高彈性、高原創)
|
||
- 兩種能力是獨立的維度
|
||
|
||
典型 LLM 模式:
|
||
- LLM 透過「隨機性」產生多樣性
|
||
- 高 temperature → 更多跳躍 → 更多意外發現
|
||
- 彈性和原創性被「隨機性」綁定在一起
|
||
```
|
||
|
||
### 3.2 我們的實驗結果
|
||
|
||
**Pearson 相關係數:r = 0.071**
|
||
|
||
| 指標 | 數值 | 解讀 |
|
||
|------|:----:|------|
|
||
| **Pearson r** | **0.071** | 接近零 |
|
||
| 統計意義 | 無顯著相關 | 兩個維度獨立 |
|
||
| **模式判定** | **類似人類** | 打破典型 LLM 模式 |
|
||
|
||
**各條件詳細數據:**
|
||
|
||
| 條件 | 新穎性(距離質心) | 彈性(組合跳躍數) | 組合 |
|
||
|------|:------------------:|:------------------:|------|
|
||
| C4 完整管線 | **0.395**(最高) | **13**(最低) | 高新穎 + 低彈性 |
|
||
| C5 隨機視角 | 0.365 | 20 | 高新穎 + 低彈性 |
|
||
| C3 屬性分解 | 0.337 | 33 | 中新穎 + 中彈性 |
|
||
| C2 專家視角 | 0.315 | **48**(最高) | 中新穎 + 高彈性 |
|
||
| C1 直接生成 | 0.273(最低) | 0 | 低新穎 + 低彈性 |
|
||
|
||
### 3.3 這個發現的重大意義
|
||
|
||
```
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 原創性-彈性空間 │
|
||
│ │
|
||
│ 高原創 │ C4● │
|
||
│ │ C5● │
|
||
│ │ C3● │
|
||
│ │ C2● │
|
||
│ │ │
|
||
│ 低原創 │ C1● │
|
||
│ └──────────────────────────────────────────────── │
|
||
│ 低彈性 高彈性 │
|
||
│ │
|
||
│ r = 0.071 → 幾乎垂直於對角線 → 無相關 → 類似人類! │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
對比典型 LLM(r > 0.3):
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 高原創 │ ● │
|
||
│ │ ● │
|
||
│ │ ● │
|
||
│ │ ● │
|
||
│ 低原創 │ ● │
|
||
│ └──────────────────────────────────────────────── │
|
||
│ 低彈性 高彈性 │
|
||
│ │
|
||
│ r > 0.3 → 沿對角線分布 → 正相關 → 典型 LLM 模式 │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
```
|
||
|
||
---
|
||
|
||
## 四、累積跳躍輪廓(Cumulative Jump Profile)
|
||
|
||
### 4.1 什麼是累積跳躍輪廓?
|
||
|
||
追蹤在想法生成過程中,跳躍次數如何隨時間累積。
|
||
|
||
```
|
||
想法位置: 1 2 3 4 5 6 7 8 9 10
|
||
跳躍發生: - - ✓ - ✓ - ✓ ✓ - ✓
|
||
累積計數: 0 0 1 1 2 2 3 4 4 5
|
||
|
||
輪廓線:
|
||
5 │ ●
|
||
4 │ ●────●
|
||
3 │ ●────●
|
||
2 │ ●────●
|
||
1 │ ●────●
|
||
0 │●────●
|
||
└────────────────────────────────────────
|
||
1 2 3 4 5 6 7 8 9 10
|
||
想法位置
|
||
```
|
||
|
||
### 4.2 輪廓線的解讀
|
||
|
||
| 輪廓特徵 | 含義 | 創意模式 |
|
||
|----------|------|----------|
|
||
| **陡峭斜率** | 快速累積跳躍 | 頻繁切換類別 |
|
||
| **平緩區域** | 跳躍暫停 | 深入探索當前類別 |
|
||
| **階梯狀** | 突然爆發跳躍 | 類別耗盡後轉移 |
|
||
| **近乎水平** | 幾乎沒有跳躍 | 持續在單一領域 |
|
||
|
||
### 4.3 我們的實驗視覺化
|
||
|
||

|
||
|
||
**各條件輪廓解讀:**
|
||
|
||
| 條件 | 輪廓特徵 | 創意策略 |
|
||
|------|----------|----------|
|
||
| C2 專家視角 | 穩定上升 | 持續的類別切換 |
|
||
| C3 屬性分解 | 穩定上升 | 持續的類別切換 |
|
||
| C5 隨機視角 | 緩慢上升 | 較少切換 |
|
||
| C4 完整管線 | 幾乎水平 | 非常專注的單一領域探索 |
|
||
| C1 直接生成 | 完全水平 | 無任何類別切換 |
|
||
|
||
---
|
||
|
||
## 五、實驗發現的綜合意義
|
||
|
||
### 5.1 核心發現總結
|
||
|
||
| 發現 | 內容 | 意義 |
|
||
|------|------|------|
|
||
| **發現一** | 原創性-彈性相關 r = 0.071 | 管線產生「類似人類」的創意模式 |
|
||
| **發現二** | C4 最高新穎性 + 最低彈性 | 結構化方法產生聚焦的新穎性 |
|
||
| **發現三** | 所有條件都是 Persistent | LLM 傾向深度探索而非廣度 |
|
||
| **發現四** | 組合跳躍 < 類別跳躍 | 驗證方法學的有效性 |
|
||
|
||
### 5.2 為什麼 C4 能打破 LLM 模式?
|
||
|
||
```
|
||
典型 LLM 的問題:
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 直接生成:「給我椅子的創新用途」 │
|
||
│ │
|
||
│ LLM 依賴 temperature 產生多樣性 │
|
||
│ → 高 temperature = 更多隨機性 │
|
||
│ → 更多隨機性 = 更多跳躍(高彈性) │
|
||
│ → 更多跳躍 = 更可能遇到新穎想法(高原創) │
|
||
│ │
|
||
│ 結果:彈性和原創性被綁定(正相關) │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
C4 管線的突破:
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 結構化生成: │
|
||
│ │
|
||
│ Step 1: 屬性分解 │
|
||
│ 「椅子」→ [便攜, 可堆疊, 人體工學, ...] │
|
||
│ │
|
||
│ Step 2: 專家無上下文關鍵字 │
|
||
│ 會計師 + 「便攜」→ 「流動資產」(不知道是椅子!) │
|
||
│ │
|
||
│ Step 3: 重新結合 │
|
||
│ 「椅子」+ 「流動資產」+ 會計師視角 │
|
||
│ → 「帶 RFID 資產追蹤的企業椅子」 │
|
||
│ │
|
||
│ 關鍵機制: │
|
||
│ - 結構強制「跳出」典型語義空間(高新穎性) │
|
||
│ - 但所有想法都錨定在相同屬性集(低彈性) │
|
||
│ - 新穎性來自「強制bisociation」而非「隨機探索」 │
|
||
│ │
|
||
│ 結果:高新穎性 + 低彈性 → 打破正相關 → 類似人類 │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
```
|
||
|
||
### 5.3 這對創意 AI 研究的意義
|
||
|
||
**理論貢獻:**
|
||
|
||
1. **證明 LLM 可以產生「類似人類」的創意模式**
|
||
- 不是透過模仿人類數據
|
||
- 而是透過結構化的創意管線設計
|
||
|
||
2. **原創性和彈性是可以獨立控制的**
|
||
- 傳統認為需要高隨機性才能高原創
|
||
- 我們證明結構化約束也能達到高原創
|
||
|
||
3. **「專注的新穎性」vs「分散的探索」**
|
||
- C4:深入一個新穎領域(專家策略)
|
||
- C5:廣泛接觸多個領域(通才策略)
|
||
- 兩種都有價值,但機制不同
|
||
|
||
**實務應用:**
|
||
|
||
| 目標 | 推薦策略 | 原因 |
|
||
|------|----------|------|
|
||
| 最大化新穎性 | C4 完整管線 | 最高距離質心分數 |
|
||
| 最大化類別多樣性 | C2 專家視角 | 最多組合跳躍 |
|
||
| 平衡新穎與多樣 | C3 屬性分解 | 中等水平 |
|
||
| 快速生成 | C1 直接生成 | 最少 API 調用 |
|
||
|
||
---
|
||
|
||
## 六、方法論驗證
|
||
|
||
### 6.1 組合跳躍 ≤ 類別跳躍
|
||
|
||
這是方法學的必要條件驗證:
|
||
|
||
```
|
||
邏輯推導:
|
||
組合跳躍 = 類別跳躍 ∧ 語義跳躍
|
||
|
||
當類別跳躍 = False 時:
|
||
組合跳躍 = False ∧ ? = False
|
||
|
||
當類別跳躍 = True 時:
|
||
組合跳躍 = True ∧ 語義跳躍 = 語義跳躍(可能 True 或 False)
|
||
|
||
因此:組合跳躍 ≤ 類別跳躍(必然成立)
|
||
```
|
||
|
||
**實驗驗證:**
|
||
|
||
| 條件 | 類別跳躍 | 組合跳躍 | 驗證 |
|
||
|------|:--------:|:--------:|:----:|
|
||
| C2 | 54 | 48 | ✓ |
|
||
| C3 | 34 | 33 | ✓ |
|
||
| C5 | 22 | 20 | ✓ |
|
||
| C4 | 13 | 13 | ✓ |
|
||
| C1 | 0 | 0 | ✓ |
|
||
|
||
### 6.2 彈性檔案閾值的選擇
|
||
|
||
論文使用的閾值(30%、45%)基於人類實驗數據的分布。我們的 LLM 實驗中,所有條件都落在 Persistent 區間,這本身就是一個發現:
|
||
|
||
```
|
||
人類分布(論文數據):
|
||
Persistent: ~33%
|
||
Mixed: ~34%
|
||
Flexible: ~33%
|
||
|
||
我們的 LLM 分布:
|
||
Persistent: 100%(所有條件)
|
||
Mixed: 0%
|
||
Flexible: 0%
|
||
|
||
解讀:
|
||
LLM(即使加入專家/屬性引導)仍傾向持續探索模式
|
||
這可能是 LLM 架構的固有特性
|
||
```
|
||
|
||
---
|
||
|
||
## 七、與其他指標的整合
|
||
|
||
### 7.1 完整指標體系
|
||
|
||
| 維度 | 指標 | 來源 | C4 表現 |
|
||
|------|------|------|:-------:|
|
||
| **流暢性** | 想法數量 | Torrance | 402(最多) |
|
||
| **彈性** | 組合跳躍數 | arXiv:2405.00899 | 13(最低) |
|
||
| **原創性** | 距離質心 | 本研究 | 0.395(最高) |
|
||
| **精緻性** | 平均字數 | Torrance | 26.2 |
|
||
|
||
### 7.2 C4 的獨特位置
|
||
|
||
```
|
||
創意空間定位:
|
||
|
||
高原創性
|
||
│
|
||
C4 ●│
|
||
│ C5●
|
||
│ C3●
|
||
│ C2●
|
||
│
|
||
C1 ●│
|
||
└──────────────────── 高彈性
|
||
低原創性
|
||
|
||
C4 占據了「高原創性 + 低彈性」的獨特位置
|
||
這在人類創意者中常見(專家型),但在 LLM 中罕見
|
||
```
|
||
|
||
---
|
||
|
||
## 八、未來研究方向
|
||
|
||
基於這些發現,建議的後續研究:
|
||
|
||
1. **跨模型驗證**
|
||
- 在 GPT-4、Claude、Llama-3 上重複實驗
|
||
- 確認發現是否為通用現象
|
||
|
||
2. **Temperature 敏感度測試**
|
||
- 論文發現 LLM 對 temperature 不敏感
|
||
- 測試我們的管線是否也有此特性
|
||
|
||
3. **人類基準比較**
|
||
- 收集人類在相同任務上的數據
|
||
- 直接比較彈性檔案分布
|
||
|
||
4. **管線變體測試**
|
||
- 調整屬性數量、專家數量
|
||
- 找到最佳平衡點
|
||
|
||
---
|
||
|
||
## 參考文獻
|
||
|
||
1. **arXiv:2405.00899** - "Characterising the Creative Process in Humans and Large Language Models"
|
||
- 組合跳躍信號、彈性檔案分類的原始論文
|
||
|
||
2. **Hadas & Hershkovitz (2024)** - "Using LLMs to Evaluate AUT Flexibility Score"
|
||
- LLM 雙階段分類法的來源
|
||
|
||
3. **Torrance (1974)** - *Torrance Tests of Creative Thinking*
|
||
- 創造力四維度框架
|
||
|
||
4. **Koestler (1964)** - *The Act of Creation*
|
||
- Bisociation 理論基礎
|
||
|
||
---
|
||
|
||
## 附錄:程式碼參考
|
||
|
||
相關分析程式碼位於:
|
||
- `experiments/aut_flexibility_analysis.py`
|
||
- `compute_jump_signal()` - 組合跳躍計算
|
||
- `classify_flexibility_profile()` - 彈性檔案分類
|
||
- `analyze_originality_flexibility_correlation()` - 相關性分析
|
||
- `compute_cumulative_jump_profile()` - 累積跳躍輪廓
|
||
- `plot_cumulative_jump_profiles()` - 視覺化
|
||
|
||
執行分析:
|
||
```bash
|
||
cd experiments
|
||
source ../backend/venv/bin/activate
|
||
python aut_flexibility_analysis.py experiment_20260119_165650_deduped.json
|
||
```
|