feat: Add experiments framework and novelty-driven agent loop

- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
This commit is contained in:
2026-01-20 10:16:21 +08:00
parent 26a56a2a07
commit 43c025e060
81 changed files with 18766 additions and 2 deletions

View File

@@ -0,0 +1,477 @@
# 創意過程特徵化指標詳解
## 基於 arXiv:2405.00899 論文的方法論
**論文標題:** "Characterising the Creative Process in Humans and Large Language Models"
**來源:** [arXiv:2405.00899](https://arxiv.org/html/2405.00899v2)
本文檔詳細解釋我們從該論文引入的創意過程評估指標,以及這些指標在我們實驗中揭示的重要發現。
---
## 一、組合跳躍信號Combined Jump Signal
### 1.1 什麼是「跳躍」?
在創意發散思維中,「跳躍」指的是連續產生的想法之間的**語義類別切換**。
```
想法序列範例:
1. 太陽能充電椅 → 科技類
2. 智慧溫控座椅 → 科技類(無跳躍)
3. 椅子改裝成擔架 → 醫療類(跳躍!)
4. 輪椅輔助站立功能 → 醫療類(無跳躍)
5. 椅腳當鼓棒 → 藝術類(跳躍!)
```
### 1.2 為什麼需要「組合」跳躍?
**原始方法的問題:**
單純使用類別跳躍jumpcat可能產生**假陽性**
```
問題情境:
想法 A「可折疊露營椅」 → 群集 1
想法 B「便攜式野餐椅」 → 群集 2
類別跳躍 = True不同群集
但這兩個想法語義上非常相似!
這不應該算作真正的「創意跳躍」
```
**論文的解決方案:組合跳躍信號**
```
組合跳躍 = 類別跳躍 ∧ 語義跳躍
其中:
類別跳躍jumpcat連續想法屬於不同的 embedding 群集
語義跳躍jumpSS連續想法的餘弦相似度 < 0.7
真正跳躍 = 兩個條件都必須成立
```
### 1.3 數學定義
對於連續的想法 $i$ 和 $i-1$
$$
\text{jump}_i = \text{jump}_{cat,i} \land \text{jump}_{SS,i}
$$
其中:
- $\text{jump}_{cat,i} = \mathbb{1}[c_i \neq c_{i-1}]$(類別是否改變)
- $\text{jump}_{SS,i} = \mathbb{1}[\text{sim}(e_i, e_{i-1}) < 0.7]$(相似度是否低於閾值)
### 1.4 我們的實驗結果
| 條件 | 類別跳躍 | 語義跳躍 | **組合跳躍** | 組合比率 |
|------|:--------:|:--------:|:------------:|:--------:|
| C2 專家視角 | 54 | 125 | **48** | 24.4% |
| C3 屬性分解 | 34 | 107 | **33** | 26.6% |
| C5 隨機視角 | 22 | 116 | **20** | 10.1% |
| C4 完整管線 | 13 | 348 | **13** | 3.2% |
| C1 直接生成 | 0 | 104 | **0** | 0.0% |
**關鍵觀察:**
- 組合跳躍 ≤ 類別跳躍(驗證方法有效性)
- C4 的語義跳躍很高348但類別跳躍很低13→ 想法在語義上分散但停留在相似類別
- C1 沒有類別跳躍 → 所有想法在單一語義群集內
---
## 二、彈性檔案分類Flexibility Profile Classification
### 2.1 三種創意探索模式
根據論文研究,創意探索可分為三種模式:
| 檔案 | 英文 | 跳躍比率 | 特徵 |
|------|------|:--------:|------|
| **持續探索** | Persistent | < 30% | 深入單一領域,專注發展想法 |
| **混合模式** | Mixed | 30-45% | 適度切換,平衡深度與廣度 |
| **靈活探索** | Flexible | > 45% | 頻繁跳躍,廣泛涉獵不同領域 |
### 2.2 視覺化理解
```
持續探索Persistent
┌─────────────────────────────────────┐
│ ●→●→●→●→●→●→●→●→●→● │ 深入探索一個領域
│ 科技類 │ 偶爾切換(<30%
│ ↓ │
│ ●→●→●→● │
│ 醫療類 │
└─────────────────────────────────────┘
靈活探索Flexible
┌─────────────────────────────────────┐
│ ●→ ●→ ●→ ●→ ●→ ●→ ●→ ● │ 頻繁在不同領域間跳躍
│ 科 醫 藝 教 科 社 環 科 │ 每個領域停留很短
│ 技 療 術 育 技 會 保 技 │ >45% 跳躍)
└─────────────────────────────────────┘
混合模式Mixed
┌─────────────────────────────────────┐
│ ●→●→●→●→ ●→●→●→ ●→●→●→● │ 適度平衡
│ 科技類 醫療類 藝術類 │ 30-45% 跳躍)
└─────────────────────────────────────┘
```
### 2.3 我們的實驗結果
| 條件 | 組合跳躍比率 | 彈性檔案 | 解讀 |
|------|:------------:|:--------:|------|
| C3 屬性分解 | 26.6% | Persistent | 接近 Mixed 的邊界 |
| C2 專家視角 | 24.4% | Persistent | 適度的類別切換 |
| C5 隨機視角 | 10.1% | Persistent | 較少切換 |
| **C4 完整管線** | **3.2%** | **Persistent** | 非常專注的探索 |
| C1 直接生成 | 0.0% | Persistent | 單一群集 |
**重要發現:** 所有條件都呈現「持續探索」模式,但程度不同。
---
## 三、原創性-彈性相關性分析Originality-Flexibility Correlation
### 3.1 論文的核心發現
arXiv:2405.00899 論文發現了一個關鍵差異:
| 主體 | 原創性與彈性的關係 | 解讀 |
|------|:------------------:|------|
| **人類** | r ≈ 0無相關 | 原創性和彈性是獨立的能力 |
| **典型 LLM** | r > 0正相關 | 越靈活的 LLM 越原創 |
**為什麼會有這種差異?**
```
人類創意模式:
- 有些人善於深入探索(低彈性、高原創)
- 有些人善於廣泛聯想(高彈性、高原創)
- 兩種能力是獨立的維度
典型 LLM 模式:
- LLM 透過「隨機性」產生多樣性
- 高 temperature → 更多跳躍 → 更多意外發現
- 彈性和原創性被「隨機性」綁定在一起
```
### 3.2 我們的實驗結果
**Pearson 相關係數r = 0.071**
| 指標 | 數值 | 解讀 |
|------|:----:|------|
| **Pearson r** | **0.071** | 接近零 |
| 統計意義 | 無顯著相關 | 兩個維度獨立 |
| **模式判定** | **類似人類** | 打破典型 LLM 模式 |
**各條件詳細數據:**
| 條件 | 新穎性(距離質心) | 彈性(組合跳躍數) | 組合 |
|------|:------------------:|:------------------:|------|
| C4 完整管線 | **0.395**(最高) | **13**(最低) | 高新穎 + 低彈性 |
| C5 隨機視角 | 0.365 | 20 | 高新穎 + 低彈性 |
| C3 屬性分解 | 0.337 | 33 | 中新穎 + 中彈性 |
| C2 專家視角 | 0.315 | **48**(最高) | 中新穎 + 高彈性 |
| C1 直接生成 | 0.273(最低) | 0 | 低新穎 + 低彈性 |
### 3.3 這個發現的重大意義
```
┌─────────────────────────────────────────────────────────────┐
│ 原創性-彈性空間 │
│ │
│ 高原創 │ C4● │
│ │ C5● │
│ │ C3● │
│ │ C2● │
│ │ │
│ 低原創 │ C1● │
│ └──────────────────────────────────────────────── │
│ 低彈性 高彈性 │
│ │
│ r = 0.071 → 幾乎垂直於對角線 → 無相關 → 類似人類! │
└─────────────────────────────────────────────────────────────┘
對比典型 LLMr > 0.3
┌─────────────────────────────────────────────────────────────┐
│ 高原創 │ ● │
│ │ ● │
│ │ ● │
│ │ ● │
│ 低原創 │ ● │
│ └──────────────────────────────────────────────── │
│ 低彈性 高彈性 │
│ │
│ r > 0.3 → 沿對角線分布 → 正相關 → 典型 LLM 模式 │
└─────────────────────────────────────────────────────────────┘
```
---
## 四、累積跳躍輪廓Cumulative Jump Profile
### 4.1 什麼是累積跳躍輪廓?
追蹤在想法生成過程中,跳躍次數如何隨時間累積。
```
想法位置: 1 2 3 4 5 6 7 8 9 10
跳躍發生: - - ✓ - ✓ - ✓ ✓ - ✓
累積計數: 0 0 1 1 2 2 3 4 4 5
輪廓線:
5 │ ●
4 │ ●────●
3 │ ●────●
2 │ ●────●
1 │ ●────●
0 │●────●
└────────────────────────────────────────
1 2 3 4 5 6 7 8 9 10
想法位置
```
### 4.2 輪廓線的解讀
| 輪廓特徵 | 含義 | 創意模式 |
|----------|------|----------|
| **陡峭斜率** | 快速累積跳躍 | 頻繁切換類別 |
| **平緩區域** | 跳躍暫停 | 深入探索當前類別 |
| **階梯狀** | 突然爆發跳躍 | 類別耗盡後轉移 |
| **近乎水平** | 幾乎沒有跳躍 | 持續在單一領域 |
### 4.3 我們的實驗視覺化
![累積跳躍輪廓](../results/cumulative_jump_profiles.png)
**各條件輪廓解讀:**
| 條件 | 輪廓特徵 | 創意策略 |
|------|----------|----------|
| C2 專家視角 | 穩定上升 | 持續的類別切換 |
| C3 屬性分解 | 穩定上升 | 持續的類別切換 |
| C5 隨機視角 | 緩慢上升 | 較少切換 |
| C4 完整管線 | 幾乎水平 | 非常專注的單一領域探索 |
| C1 直接生成 | 完全水平 | 無任何類別切換 |
---
## 五、實驗發現的綜合意義
### 5.1 核心發現總結
| 發現 | 內容 | 意義 |
|------|------|------|
| **發現一** | 原創性-彈性相關 r = 0.071 | 管線產生「類似人類」的創意模式 |
| **發現二** | C4 最高新穎性 + 最低彈性 | 結構化方法產生聚焦的新穎性 |
| **發現三** | 所有條件都是 Persistent | LLM 傾向深度探索而非廣度 |
| **發現四** | 組合跳躍 < 類別跳躍 | 驗證方法學的有效性 |
### 5.2 為什麼 C4 能打破 LLM 模式?
```
典型 LLM 的問題:
┌─────────────────────────────────────────────────────────────┐
│ 直接生成:「給我椅子的創新用途」 │
│ │
│ LLM 依賴 temperature 產生多樣性 │
│ → 高 temperature = 更多隨機性 │
│ → 更多隨機性 = 更多跳躍(高彈性) │
│ → 更多跳躍 = 更可能遇到新穎想法(高原創) │
│ │
│ 結果:彈性和原創性被綁定(正相關) │
└─────────────────────────────────────────────────────────────┘
C4 管線的突破:
┌─────────────────────────────────────────────────────────────┐
│ 結構化生成: │
│ │
│ Step 1: 屬性分解 │
│ 「椅子」→ [便攜, 可堆疊, 人體工學, ...] │
│ │
│ Step 2: 專家無上下文關鍵字 │
│ 會計師 + 「便攜」→ 「流動資產」(不知道是椅子!) │
│ │
│ Step 3: 重新結合 │
│ 「椅子」+ 「流動資產」+ 會計師視角 │
│ → 「帶 RFID 資產追蹤的企業椅子」 │
│ │
│ 關鍵機制: │
│ - 結構強制「跳出」典型語義空間(高新穎性) │
│ - 但所有想法都錨定在相同屬性集(低彈性) │
│ - 新穎性來自「強制bisociation」而非「隨機探索」 │
│ │
│ 結果:高新穎性 + 低彈性 → 打破正相關 → 類似人類 │
└─────────────────────────────────────────────────────────────┘
```
### 5.3 這對創意 AI 研究的意義
**理論貢獻:**
1. **證明 LLM 可以產生「類似人類」的創意模式**
- 不是透過模仿人類數據
- 而是透過結構化的創意管線設計
2. **原創性和彈性是可以獨立控制的**
- 傳統認為需要高隨機性才能高原創
- 我們證明結構化約束也能達到高原創
3. **「專注的新穎性」vs「分散的探索」**
- C4深入一個新穎領域專家策略
- C5廣泛接觸多個領域通才策略
- 兩種都有價值,但機制不同
**實務應用:**
| 目標 | 推薦策略 | 原因 |
|------|----------|------|
| 最大化新穎性 | C4 完整管線 | 最高距離質心分數 |
| 最大化類別多樣性 | C2 專家視角 | 最多組合跳躍 |
| 平衡新穎與多樣 | C3 屬性分解 | 中等水平 |
| 快速生成 | C1 直接生成 | 最少 API 調用 |
---
## 六、方法論驗證
### 6.1 組合跳躍 ≤ 類別跳躍
這是方法學的必要條件驗證:
```
邏輯推導:
組合跳躍 = 類別跳躍 ∧ 語義跳躍
當類別跳躍 = False 時:
組合跳躍 = False ∧ ? = False
當類別跳躍 = True 時:
組合跳躍 = True ∧ 語義跳躍 = 語義跳躍(可能 True 或 False
因此:組合跳躍 ≤ 類別跳躍(必然成立)
```
**實驗驗證:**
| 條件 | 類別跳躍 | 組合跳躍 | 驗證 |
|------|:--------:|:--------:|:----:|
| C2 | 54 | 48 | ✓ |
| C3 | 34 | 33 | ✓ |
| C5 | 22 | 20 | ✓ |
| C4 | 13 | 13 | ✓ |
| C1 | 0 | 0 | ✓ |
### 6.2 彈性檔案閾值的選擇
論文使用的閾值30%、45%)基於人類實驗數據的分布。我們的 LLM 實驗中,所有條件都落在 Persistent 區間,這本身就是一個發現:
```
人類分布(論文數據):
Persistent: ~33%
Mixed: ~34%
Flexible: ~33%
我們的 LLM 分布:
Persistent: 100%(所有條件)
Mixed: 0%
Flexible: 0%
解讀:
LLM即使加入專家/屬性引導)仍傾向持續探索模式
這可能是 LLM 架構的固有特性
```
---
## 七、與其他指標的整合
### 7.1 完整指標體系
| 維度 | 指標 | 來源 | C4 表現 |
|------|------|------|:-------:|
| **流暢性** | 想法數量 | Torrance | 402最多 |
| **彈性** | 組合跳躍數 | arXiv:2405.00899 | 13最低 |
| **原創性** | 距離質心 | 本研究 | 0.395(最高) |
| **精緻性** | 平均字數 | Torrance | 26.2 |
### 7.2 C4 的獨特位置
```
創意空間定位:
高原創性
C4 ●│
│ C5●
│ C3●
│ C2●
C1 ●│
└──────────────────── 高彈性
低原創性
C4 占據了「高原創性 + 低彈性」的獨特位置
這在人類創意者中常見(專家型),但在 LLM 中罕見
```
---
## 八、未來研究方向
基於這些發現,建議的後續研究:
1. **跨模型驗證**
- 在 GPT-4、Claude、Llama-3 上重複實驗
- 確認發現是否為通用現象
2. **Temperature 敏感度測試**
- 論文發現 LLM 對 temperature 不敏感
- 測試我們的管線是否也有此特性
3. **人類基準比較**
- 收集人類在相同任務上的數據
- 直接比較彈性檔案分布
4. **管線變體測試**
- 調整屬性數量、專家數量
- 找到最佳平衡點
---
## 參考文獻
1. **arXiv:2405.00899** - "Characterising the Creative Process in Humans and Large Language Models"
- 組合跳躍信號、彈性檔案分類的原始論文
2. **Hadas & Hershkovitz (2024)** - "Using LLMs to Evaluate AUT Flexibility Score"
- LLM 雙階段分類法的來源
3. **Torrance (1974)** - *Torrance Tests of Creative Thinking*
- 創造力四維度框架
4. **Koestler (1964)** - *The Act of Creation*
- Bisociation 理論基礎
---
## 附錄:程式碼參考
相關分析程式碼位於:
- `experiments/aut_flexibility_analysis.py`
- `compute_jump_signal()` - 組合跳躍計算
- `classify_flexibility_profile()` - 彈性檔案分類
- `analyze_originality_flexibility_correlation()` - 相關性分析
- `compute_cumulative_jump_profile()` - 累積跳躍輪廓
- `plot_cumulative_jump_profiles()` - 視覺化
執行分析:
```bash
cd experiments
source ../backend/venv/bin/activate
python aut_flexibility_analysis.py experiment_20260119_165650_deduped.json
```