Files
novelty-seeking/experiments/docs/creative_process_metrics_zh.md
gbanyan 43c025e060 feat: Add experiments framework and novelty-driven agent loop
- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-20 10:16:21 +08:00

18 KiB
Raw Blame History

創意過程特徵化指標詳解

基於 arXiv:2405.00899 論文的方法論

論文標題: "Characterising the Creative Process in Humans and Large Language Models" 來源: arXiv:2405.00899

本文檔詳細解釋我們從該論文引入的創意過程評估指標,以及這些指標在我們實驗中揭示的重要發現。


一、組合跳躍信號Combined Jump Signal

1.1 什麼是「跳躍」?

在創意發散思維中,「跳躍」指的是連續產生的想法之間的語義類別切換

想法序列範例:
  1. 太陽能充電椅         → 科技類
  2. 智慧溫控座椅         → 科技類(無跳躍)
  3. 椅子改裝成擔架       → 醫療類(跳躍!)
  4. 輪椅輔助站立功能     → 醫療類(無跳躍)
  5. 椅腳當鼓棒           → 藝術類(跳躍!)

1.2 為什麼需要「組合」跳躍?

原始方法的問題:

單純使用類別跳躍jumpcat可能產生假陽性

問題情境:
  想法 A「可折疊露營椅」  → 群集 1
  想法 B「便攜式野餐椅」  → 群集 2

  類別跳躍 = True不同群集
  但這兩個想法語義上非常相似!
  這不應該算作真正的「創意跳躍」

論文的解決方案:組合跳躍信號

組合跳躍 = 類別跳躍 ∧ 語義跳躍

其中:
  類別跳躍jumpcat連續想法屬於不同的 embedding 群集
  語義跳躍jumpSS連續想法的餘弦相似度 < 0.7

真正跳躍 = 兩個條件都必須成立

1.3 數學定義

對於連續的想法 i 和 $i-1$


\text{jump}_i = \text{jump}_{cat,i} \land \text{jump}_{SS,i}

其中:

  • $\text{jump}{cat,i} = \mathbb{1}[c_i \neq c{i-1}]$(類別是否改變)
  • $\text{jump}{SS,i} = \mathbb{1}[\text{sim}(e_i, e{i-1}) < 0.7]$(相似度是否低於閾值)

1.4 我們的實驗結果

條件 類別跳躍 語義跳躍 組合跳躍 組合比率
C2 專家視角 54 125 48 24.4%
C3 屬性分解 34 107 33 26.6%
C5 隨機視角 22 116 20 10.1%
C4 完整管線 13 348 13 3.2%
C1 直接生成 0 104 0 0.0%

關鍵觀察:

  • 組合跳躍 ≤ 類別跳躍(驗證方法有效性)
  • C4 的語義跳躍很高348但類別跳躍很低13→ 想法在語義上分散但停留在相似類別
  • C1 沒有類別跳躍 → 所有想法在單一語義群集內

二、彈性檔案分類Flexibility Profile Classification

2.1 三種創意探索模式

根據論文研究,創意探索可分為三種模式:

檔案 英文 跳躍比率 特徵
持續探索 Persistent < 30% 深入單一領域,專注發展想法
混合模式 Mixed 30-45% 適度切換,平衡深度與廣度
靈活探索 Flexible > 45% 頻繁跳躍,廣泛涉獵不同領域

2.2 視覺化理解

持續探索Persistent
┌─────────────────────────────────────┐
│  ●→●→●→●→●→●→●→●→●→●                │  深入探索一個領域
│     科技類                           │  偶爾切換(<30%
│              ↓                       │
│              ●→●→●→●                 │
│              醫療類                   │
└─────────────────────────────────────┘

靈活探索Flexible
┌─────────────────────────────────────┐
│  ●→  ●→  ●→  ●→  ●→  ●→  ●→  ●      │  頻繁在不同領域間跳躍
│  科 醫 藝 教 科 社 環 科              │  每個領域停留很短
│  技 療 術 育 技 會 保 技              │  >45% 跳躍)
└─────────────────────────────────────┘

混合模式Mixed
┌─────────────────────────────────────┐
│  ●→●→●→●→  ●→●→●→  ●→●→●→●         │  適度平衡
│    科技類    醫療類    藝術類         │  30-45% 跳躍)
└─────────────────────────────────────┘

2.3 我們的實驗結果

條件 組合跳躍比率 彈性檔案 解讀
C3 屬性分解 26.6% Persistent 接近 Mixed 的邊界
C2 專家視角 24.4% Persistent 適度的類別切換
C5 隨機視角 10.1% Persistent 較少切換
C4 完整管線 3.2% Persistent 非常專注的探索
C1 直接生成 0.0% Persistent 單一群集

重要發現: 所有條件都呈現「持續探索」模式,但程度不同。


三、原創性-彈性相關性分析Originality-Flexibility Correlation

3.1 論文的核心發現

arXiv:2405.00899 論文發現了一個關鍵差異:

主體 原創性與彈性的關係 解讀
人類 r ≈ 0無相關 原創性和彈性是獨立的能力
典型 LLM r > 0正相關 越靈活的 LLM 越原創

為什麼會有這種差異?

人類創意模式:
  - 有些人善於深入探索(低彈性、高原創)
  - 有些人善於廣泛聯想(高彈性、高原創)
  - 兩種能力是獨立的維度

典型 LLM 模式:
  - LLM 透過「隨機性」產生多樣性
  - 高 temperature → 更多跳躍 → 更多意外發現
  - 彈性和原創性被「隨機性」綁定在一起

3.2 我們的實驗結果

Pearson 相關係數r = 0.071

指標 數值 解讀
Pearson r 0.071 接近零
統計意義 無顯著相關 兩個維度獨立
模式判定 類似人類 打破典型 LLM 模式

各條件詳細數據:

條件 新穎性(距離質心) 彈性(組合跳躍數) 組合
C4 完整管線 0.395(最高) 13(最低) 高新穎 + 低彈性
C5 隨機視角 0.365 20 高新穎 + 低彈性
C3 屬性分解 0.337 33 中新穎 + 中彈性
C2 專家視角 0.315 48(最高) 中新穎 + 高彈性
C1 直接生成 0.273(最低) 0 低新穎 + 低彈性

3.3 這個發現的重大意義

┌─────────────────────────────────────────────────────────────┐
│                    原創性-彈性空間                           │
│                                                             │
│  高原創 │  C4●                                              │
│         │       C5●                                         │
│         │            C3●                                    │
│         │                 C2●                               │
│         │                                                   │
│  低原創 │  C1●                                              │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r = 0.071 → 幾乎垂直於對角線 → 無相關 → 類似人類!         │
└─────────────────────────────────────────────────────────────┘

對比典型 LLMr > 0.3
┌─────────────────────────────────────────────────────────────┐
│  高原創 │                              ●                    │
│         │                         ●                         │
│         │                    ●                              │
│         │               ●                                   │
│  低原創 │          ●                                        │
│         └────────────────────────────────────────────────   │
│              低彈性                          高彈性          │
│                                                             │
│  r > 0.3 → 沿對角線分布 → 正相關 → 典型 LLM 模式            │
└─────────────────────────────────────────────────────────────┘

四、累積跳躍輪廓Cumulative Jump Profile

4.1 什麼是累積跳躍輪廓?

追蹤在想法生成過程中,跳躍次數如何隨時間累積。

想法位置:  1   2   3   4   5   6   7   8   9   10
跳躍發生:  -   -   ✓   -   ✓   -   ✓   ✓   -   ✓
累積計數:  0   0   1   1   2   2   3   4   4   5

輪廓線:
  5 │                                        ●
  4 │                              ●────●
  3 │                    ●────●
  2 │          ●────●
  1 │    ●────●
  0 │●────●
    └────────────────────────────────────────
      1   2   3   4   5   6   7   8   9   10
                    想法位置

4.2 輪廓線的解讀

輪廓特徵 含義 創意模式
陡峭斜率 快速累積跳躍 頻繁切換類別
平緩區域 跳躍暫停 深入探索當前類別
階梯狀 突然爆發跳躍 類別耗盡後轉移
近乎水平 幾乎沒有跳躍 持續在單一領域

4.3 我們的實驗視覺化

累積跳躍輪廓

各條件輪廓解讀:

條件 輪廓特徵 創意策略
C2 專家視角 穩定上升 持續的類別切換
C3 屬性分解 穩定上升 持續的類別切換
C5 隨機視角 緩慢上升 較少切換
C4 完整管線 幾乎水平 非常專注的單一領域探索
C1 直接生成 完全水平 無任何類別切換

五、實驗發現的綜合意義

5.1 核心發現總結

發現 內容 意義
發現一 原創性-彈性相關 r = 0.071 管線產生「類似人類」的創意模式
發現二 C4 最高新穎性 + 最低彈性 結構化方法產生聚焦的新穎性
發現三 所有條件都是 Persistent LLM 傾向深度探索而非廣度
發現四 組合跳躍 < 類別跳躍 驗證方法學的有效性

5.2 為什麼 C4 能打破 LLM 模式?

典型 LLM 的問題:
┌─────────────────────────────────────────────────────────────┐
│  直接生成:「給我椅子的創新用途」                            │
│                                                             │
│  LLM 依賴 temperature 產生多樣性                            │
│    → 高 temperature = 更多隨機性                            │
│    → 更多隨機性 = 更多跳躍(高彈性)                        │
│    → 更多跳躍 = 更可能遇到新穎想法(高原創)                │
│                                                             │
│  結果:彈性和原創性被綁定(正相關)                         │
└─────────────────────────────────────────────────────────────┘

C4 管線的突破:
┌─────────────────────────────────────────────────────────────┐
│  結構化生成:                                                │
│                                                             │
│  Step 1: 屬性分解                                           │
│    「椅子」→ [便攜, 可堆疊, 人體工學, ...]                 │
│                                                             │
│  Step 2: 專家無上下文關鍵字                                 │
│    會計師 + 「便攜」→ 「流動資產」(不知道是椅子!)        │
│                                                             │
│  Step 3: 重新結合                                           │
│    「椅子」+ 「流動資產」+ 會計師視角                       │
│    → 「帶 RFID 資產追蹤的企業椅子」                        │
│                                                             │
│  關鍵機制:                                                  │
│    - 結構強制「跳出」典型語義空間(高新穎性)              │
│    - 但所有想法都錨定在相同屬性集(低彈性)                │
│    - 新穎性來自「強制bisociation」而非「隨機探索」         │
│                                                             │
│  結果:高新穎性 + 低彈性 → 打破正相關 → 類似人類            │
└─────────────────────────────────────────────────────────────┘

5.3 這對創意 AI 研究的意義

理論貢獻:

  1. 證明 LLM 可以產生「類似人類」的創意模式

    • 不是透過模仿人類數據
    • 而是透過結構化的創意管線設計
  2. 原創性和彈性是可以獨立控制的

    • 傳統認為需要高隨機性才能高原創
    • 我們證明結構化約束也能達到高原創
  3. 「專注的新穎性」vs「分散的探索」

    • C4深入一個新穎領域專家策略
    • C5廣泛接觸多個領域通才策略
    • 兩種都有價值,但機制不同

實務應用:

目標 推薦策略 原因
最大化新穎性 C4 完整管線 最高距離質心分數
最大化類別多樣性 C2 專家視角 最多組合跳躍
平衡新穎與多樣 C3 屬性分解 中等水平
快速生成 C1 直接生成 最少 API 調用

六、方法論驗證

6.1 組合跳躍 ≤ 類別跳躍

這是方法學的必要條件驗證:

邏輯推導:
  組合跳躍 = 類別跳躍 ∧ 語義跳躍

  當類別跳躍 = False 時:
    組合跳躍 = False ∧ ? = False

  當類別跳躍 = True 時:
    組合跳躍 = True ∧ 語義跳躍 = 語義跳躍(可能 True 或 False

  因此:組合跳躍 ≤ 類別跳躍(必然成立)

實驗驗證:

條件 類別跳躍 組合跳躍 驗證
C2 54 48
C3 34 33
C5 22 20
C4 13 13
C1 0 0

6.2 彈性檔案閾值的選擇

論文使用的閾值30%、45%)基於人類實驗數據的分布。我們的 LLM 實驗中,所有條件都落在 Persistent 區間,這本身就是一個發現:

人類分布(論文數據):
  Persistent: ~33%
  Mixed: ~34%
  Flexible: ~33%

我們的 LLM 分布:
  Persistent: 100%(所有條件)
  Mixed: 0%
  Flexible: 0%

解讀:
  LLM即使加入專家/屬性引導)仍傾向持續探索模式
  這可能是 LLM 架構的固有特性

七、與其他指標的整合

7.1 完整指標體系

維度 指標 來源 C4 表現
流暢性 想法數量 Torrance 402最多
彈性 組合跳躍數 arXiv:2405.00899 13最低
原創性 距離質心 本研究 0.395(最高)
精緻性 平均字數 Torrance 26.2

7.2 C4 的獨特位置

創意空間定位:

     高原創性
         │
    C4 ●│
         │    C5●
         │         C3●
         │              C2●
         │
    C1 ●│
         └──────────────────── 高彈性
     低原創性

C4 占據了「高原創性 + 低彈性」的獨特位置
這在人類創意者中常見(專家型),但在 LLM 中罕見

八、未來研究方向

基於這些發現,建議的後續研究:

  1. 跨模型驗證

    • 在 GPT-4、Claude、Llama-3 上重複實驗
    • 確認發現是否為通用現象
  2. Temperature 敏感度測試

    • 論文發現 LLM 對 temperature 不敏感
    • 測試我們的管線是否也有此特性
  3. 人類基準比較

    • 收集人類在相同任務上的數據
    • 直接比較彈性檔案分布
  4. 管線變體測試

    • 調整屬性數量、專家數量
    • 找到最佳平衡點

參考文獻

  1. arXiv:2405.00899 - "Characterising the Creative Process in Humans and Large Language Models"

    • 組合跳躍信號、彈性檔案分類的原始論文
  2. Hadas & Hershkovitz (2024) - "Using LLMs to Evaluate AUT Flexibility Score"

    • LLM 雙階段分類法的來源
  3. Torrance (1974) - Torrance Tests of Creative Thinking

    • 創造力四維度框架
  4. Koestler (1964) - The Act of Creation

    • Bisociation 理論基礎

附錄:程式碼參考

相關分析程式碼位於:

  • experiments/aut_flexibility_analysis.py
    • compute_jump_signal() - 組合跳躍計算
    • classify_flexibility_profile() - 彈性檔案分類
    • analyze_originality_flexibility_correlation() - 相關性分析
    • compute_cumulative_jump_profile() - 累積跳躍輪廓
    • plot_cumulative_jump_profiles() - 視覺化

執行分析:

cd experiments
source ../backend/venv/bin/activate
python aut_flexibility_analysis.py experiment_20260119_165650_deduped.json