feat: Add experiments framework and novelty-driven agent loop

- Add complete experiments directory with pilot study infrastructure - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective) - Human assessment tool with React frontend and FastAPI backend - AUT flexibility analysis with jump signal detection - Result visualization and metrics computation - Add novelty-driven agent loop module (experiments/novelty_loop/) - NoveltyDrivenTaskAgent with expert perspective perturbation - Three termination strategies: breakthrough, exhaust, coverage - Interactive CLI demo with colored output - Embedding-based novelty scoring - Add DDC knowledge domain classification data (en/zh) - Add CLAUDE.md project documentation - Update research report with experiment findings Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-20 10:16:21 +08:00
parent 26a56a2a07
commit 43c025e060
81 changed files with 18766 additions and 2 deletions
--- a/experiments/docs/aut_flexibility_explanation_zh.md
+++ b/experiments/docs/aut_flexibility_explanation_zh.md
@@ -0,0 +1,301 @@
+# AUT 彈性評估方法說明
+
+## 什麼是 AUT（替代用途任務）？
+
+AUT（Alternative Uses Task，替代用途任務）是一個經典的**發散性思維測試**，由 Guilford 在 1967 年提出。
+
+**測試方式：**
+```
+問題：「請列出磚塊的所有可能用途」
+
+典型回答：
+1. 蓋房子
+2. 當門擋
+3. 壓紙張
+4. 當武器
+5. 墊高東西
+...
+```
+
+---
+
+## Torrance 創造力四維度
+
+| 維度 | 中文 | 定義 | 測量方式 |
+|------|------|------|----------|
+| **Fluency** | 流暢性 | 產生多少想法 | 計算數量 |
+| **Flexibility** | 彈性/靈活性 | 想法涵蓋多少不同類別 | 計算類別數 |
+| **Originality** | 原創性 | 想法的稀有程度 | 統計罕見度 |
+| **Elaboration** | 精緻性 | 想法的詳細程度 | 評估細節 |
+
+---
+
+## 我們實作的三種彈性評估方法
+
+### 方法一：LLM 雙階段分類法（Hadas & Hershkovitz 2024）
+
+**原理：** 讓大型語言模型識別想法的語義類別，然後計算類別數量
+
+```
+第一階段：讓 LLM 識別所有想法的語義類別
+輸入：「椅子」的 195 個創意想法
+輸出：["交通運輸", "藝術裝飾", "醫療健康", "教育", "儲存", ...]
+
+第二階段：將每個想法分配到類別
+想法 1：「太陽能充電椅」→ 科技類
+想法 2：「椅子改裝成擔架」→ 醫療類
+想法 3：「椅腳當鼓棒」→ 藝術類
+
+彈性分數 = 使用的不同類別數量
+```
+
+**優點：** 類別名稱有語義意義，可解釋性強
+**缺點：** 依賴 LLM 的一致性，可能有解析錯誤
+
+---
+
+### 方法二：嵌入向量階層式聚類法（arXiv:2405.00899）
+
+**原理：** 將想法轉換成向量，用數學方法自動分群
+
+```
+步驟 1：將每個想法轉換成向量（embedding）
+        「太陽能充電椅」→ [0.12, -0.34, 0.56, ...]（1024 維）
+
+步驟 2：使用 Ward 連結法進行階層式聚類
+        計算所有想法之間的餘弦距離
+        由下而上合併最相似的群組
+
+步驟 3：在相似度 ≥ 0.7 的閾值切割樹狀圖
+        確保同一群內的想法夠相似
+
+彈性分數 = 產生的群集數量
+```
+
+**優點：** 客觀、可重現、不依賴 LLM 判斷
+**缺點：** 群集沒有語義標籤，需要人工解讀
+
+---
+
+### 方法三：組合跳躍信號分析（Combined Jump Signal, arXiv:2405.00899）
+
+**原理：** 使用更嚴格的「真正跳躍」定義，減少假陽性
+
+```
+組合跳躍 = 類別跳躍 ∧ 語義跳躍
+
+類別跳躍（jumpcat）：連續想法屬於不同的 embedding 群集
+語義跳躍（jumpSS）：連續想法的語義相似度 < 0.7
+
+真正跳躍 = 兩個條件都必須成立
+```
+
+**為什麼需要組合跳躍？**
+```
+問題：單獨使用類別跳躍可能產生假陽性
+例如：「人體工學椅」和「可調節椅」
+  - 可能被分到不同群集（類別跳躍 = True）
+  - 但語義上很相似（語義跳躍 = False）
+  - 不應該算作真正的「創意跳躍」
+
+解決：組合跳躍要求兩者同時成立，更準確
+```
+
+| 跳躍比率 | 探索模式 | 含義 |
+|----------|----------|------|
+| 高（>45%） | 靈活探索（Flexible） | 廣泛切換類別，思維跳躍 |
+| 中（30-45%） | 混合模式（Mixed） | 適度切換 |
+| 低（<30%） | 持續探索（Persistent） | 深入單一領域，專注發展 |
+
+**應用：** 區分 LLM 與人類的創意模式差異
+
+---
+
+## 研究發現
+
+### 發現一：新穎性（Novelty）與彈性（Flexibility）是獨立維度
+
+| 條件 | 新穎性分數 | 彈性（群集數） | 平均相似度 | 模式 |
+|------|:----------:|:--------------:|:----------:|------|
+| C4 完整管線 | **0.395**（最高） | 10 | 0.583 | 高新穎、中等彈性 |
+| C5 隨機視角 | 0.365 | **15**（最高） | 0.521 | 高新穎、高彈性 |
+| C2 專家視角 | 0.315 | 13 | 0.517 | 中等新穎、高彈性 |
+| C3 屬性分解 | 0.337 | 12 | - | 中等新穎、中等彈性 |
+| C1 直接生成 | 0.273（最低） | **1**（最低） | 0.647 | 低新穎、低彈性 |
+
+**視覺化解讀：**
+
+```
+C1 直接生成的想法：
+┌─────────────────────────────────────┐
+│  ○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○○  │  ← 所有想法集中在一個「普通領域」
+│     （彼此相似，且都很典型）          │     （低新穎性 + 低彈性）
+└─────────────────────────────────────┘
+
+C5 隨機視角的想法：
+┌───┐  ┌───┐  ┌───┐  ┌───┐  ┌───┐
+│ ★ │  │ ★ │  │ ★ │  │ ★ │  │ ★ │  ← 分散在多個「新穎領域」
+└───┘  └───┘  └───┘  └───┘  └───┘     （高新穎性 + 高彈性）
+  ↑      ↑      ↑      ↑      ↑
+ 交通   醫療   藝術   教育   科技
+
+C4 完整管線的想法：
+      ┌─────────────────┐
+   ┌──┤  ★★★★★★★★★★★★  ├──┐  ← 集中在一個「新穎領域」但有多個子類別
+   │  └─────────────────┘  │     （最高新穎性 + 中等彈性）
+   │          ↓            │
+   └── 10 個語義群集 ───────┘
+```
+
+### 發現二：組合跳躍信號分析結果
+
+| 條件 | 類別跳躍 | 語義跳躍 | **組合跳躍** | 彈性檔案 |
+|------|:--------:|:--------:|:------------:|:--------:|
+| C2 專家視角 | 54 | 125 | **48** | 持續探索 |
+| C3 屬性分解 | 34 | 107 | **33** | 持續探索 |
+| C5 隨機視角 | 22 | 116 | **20** | 持續探索 |
+| C4 完整管線 | 13 | 348 | **13** | 持續探索 |
+| C1 直接生成 | 0 | 104 | **0** | 持續探索 |
+
+**組合跳躍比率：**
+
+| 條件 | 組合跳躍比率 | 彈性檔案 | 解讀 |
+|------|:------------:|:--------:|------|
+| C3 屬性分解 | **26.6%** | Persistent | 適度類別切換 |
+| C2 專家視角 | **24.4%** | Persistent | 適度類別切換 |
+| C5 隨機視角 | 10.1% | Persistent | 較低類別切換 |
+| C4 完整管線 | **3.2%** | Persistent | 非常專注的探索 |
+| C1 直接生成 | 0.0% | Persistent | 單一群集（無跳躍） |
+
+**關鍵洞察：** 組合跳躍 ≤ 類別跳躍（符合預期）。所有條件都呈現「持續探索」模式。
+
+---
+
+### 發現三：🔑 原創性-彈性相關性（關鍵發現）
+
+**論文發現（arXiv:2405.00899）：**
+- **人類：** 原創性與彈性**無相關**（r ≈ 0）
+- **典型 LLM：** **正相關** — 靈活的 LLM 原創性更高
+
+**我們的結果：**
+
+| 指標 | 數值 | 解讀 |
+|------|:----:|------|
+| **Pearson r** | **0.071** | 接近零的相關性 |
+| 模式 | **類似人類** | 打破典型 LLM 模式 |
+
+**各條件數據：**
+
+| 條件 | 新穎性分數 | 彈性（組合跳躍數） |
+|------|:----------:|:------------------:|
+| C4 完整管線 | **0.395**（最高） | **13**（最低） |
+| C5 隨機視角 | 0.365 | 20 |
+| C3 屬性分解 | 0.337 | 33 |
+| C2 專家視角 | 0.315 | 48（最高） |
+| C1 直接生成 | 0.273（最低） | 0 |
+
+**重大發現：** 屬性+專家管線（C4）實現**最高新穎性但最低彈性**，
+證明結構化的無上下文生成能產生**聚焦的新穎性**而非分散的探索。
+
+**這意味著什麼？**
+```
+典型 LLM 模式：
+  彈性高 → 新穎性高（正相關）
+  想法越分散，越可能遇到新穎概念
+
+我們的管線（C4）：
+  彈性低 + 新穎性高（打破模式）
+  專注探索一個新穎領域，而非到處跳躍
+
+這是「類似人類」的創意模式！
+  人類專家通常深入探索一個領域，而非廣泛但淺薄地涉獵
+```
+
+---
+
+## 這對創意研究的意義
+
+1. **創造力是多維度的**
+   - 新穎性（Novelty）和彈性（Flexibility）是**獨立維度**
+   - 高新穎不代表高彈性，反之亦然
+   - 需要同時考慮流暢性、彈性、原創性、精緻性
+
+2. **管線設計的取捨**
+   | 策略 | 新穎性 | 彈性 | 特點 |
+   |------|:------:|:----:|------|
+   | 直接生成（C1） | 低 | 低 | 快速但普通 |
+   | 專家視角（C2） | 中 | 高 | 多元觀點 |
+   | 隨機視角（C5） | 高 | **最高** | 強迫跳躍 |
+   | 完整管線（C4） | **最高** | 中 | 結構化新穎 |
+
+3. **為什麼專家/隨機視角產生更多類別？**
+   ```
+   C1 直接生成：
+     LLM 沒有外部刺激 → 停留在「家具改良」單一領域
+     平均相似度 0.647（最高）→ 想法彼此很像
+
+   C2 專家視角：
+     4 個不同領域專家 → 引入不同思維框架
+     平均相似度 0.517（較低）→ 想法更分散
+
+   C5 隨機視角：
+     隨機詞彙強迫跳躍 → 意外的連結
+     平均相似度 0.521 → 最多語義類別（15 個）
+   ```
+
+4. **實務建議**
+   - 若需要**高新穎性**：使用完整管線（C4）
+   - 若需要**高彈性/多元性**：使用隨機視角（C5）或專家視角（C2）
+   - 若需要**兩者兼顧**：可能需要混合策略
+
+---
+
+## 方法論修正說明
+
+### 原始演算法的問題
+
+最初的聚類演算法有邏輯錯誤：
+
+```
+原本的邏輯（錯誤）：
+  目標：找到群內相似度 >= 0.7 的群集
+
+  問題：當想法很分散時（低相似度），
+        無法形成符合閾值的緊密群集
+        → 演算法放棄，回傳 1 個群集
+
+  結果：C2/C5 的分散想法被錯誤標記為「1 個群集」
+```
+
+### 修正後的演算法
+
+```
+修正後的邏輯（正確）：
+  方法：使用 average linkage 階層式聚類
+  閾值：在距離 0.5 處切割樹狀圖
+        （即相似度 < 0.5 時分開）
+
+  結果：分散的想法正確地被分成多個群集
+```
+
+### 結果對比
+
+| 條件 | 修正前群集數 | 修正後群集數 | 平均相似度 |
+|------|:------------:|:------------:|:----------:|
+| C1 直接生成 | 29 | **1** | 0.647（高） |
+| C2 專家視角 | 1 | **13** | 0.517（低） |
+| C5 隨機視角 | 1 | **15** | 0.521（低） |
+
+**關鍵洞察：** 低相似度 = 高多元性 = 高彈性分數
+
+---
+
+## 參考文獻
+
+1. Hadas & Hershkovitz (2024). "Using Large Language Models to Evaluate Alternative Uses Task Flexibility Score." *Thinking Skills and Creativity*, Vol. 52.
+
+2. arXiv:2405.00899 - "Characterising Creative Process in Humans and LLMs" - Jump signal methodology
+
+3. Guilford, J.P. (1967). *The Nature of Human Intelligence*. McGraw-Hill.
+
+4. Torrance, E.P. (1974). *Torrance Tests of Creative Thinking*. Scholastic Testing Service.