feat: Add experiments framework and novelty-driven agent loop

- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
This commit is contained in:
2026-01-20 10:16:21 +08:00
parent 26a56a2a07
commit 43c025e060
81 changed files with 18766 additions and 2 deletions

View File

@@ -0,0 +1,178 @@
# 簡報備忘稿
---
## 開場1-2 分鐘)
**問題:** LLM 生成創意時有「語義引力」問題
- 問「椅子創新用途」→ 都是「人體工學椅」「折疊椅」
- 想法集中在訓練數據的高頻區域
**我們的解法:** Bisociation雙重聯想
- 拆解屬性 + 專家視角 + 無上下文關鍵字
- 強迫產生意外連結
---
## 實驗設計1 分鐘)
**五個條件2×2 + 控制組:**
| 條件 | 記法 | 重點 |
|------|------|------|
| C1 | 直接生成 | Baseline |
| C2 | 只有專家 | 專家自由發揮 |
| C3 | 只有屬性 | 結構但無專家 |
| C4 | 完整管線 | 屬性 + 專家 |
| C5 | 隨機詞彙 | 控制組:隨機 vs 專家 |
**關鍵設計:** 專家生成關鍵字時**看不到原始查詢**
- 會計師 + 「便攜」→ 「流動資產」(不知道是椅子)
- 再把「流動資產」+ 「椅子」結合
---
## 四個研究問題的答案
| RQ | 問題 | 答案 | 一句話 |
|----|------|:----:|--------|
| RQ1 | 屬性有效? | ✓ Yes | p=0.027 |
| RQ2 | 專家有效? | ✓ Yes | p<0.001 |
| RQ3 | 有加乘效果? | ✗ No | Sub-additive |
| RQ4 | 專家 > 隨機? | ✗ No | p=0.463 |
**意外發現:** 隨機詞彙跟專家一樣好 → 價值在「視角轉換」本身
---
## 核心數據(記住這幾個數字)
### 新穎性(距離質心,越高越新穎)
```
C4: 0.395 ← 最高!
C5: 0.365
C3: 0.337
C2: 0.315
C1: 0.273 ← 最低(最典型)
```
### 彈性(組合跳躍數,越高越分散)
```
C2: 48 ← 最高!(專家自由探索)
C3: 33
C5: 20
C4: 13 ← 最低!(專注探索)
C1: 0 ← 單一群集
```
---
## 🔑 關鍵發現(重點中的重點)
### 發現 1原創性-彈性相關性
**論文說:**
- 人類r ≈ 0無相關
- 典型 LLMr > 0正相關
**我們的結果r = 0.071(接近零)**
**產生「類似人類」的創意模式!**
### 發現 2C4 的獨特位置
```
C4 = 最高新穎性 + 最低彈性
這代表:「專注的新穎性」
- 不是到處亂跳(高彈性)
- 而是深入一個新穎領域(低彈性但高新穎)
- 像人類專家的創意模式
```
### 發現 3為什麼會這樣
```
屬性錨定效應:
所有專家都回應同樣的屬性集
→ 想法被錨定在相似概念空間(低彈性)
→ 但無上下文關鍵字強迫新穎聯結(高新穎)
結果focused novelty聚焦的新穎性
```
---
## 方法論亮點
### 組合跳躍信號Combined Jump
- 舊方法:只看類別切換
- 新方法:類別切換 **且** 語義不相似
- 減少假陽性,更準確
### 彈性檔案分類
| 檔案 | 跳躍比率 | 我們的結果 |
|------|:--------:|:----------:|
| Persistent | <30% | 全部條件 |
| Mixed | 30-45% | 無 |
| Flexible | >45% | 無 |
→ LLM 傾向「持續探索」而非「靈活跳躍」
---
## 限制(誠實說)
1. **樣本小:** 10 個查詢pilot study
2. **沒有人工評估:** 只有 embedding 指標
3. **單一模型:** 只測 Qwen3:8b
4. **語義距離 ≠ 真正新穎:** 「量子糾纏椅」距離遠但不新穎
---
## 下一步(如果被問到)
1. **人工評估介面**(已建好)
2. **多模型驗證**GPT-4, Claude
3. **LLM-as-Judge** 大規模評分
4. **30 個查詢** 增加統計效力
---
## 一句話總結
> **我們的屬性+專家管線讓 LLM 產生「類似人類專家」的創意模式:
> 高新穎性但專注探索,打破典型 LLM 的「彈性=新穎」正相關。**
---
## 快問快答
**Q: 為什麼隨機詞跟專家一樣好?**
A: 價值在「視角轉換」本身,不在專業知識
**Q: 為什麼 C4 彈性最低但新穎性最高?**
A: 屬性把專家錨定在同一概念空間,但無上下文關鍵字強迫新穎連結
**Q: r=0.071 代表什麼?**
A: 新穎性和彈性無相關,跟人類一樣,打破典型 LLM 的正相關模式
**Q: Persistent profile 是好是壞?**
A: 不是好壞是探索策略。C4 證明可以 persistent 但仍然 novel
**Q: 這對實務有什麼用?**
A: 想要高新穎性 → 用 C4想要多元類別 → 用 C2
---
## 數字速查表
| 指標 | C1 | C2 | C3 | C4 | C5 |
|------|:--:|:--:|:--:|:--:|:--:|
| 想法數 | 195 | 198 | 125 | **402** | 199 |
| 新穎性 | 0.273 | 0.315 | 0.337 | **0.395** | 0.365 |
| 彈性(jumps) | 0 | **48** | 33 | 13 | 20 |
| 跳躍比率 | 0% | 24% | 27% | **3%** | 10% |
| 凝聚度 | 71% | 73% | 51% | **89%** | 71% |
**記憶口訣:** C4 最新穎、最凝聚、最低彈性 = 「聚焦的新穎」