Files
novelty-seeking/experiments/docs/presentation_notes_zh.md
gbanyan 43c025e060 feat: Add experiments framework and novelty-driven agent loop
- Add complete experiments directory with pilot study infrastructure
  - 5 experimental conditions (direct, expert-only, attribute-only, full-pipeline, random-perspective)
  - Human assessment tool with React frontend and FastAPI backend
  - AUT flexibility analysis with jump signal detection
  - Result visualization and metrics computation

- Add novelty-driven agent loop module (experiments/novelty_loop/)
  - NoveltyDrivenTaskAgent with expert perspective perturbation
  - Three termination strategies: breakthrough, exhaust, coverage
  - Interactive CLI demo with colored output
  - Embedding-based novelty scoring

- Add DDC knowledge domain classification data (en/zh)
- Add CLAUDE.md project documentation
- Update research report with experiment findings

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-20 10:16:21 +08:00

179 lines
4.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 簡報備忘稿
---
## 開場1-2 分鐘)
**問題:** LLM 生成創意時有「語義引力」問題
- 問「椅子創新用途」→ 都是「人體工學椅」「折疊椅」
- 想法集中在訓練數據的高頻區域
**我們的解法:** Bisociation雙重聯想
- 拆解屬性 + 專家視角 + 無上下文關鍵字
- 強迫產生意外連結
---
## 實驗設計1 分鐘)
**五個條件2×2 + 控制組:**
| 條件 | 記法 | 重點 |
|------|------|------|
| C1 | 直接生成 | Baseline |
| C2 | 只有專家 | 專家自由發揮 |
| C3 | 只有屬性 | 結構但無專家 |
| C4 | 完整管線 | 屬性 + 專家 |
| C5 | 隨機詞彙 | 控制組:隨機 vs 專家 |
**關鍵設計:** 專家生成關鍵字時**看不到原始查詢**
- 會計師 + 「便攜」→ 「流動資產」(不知道是椅子)
- 再把「流動資產」+ 「椅子」結合
---
## 四個研究問題的答案
| RQ | 問題 | 答案 | 一句話 |
|----|------|:----:|--------|
| RQ1 | 屬性有效? | ✓ Yes | p=0.027 |
| RQ2 | 專家有效? | ✓ Yes | p<0.001 |
| RQ3 | 有加乘效果? | ✗ No | Sub-additive |
| RQ4 | 專家 > 隨機? | ✗ No | p=0.463 |
**意外發現:** 隨機詞彙跟專家一樣好 → 價值在「視角轉換」本身
---
## 核心數據(記住這幾個數字)
### 新穎性(距離質心,越高越新穎)
```
C4: 0.395 ← 最高!
C5: 0.365
C3: 0.337
C2: 0.315
C1: 0.273 ← 最低(最典型)
```
### 彈性(組合跳躍數,越高越分散)
```
C2: 48 ← 最高!(專家自由探索)
C3: 33
C5: 20
C4: 13 ← 最低!(專注探索)
C1: 0 ← 單一群集
```
---
## 🔑 關鍵發現(重點中的重點)
### 發現 1原創性-彈性相關性
**論文說:**
- 人類r ≈ 0無相關
- 典型 LLMr > 0正相關
**我們的結果r = 0.071(接近零)**
**產生「類似人類」的創意模式!**
### 發現 2C4 的獨特位置
```
C4 = 最高新穎性 + 最低彈性
這代表:「專注的新穎性」
- 不是到處亂跳(高彈性)
- 而是深入一個新穎領域(低彈性但高新穎)
- 像人類專家的創意模式
```
### 發現 3為什麼會這樣
```
屬性錨定效應:
所有專家都回應同樣的屬性集
→ 想法被錨定在相似概念空間(低彈性)
→ 但無上下文關鍵字強迫新穎聯結(高新穎)
結果focused novelty聚焦的新穎性
```
---
## 方法論亮點
### 組合跳躍信號Combined Jump
- 舊方法:只看類別切換
- 新方法:類別切換 **且** 語義不相似
- 減少假陽性,更準確
### 彈性檔案分類
| 檔案 | 跳躍比率 | 我們的結果 |
|------|:--------:|:----------:|
| Persistent | <30% | 全部條件 |
| Mixed | 30-45% | 無 |
| Flexible | >45% | 無 |
→ LLM 傾向「持續探索」而非「靈活跳躍」
---
## 限制(誠實說)
1. **樣本小:** 10 個查詢pilot study
2. **沒有人工評估:** 只有 embedding 指標
3. **單一模型:** 只測 Qwen3:8b
4. **語義距離 ≠ 真正新穎:** 「量子糾纏椅」距離遠但不新穎
---
## 下一步(如果被問到)
1. **人工評估介面**(已建好)
2. **多模型驗證**GPT-4, Claude
3. **LLM-as-Judge** 大規模評分
4. **30 個查詢** 增加統計效力
---
## 一句話總結
> **我們的屬性+專家管線讓 LLM 產生「類似人類專家」的創意模式:
> 高新穎性但專注探索,打破典型 LLM 的「彈性=新穎」正相關。**
---
## 快問快答
**Q: 為什麼隨機詞跟專家一樣好?**
A: 價值在「視角轉換」本身,不在專業知識
**Q: 為什麼 C4 彈性最低但新穎性最高?**
A: 屬性把專家錨定在同一概念空間,但無上下文關鍵字強迫新穎連結
**Q: r=0.071 代表什麼?**
A: 新穎性和彈性無相關,跟人類一樣,打破典型 LLM 的正相關模式
**Q: Persistent profile 是好是壞?**
A: 不是好壞是探索策略。C4 證明可以 persistent 但仍然 novel
**Q: 這對實務有什麼用?**
A: 想要高新穎性 → 用 C4想要多元類別 → 用 C2
---
## 數字速查表
| 指標 | C1 | C2 | C3 | C4 | C5 |
|------|:--:|:--:|:--:|:--:|:--:|
| 想法數 | 195 | 198 | 125 | **402** | 199 |
| 新穎性 | 0.273 | 0.315 | 0.337 | **0.395** | 0.365 |
| 彈性(jumps) | 0 | **48** | 33 | 13 | 20 |
| 跳躍比率 | 0% | 24% | 27% | **3%** | 10% |
| 凝聚度 | 71% | 73% | 51% | **89%** | 71% |
**記憶口訣:** C4 最新穎、最凝聚、最低彈性 = 「聚焦的新穎」