Initial commit

2025-11-28 11:52:04 +08:00
commit f74dc351f7
51 changed files with 2402 additions and 0 deletions
--- a/genomic_decision_support_system_spec_v0.1.md
+++ b/genomic_decision_support_system_spec_v0.1.md
@@ -0,0 +1,356 @@
+
+# 個人基因風險與用藥交互作用決策支援系統 – 系統規格書
+
+- 版本：v0.1-draft  
+- 作者：Gbanyan + 助理規劃  
+- 狀態：草案，預期隨實作迭代  
+- 目的：提供給 LLM（如 Claude、Codex 等）與開發者閱讀，作為系統設計與實作的基礎規格。
+
+---
+
+## 0. 系統目標與範圍
+
+### 0.1 目標
+
+建立一套「個人化、基因驅動」的決策支援系統，核心功能：
+
+1. **從個人與父母的外顯子定序資料（BAM）出發**，產生可查詢的變異資料庫。
+2. **針對特定疾病、症狀或表型**，自動查詢相關基因與已知致病變異，並在個人資料中搜尋對應變異。
+3. 依據 **ACMG/AMP 等準則** 與公開資料庫，給出 **機器輔助、具人工介入點的變異詮釋**。
+4. 進一步整合：
+   - 基因藥物學（Pharmacogenomics, PGx）
+   - 藥–藥交互作用（DDI）
+   - 保健食品、中藥等成分的潛在交互作用與風險
+5. 提供一個自然語言問答介面，使用者可直接問：
+   - 「我有沒有 XXX 的遺傳風險？」
+   - 「以我現在吃的藥和保健食品，有沒有需要注意的交互作用？」
+
+> 系統定位為：**個人決策支援工具 / 研究工具**，而非正式醫療診斷系統。
+
+### 0.2 核心設計哲學
+
+- **分階段發展**：先穩固「基因本體」與變異詮釋，再往 PGx 與交互作用擴充。
+- **明確的人機分工**：對每個模組標記 `Auto / Auto+Review / Human-only`。
+- **可追蹤、可回溯**：每一個結論都可追蹤到所用規則、資料庫版本、人工 override。
+
+---
+
+## 1. 發展階段與整體架構
+
+### 1.1 發展階段總覽
+
+| 階段 | 名稱 | 核心產出 | 主要對象 |
+|------|------|----------|----------|
+| Phase 1 | 基因本體與變異詮釋基礎 | 個人+trio VCF、註解與疾病/基因查詢 | 單基因疾病風險 |
+| Phase 2 | 基因藥物學與 DDI | 基因–藥物對應、藥–藥交互作用分析 | 精準用藥建議 |
+| Phase 3 | 保健食品與中藥交互作用 | 成分標準化與交互作用風險層級 | 整體用藥＋補充品安全網 |
+| Phase 4 | NLP/LLM 問答介面 | 自然語言問答、報告生成 | 一般使用者 / 臨床對話 |
+
+### 1.2 高階架構圖（Mermaid）
+
+```mermaid
+flowchart TD
+
+subgraph P1[Phase 1: 基因本體]
+  A1[BAM (本人+父母)] --> A2[Variant Calling Pipeline]
+  A2 --> A3[Joint VCF (Trio)]
+  A3 --> A4[Variant Annotation (ClinVar, gnomAD, VEP...)]
+  A4 --> A5[Genomic DB / Query API]
+end
+
+subgraph P2[Phase 2: PGx & DDI]
+  B1[藥物清單] --> B2[PGx Engine]
+  A5 --> B2
+  B1 --> B3[DDI Engine]
+end
+
+subgraph P3[Phase 3: 補充品 & 中藥]
+  C1[保健食品/中藥清單] --> C2[成分標準化]
+  C2 --> C3[成分交互作用引擎]
+  B1 --> C3
+  A5 --> C3
+end
+
+subgraph P4[Phase 4: 問答與報告]
+  D1[前端 UI / CLI / API Client] --> D2[LLM Orchestrator]
+  D2 -->|疾病/症狀詢問| A5
+  D2 -->|用藥/成分詢問| B2
+  D2 --> B3
+  D2 --> C3
+  A5 --> D3[報告產生器]
+  B2 --> D3
+  B3 --> D3
+  C3 --> D3
+end
+```
+
+---
+
+## 2. 通用設計：人機分工標記
+
+所有模組需標記自動化等級：
+
+- `Auto`：可完全自動執行的步驟（例：variant calling、基本註解）。
+- `Auto+Review`：系統先產生建議，需人工複核或有條件接受（例：ACMG 部分 evidence scoring）。
+- `Human-only`：最終醫療判斷／用語／管理建議，必須由人決策（例：最終 Pathogenic 分類、臨床處置建議）。
+
+每次分析需生成一份 **machine-readable log**，紀錄：
+
+- 使用的模組與版本
+- 每一步的自動化等級
+- 哪些地方有人工 override（人員、時間、理由）
+
+---
+
+## 3. Phase 1：基因本體與變異詮釋基礎
+
+### 3.1 功能需求
+
+1. **輸入**
+   - 本人與雙親外顯子定序 BAM 檔。
+2. **輸出**
+   - 高品質 joint VCF（含 trio）
+   - 每個變異的註解資訊：
+     - 基因、轉錄本、蛋白改變
+     - 族群頻率（gnomAD 等）
+     - ClinVar 註解
+     - 功能預測（SIFT/PolyPhen/CADD 等）
+   - 對特定疾病/基因清單的變異過濾結果。
+3. **對外服務**
+   - 以 API / 函式介面提供：
+     - 給定基因列表 → 回傳該個體在這些基因中的變異列表
+     - 支援疾病名稱/HPO → 基因 → 變異的查詢流程（初期可分步呼叫）
+
+### 3.2 模組設計
+
+#### 3.2.1 Variant Calling Pipeline
+
+- **輸入**：BAM（本人 + 父母）
+- **輸出**：個別 gVCF → joint VCF
+- **工具候選**：
+  - GATK（HaplotypeCaller + GenotypeGVCFs）
+  - 或 DeepVariant + joint genotyper
+- **自動化等級**：`Auto`
+- **需求**：
+  - 基本 QC（coverage、duplicate rate、on-target rate）
+  - 支援版本標記（如 reference genome 版本）
+
+#### 3.2.2 Annotation Pipeline
+
+- **輸入**：joint VCF
+- **輸出**：annotated VCF / 變異表
+- **工具候選**：
+  - VEP、ANNOVAR 或類似工具
+- **資料庫**：
+  - ClinVar
+  - gnomAD
+  - 基因功能與轉錄本資料庫
+- **自動化等級**：`Auto`
+
+#### 3.2.3 Genomic DB / Query API
+
+- **目的**：提供高效查詢，作為後續模組（疾病風險、PGx 等）的基底。
+- **形式**：
+  - 選項 A：基於 VCF + tabix，以封裝函式操作
+  - 選項 B：匯入 SQLite / PostgreSQL / 專用 genomic DB
+- **關鍵查詢**：
+  - `get_variants_by_gene(individual_id, gene_list, filters)`
+  - `get_variants_by_region(individual_id, chr, start, end, filters)`
+- **自動化等級**：`Auto`
+
+#### 3.2.4 疾病/表型 → 基因 → 變異流程
+
+- 初期可拆成三步：
+  1. 使用外部知識庫或手動 panel：疾病/表型 → 基因清單
+  2. 透過 Genomic DB 查詢個人變異
+  3. 以簡單規則（頻率、ClinVar 標註）做初步排序
+- **自動化等級**：`Auto+Review`
+
+### 3.3 ACMG 規則實作（初版）
+
+- **範圍**：僅實作部分機器可自動判定之 evidence（如 PVS1、PM2、BA1、BS1 等）。
+- **輸出**：
+  - 每個變異的 evidence tag 列表與建議分級（例如：`suggested_class = "VUS"`）
+- **人工介入點**：
+  - 變異最終分類（Pathogenic / Likely pathogenic / VUS / Likely benign / Benign） → `Human-only`
+  - 規則閾值（如頻率 cutoff）以 config 檔管理 → `Auto+Review`
+
+---
+
+## 4. Phase 2：基因藥物學（PGx）與藥–藥交互作用（DDI）
+
+### 4.1 功能需求
+
+1. 接收使用者目前用藥清單（處方藥、成藥）。
+2. 透過基因資料，判定與 PGx 相關的 genotype（例如 CYP2D6, CYP2C9, HLA 等）。
+3. 根據 CPIC / DPWG 等指南，給出：
+   - 適應症相關風險（如 HLA-B*58:01 與 allopurinol）
+   - 劑量調整建議 / 藥物替代建議（僅 decision-support 層級）
+4. 計算基礎藥–藥交互作用（DDI），例如：
+   - CYP 抑制 / 誘導疊加
+   - QT prolongation 疊加
+   - 出血風險疊加
+
+### 4.2 模組設計
+
+#### 4.2.1 用藥資料標準化
+
+- 使用 ATC / RxNorm / 自訂 ID。
+- **自動化等級**：`Auto`
+
+#### 4.2.2 PGx Engine
+
+- **輸入**：個人變異（Phase 1 DB）、藥物清單
+- **輸出**：每個藥物的 PGx 評估（genotype → phenotype → 建議）
+- **資料庫**：
+  - CPIC guidelines
+  - PharmGKB 關聯資料
+- **自動化等級**：
+  - genotype → phenotype：`Auto`
+  - phenotype → 臨床建議：`Auto+Review`
+
+#### 4.2.3 DDI Engine
+
+- **輸入**：藥物清單
+- **輸出**：已知 DDI 清單與嚴重程度分級
+- **資料來源**：公開或商用 DDI 資料庫（視可用性）
+- **自動化等級**：`Auto`
+
+---
+
+## 5. Phase 3：保健食品與中藥交互作用模組
+
+### 5.1 功能需求
+
+1. 接收使用者的保健食品與中藥使用資料。
+2. 將名稱解析為：
+   - 標準化有效成分（如 EPA/DHA mg、Vit D IU、銀杏葉萃取物 mg 等）
+   - 中藥材名稱（如 黃耆、當歸、川芎…）
+3. 評估：
+   - 成分與藥物、基因的交互作用風險
+   - 成分間的加乘作用（如抗凝、CNS 抑制等）
+4. 按證據等級給出：
+   - 高優先級警示（有較強臨床證據）
+   - 一般提醒（動物實驗 / case report 等）
+   - 資料不足，僅能提醒不確定性
+
+### 5.2 模組設計
+
+#### 5.2.1 成分標準化引擎
+
+- **輸入**：使用者輸入的品名 / 處方
+- **輸出**：
+  - 標準化成分列表
+  - 估計劑量範圍（若無精確資料）
+- **資料**：
+  - 保健食品常用成分資料表
+  - 中藥方與藥材對應表
+- **自動化等級**：`Auto+Review`
+
+#### 5.2.2 成分交互作用引擎
+
+- **輸入**：成分列表、藥物清單、基因資料
+- **輸出**：交互作用列表與風險層級
+- **邏輯**：
+  - 成分對 CYP / P-gp / OATP 等的影響
+  - 成分對凝血、血壓、中樞神經等系統的影響
+- **自動化等級**：
+  - 規則推論：`Auto`
+  - 最終臨床建議表述：`Human-only`
+
+---
+
+## 6. Phase 4：NLP/LLM 問答介面與報告生成
+
+### 6.1 功能需求
+
+1. 支援使用者以自然語言提問：
+   - 疾病/症狀相關風險
+   - 用藥安全性
+   - 保健食品、中藥併用風險
+2. LLM 負責：
+   - 問題解析 → 結構化查詢（疾病、HPO、藥物、成分等）
+   - 協調呼叫底層 API（Phase 1–3）
+   - 整合結果並生成報告草稿
+3. 報告形式：
+   - 機器可讀 JSON（便於後處理）
+   - 人類可讀 Markdown / PDF 報告
+
+### 6.2 Orchestration 設計
+
+- 可採用「LLM + Tool/Function Calling」模式：
+  - 工具包括：
+    - `query_variants_by_gene`
+    - `query_disease_gene_panel`
+    - `run_pgx_analysis`
+    - `run_ddi_analysis`
+    - `run_supplement_herb_interaction`
+- LLM 主要負責：
+  - 意圖辨識與拆解
+  - 工具呼叫順序規劃
+  - 結果解釋與用語調整（需符合安全與保守原則）
+- **自動化等級**：
+  - 工具呼叫：`Auto`
+  - 臨床敏感結論：`Auto+Review` / `Human-only`（視場景而定）
+
+---
+
+## 7. 安全性、隱私與版本管理
+
+### 7.1 資料安全與隱私
+
+- 所有基因資料、用藥清單、報告：
+  - 儲存於本地或受控環境
+  - 若需與外部服務（如雲端 LLM）互動，需：
+    - 做脫敏處理（移除個資）
+    - 或改用 local/私有 LLM
+
+### 7.2 版本管理
+
+- 對以下物件進行版本控制：
+  - 參考基因組版本
+  - variant calling pipeline 版本
+  - 資料庫版本（ClinVar、gnomAD 等）
+  - ACMG 規則 config 版本
+  - gene panel / PGx 規則版本
+- 每份分析報告需記錄所用版本，以利追蹤與重跑。
+
+### 7.3 人工介入紀錄
+
+- 每次人工 override 或審核需紀錄：
+  - 變異 ID / 分析項目
+  - 原自動建議
+  - 人工調整結果
+  - 理由與參考文獻（如有）
+  - 審核者與時間
+
+---
+
+## 8. 未來擴充方向（Optional）
+
+- 整合 polygenic risk score（PRS）模組
+- 整合 longitudinal data（實驗室數據、症狀日誌）做風險動態追蹤
+- 為特定疾病領域建立更深的 expert-curated knowledge base
+- 與可穿戴裝置／其他健康資料源整合
+
+---
+
+## 9. 第一階段實作建議路線（Actionable TODO）
+
+1. **規劃 Phase 1 的技術選型**
+   - 選擇 variant caller（如 GATK）與 reference genome 版本
+   - 選擇 annotation 工具（如 VEP 或 ANNOVAR）
+2. **建立基本 pipeline**
+   - BAM → gVCF → joint VCF（trio）
+   - 加上基本 QC 報表
+3. **建置簡單的 Genomic Query 介面**
+   - 先以 CLI/Notebook 函式為主（例如 Python 函式庫）
+4. **選一個你最關心的疾病領域**
+   - 建立第一個 gene panel（例如視覺/聽力相關）
+   - 實作 panel-based 查詢與變異列表輸出
+5. **撰寫第一版報告模板**
+   - 輸入：疾病名稱 + gene panel + 查詢結果
+   - 輸出：簡易 Markdown 報告（含變異表 + 限制說明）
+6. **逐步加入 ACMG 自動 evidence 標記與人工 review 流程**
+
+這個規格書預期會在實作過程中持續更新，可視此為 v0.1 的起點版本。