GSD 深度解读：上下文工程与规范驱动开发

你有没有过这种体验：让 AI 写一个功能，前半小时行云流水，后半小时开始跑偏，再往后连自己说过什么都忘了。

这不是 AI 模型的问题。这是上下文腐化（Context Rot）——随着对话轮次增加，AI 的输出质量从山顶滑向山脚。Anthropic 自己的研究表明，当上下文窗口填充超过 60% 时，模型的指令遵循能力显著下降。而一个中等复杂度的功能，单会话很容易用掉 60-80% 的上下文。

这就是 GSD 要解决的核心问题。

GSD 是什么

GSD（Get Shit Done）是一个轻量级的元提示（Meta-Prompting）、上下文工程（Context Engineering）和规范驱动开发（Spec-Driven Development）系统，由开发者 TÂCHES（Lex Christopherson）创建，专为 Claude Code、OpenCode、Gemini CLI、Copilot、Cursor、Windsurf 等 14+ 种 AI 编程运行时设计。

截至 2026 年 5 月，GitHub 仓库已获得 60,500+ Star，138+ 贡献者，2,100+ 次提交，发布了 57 个版本，最新为 v1.41.0。

作者的理念："其他规范驱动工具是为 50 人工程组织设计的——sprint 仪式、story points、Jira 工作流。而我不是。我是一个想持续构建好东西的创意人。复杂在系统之中，不在你的工作流里。"

它的核心思路很朴素：不要把整个项目塞进一个会话。而是将项目拆成多个阶段，每个阶段在全新的 200K Token 上下文窗口中执行，主窗口只负责调度和汇总，始终保持在 30-40% 的低水位。

核心机制：三层上下文工程

GSD 之所以能解决上下文腐化，依赖三个关键设计：

1. 上下文隔离

每个子任务——研究、规划、执行、验证——都在独立的子代理上下文中运行。研究者拿到项目背景，规划者拿到研究结论，执行者拿到具体计划。每个代理只需知道自己该知道的，不会被无关节细节干扰。

2. 结构化持久化工件

GSD 在文件系统上维护一套完整的工作品，不会因关闭会话而丢失：

文件	作用
`PROJECT.md`	项目愿景与目标
`REQUIREMENTS.md`	需求规格与追踪矩阵
`ROADMAP.md`	路线图与里程碑规划
`STATE.md`	当前进度与决策状态
`CONTEXT.md`	每阶段的实现决策（跨会话持久化）

这套文件系统的意义在于：它不是"一次性指令"，而是持续积累的项目记忆。下次打开 Claude Code 时，AI 读取这些文件就能知道上次做到了哪一步、做了哪些决策。

3. 验证闭环

代码"能跑"不等于"能工作"。GSD 的验证步骤遍历构建成果，用专用的调试代理诊断失败情况，在"阶段完成"前生成修复计划，形成真正的闭环。

六命令核心工作流

GSD 将开发流程拆解为六个命令，每个命令对应一个独立阶段：

/gsd-new-project       → 初始化：提问 → 研究 → 需求 → 路线图
/gsd-discuss-phase N   → 讨论：锁定实现决策，生成 CONTEXT.md
/gsd-plan-phase N      → 规划：研究 + 计划 + 验证循环
/gsd-execute-phase N   → 执行：计划按并行波次执行，原子提交
/gsd-verify-work N     → 验证：人工 UAT，调试代理诊断
/gsd-ship N            → 交付：创建 PR，准备发布

/gsd-new-project：从想法到路线图

这个命令是整个流程的起点。它会向你提问——项目目标、技术栈偏好、功能范围——然后启动 4 个并行研究代理分别调研技术栈、功能、架构和风险，最后生成 PROJECT.md、REQUIREMENTS.md、ROADMAP.md 和 STATE.md。

/gsd-discuss-phase N：锁定决策

在写任何代码之前，先明确"我们到底要做什么"。这个阶段产出 CONTEXT.md，记录每个实现决策的上下文和理由，避免后续阶段在同一个问题上反复纠结。

/gsd-plan-phase N：研究 + 计划 + 验证

这是 GSD 最复杂的阶段，涉及多层子代理编排：

Phase Researcher (×4 并行)
  ├── 技术栈研究员
  ├── 功能研究员
  ├── 架构研究员
  └── 风险研究员
        │
  ┌─────▼──────┐
  │ RESEARCH.md │
  └─────┬──────┘
        │
  ┌─────▼──────┐
  │   规划器    │ ← 读取 PROJECT, REQUIREMENTS, CONTEXT, RESEARCH
  └─────┬──────┘
        │
  ┌─────▼──────┐     ┌──────────┐
  │ 规划检查器  │────▶│   通过?   │
  └─────────────┘     └────┬─────┘
                      Yes/No (最多 3 次迭代)

规划器基于研究结果生成 XML 格式的原子化任务计划，规划检查器验证计划的完整性和一致性，最多迭代 3 次直到通过。

/gsd-execute-phase N：波次执行

执行阶段是 GSD 上下文工程的精髓。计划被分组为"波次"（Waves），无依赖的计划并行执行，有依赖的按序执行。

# 每个计划文件头部用 YAML frontmatter 声明波次与依赖
wave: 2
depends_on: ["03-01", "03-03"]

每个执行器在自己的独立子代理上下文中运行，完成后自动生成 NN-XX-SUMMARY.md 总结和原子 Git 提交。如果某个任务出错，可以精确定位到那次 commit 并用 git bisect 排查。

/gsd-verify-work N：人工验收

代码写完了，但这一步不能跳过。你需要人工测试，确认功能确实按预期工作。如有问题，GSD 的调试代理会自动分析失败原因并生成修复计划。

/gsd-ship N：交付

验证通过后，直接从阶段工作品创建 PR，准备合并。GSD 还会检查合并后的构建和测试是否通过。

波次执行引擎

波次执行是 GSD v1.40 后的核心能力，理解它才能真正用好 GSD：

/gsd-execute-phase N
    │
    ├── 波次 1（无依赖）
    │     ├── 执行器 A  ──▶ 原子提交
    │     └── 执行器 B  ──▶ 原子提交
    │           │
    ├── 波次 2（依赖波次 1 的输出）
    │     └── 执行器 C  ──▶ 原子提交
    │           │
    └── 验证器 → 对照 REQUIREMENTS.md 检查

关键优势：

并行最大化：只要两个任务不冲突，它们就同时跑。你不需要人为判断哪些可以并行——规划器在生成计划时已经标注了依赖关系。
原子回滚：每个任务一个 commit，出问题可以精确回退，不波及其他修改。
主上下文不膨胀：所有繁重工作都在子代理的独立窗口中完成，主调度器始终保持轻量。

v1.40 的三大跃升

Minimal Install Profile

npx get-shit-done-cc --minimal

仅安装 6 个核心技能（new-project、discuss-phase、plan-phase、execute-phase、help、update），系统提示开销从 ~12,000 Token 骤降至 ~700 Token（94% 降幅）。这对 32K-128K 上下文的本地模型或按 Token 计费的 API 来说意义重大。

技能整合：86 → 59

v1.39-v1.40 期间，通过引入 4 个分组技能（capture、phase、config、workspace）和 6 个带 flag 的父技能，将技能总数从 86 缩减到 59，零功能损失。

命名空间路由

引入 6 个命名空间元技能作为分层入口：

命名空间	路由	指向
Phase Pipeline	`/gsd-ns-workflow`	discuss, plan, execute, verify, phase, progress
Project Lifecycle	`/gsd-ns-project`	milestones, audits, summary
Quality Gates	`/gsd-ns-review`	code review, debug, audit, security, eval, UI
Codebase Intelligence	`/gsd-ns-context`	map, graphify, docs, learnings
Management	`/gsd-ns-manage`	config, workspace, workstreams, thread, update, ship
Exploration	`/gsd-ns-ideate`	explore, sketch, spike, spec, capture

技能列表的 Token 成本从 ~2,150 降至 ~120 Token。每个具体技能仍然可以直接调用，命名空间只为模型的"发现层"服务。

模型配置：按角色分配合适的算力

GSD 允许你按代理角色独立配置模型层级（Quality / Balanced / Budget）：

代理	Quality	Balanced	Budget
gsd-planner	Opus	Opus	Sonnet
gsd-executor	Opus	Sonnet	Sonnet
gsd-phase-researcher	Opus	Sonnet	Haiku
gsd-debugger	Opus	Sonnet	Sonnet
gsd-verifier	Sonnet	Sonnet	Haiku
gsd-plan-checker	Sonnet	Sonnet	Haiku

这意味着你可以在规划阶段用最强的推理模型，在批量研究阶段用更便宜的模型，最大化性价比。

安装与上手

# 初始化项目
npx get-shit-done-cc@latest

# 最小化安装（推荐本地模型或低预算场景）
npx get-shit-done-cc --minimal

# 更新到最新版本
/gsd-update

初始化后，在 Claude Code 中运行 /gsd-new-project 即可开始。

GSD 支持 14+ 种运行时：Claude Code、OpenCode、Gemini CLI、Kilo Code、Codex、Copilot、Cursor、Windsurf、Antigravity、Augment、Trae、CodeBuddy、Cline、Qwen Code。

与 Superpowers、OpenSpec 的对比

这三个工具常常被放在一起比较，但它们解决的是不同层面的问题：

维度	GSD	Superpowers	OpenSpec
定位	上下文工程 + 执行编排	工程纪律 + TDD 流程	规范定义 + 变更管理
核心问题	上下文腐化	AI 随意写码	需求不清晰
工作流	6 命令：讨论→计划→执行→验证→交付	7 阶段：头脑风暴→计划→TDD→审查→完成	OPSX 动作系统：新建→快速搭架→应用→验证→归档
执行模型	波次并行 + 子代理	子代理 + 两阶段 Review	变更隔离文件夹
强项	长链路项目不跑偏	强制工程纪律	已有代码库改造
短板	Token 消耗大	小任务流程过重	绿地项目上手路径不同
Star	60.5K+	14K+	24.9K+
运行时	14+ 种	Claude Code + Copilot CLI 等	20+ 种

社区实践中的一个共识是：它们不是互斥的，而是互补的。

一个典型的分层组合：

决策层 → gstack（想清楚做什么、该不该做）
上下文层 → GSD（规格和状态锚定，防止长链漂移）
执行层 → Superpowers（规划→TDD→验收闭环）

精炼公式：gstack thinks, GSD stabilizes, Superpowers executes.

什么时候该选 GSD

适合的场景：

做一个 0→1 的完整功能或项目，涉及多个阶段的实现
你的项目代码量大，单个会话塞不下，AI 经常"失忆"
需要多人协作但想要统一的开发流程和状态追踪
你切换 AI 工具比较频繁，需要在不同运行时之间保持一致的工作品
在意 Token 成本，想用 Budget 模式在非关键环节省钱

不太适合的场景：

修改两行配置或修个小 Bug——杀鸡用牛刀
你的上下文窗口本身就很小（32K 以下），标准模式装不下（可考虑 --minimal）
你偏好"感觉流"即兴编程，不想被流程约束
项目已经有成熟的工作流，强行嫁接会徒增复杂度

总结

GSD 的核心思想简单而有效：不要把所有东西塞进一个会话。通过将开发流程拆解为讨论→计划→波次执行→验证→交付六个独立阶段，每个阶段运行在全新的上下文窗口中，GSD 从根本上解决了 AI 编码的上下文腐化问题。

v1.40 的 Minimal Install Profile、技能整合和命名空间路由进一步降低了使用门槛和 Token 成本。配合波次执行引擎，GSD 让一个复杂项目的实现变成"清晰的阶段 + 并行的波次 + 原子化的提交"，而不是一个越聊越乱的单一会话。

如果你正在做一个需要多轮 AI 协作的复杂项目，GSD 值得一试。

参考资料

GSD GitHub 仓库 — 项目源码与文档
GSD 用户指南 — 详细使用说明
GSD 中文 README — 中文文档
GSD 2（第二代独立代理 CLI） — 基于 Pi SDK 的下一代演进版本
Superpowers vs GSD 深度对比 — 工程派 vs 产品派
Claude Code 工作流工具选型指南 — OpenSpec、GSD、Superpowers 等六工具全面对比