docs/ja-JP/skills/skill-comply

stars:0
forks:0
watches:0
last updated:N/A

skill-comply:自動化された遵守測定

コーディングエージェントがスキル、ルール、またはエージェント定義を実際に遵守しているかを以下の方法で測定する:

  1. 任意の .md ファイルから期待される動作シーケンス(仕様)を自動生成する
  2. プロンプトの厳格度が段階的に低下するシナリオを自動生成する(支持的 → 中立的 → 競合的)
  3. claude -p を実行し、stream-json 経由でツール呼び出しトレースを取得する
  4. 正規表現ではなくLLMを使用してツール呼び出しを仕様ステップに分類する
  5. 決定論的に時系列順を確認する
  6. 仕様、プロンプト、タイムラインを含む自己完結型レポートを生成する

サポートされるターゲット

  • スキルskills/*/SKILL.md):検索優先、TDDガイドなどのワークフロースキル
  • ルールrules/common/*.md):testing.md、security.md、git-workflow.md などの強制的なルール
  • エージェント定義agents/*.md):エージェントが期待される場面で呼び出されるか(内部ワークフロー検証は未サポート)

起動条件

  • ユーザーが /skill-comply <path> を実行する
  • ユーザーが「このルールは本当に遵守されているか?」と尋ねる
  • 新しいルール/スキルを追加した後、エージェントの遵守を確認する
  • 品質メンテナンスの一環として定期的に実行する

使い方

# Full run
uv run python -m scripts.run ~/.claude/rules/common/testing.md

# Dry run (no cost, spec + scenarios only)
uv run python -m scripts.run --dry-run ~/.claude/skills/search-first/SKILL.md

# Custom models
uv run python -m scripts.run --gen-model haiku --model sonnet <path>

重要なコンセプト:プロンプト独立性

プロンプトが明示的にサポートしていない場合でも、スキル/ルールが遵守されるかどうかを測定する。

レポートの内容

レポートは自己完結型で、以下を含む:

  1. 期待される動作シーケンス(自動生成された仕様)
  2. シナリオプロンプト(各厳格度レベルで尋ねる内容)
  3. 各シナリオの遵守スコア
  4. LLM分類ラベル付きのツール呼び出しタイムライン

高度な内容(オプション)

フックに精通したユーザー向けに、レポートには遵守率が低いステップに対するフック強化の推奨事項も含まれる。これは参考情報——主要な価値は遵守性自体の可視化にある。

    Good AI Tools