.buildkite/test_areas/spec_decode.yaml

group: Spec Decode
depends_on:
  - image-build
steps:
- label: Spec Decode Eagle
  timeout_in_minutes: 30
  device: h200_18gb
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "eagle_correctness"

- label: Spec Decode Eagle Nightly B200
  timeout_in_minutes: 30
  device: b200
  optional: true
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "eagle_correctness"

- label: Spec Decode Speculators + MTP
  timeout_in_minutes: 30
  device: h200_18gb
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - vllm/transformers_utils/configs/speculators/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "speculators or mtp_correctness"

- label: Spec Decode Speculators + MTP Nightly B200
  timeout_in_minutes: 30
  device: b200
  optional: true
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - vllm/transformers_utils/configs/speculators/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "speculators or mtp_correctness"
  
- label: Spec Decode Ngram + Suffix
  timeout_in_minutes: 30
  device: h200_18gb
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "ngram or suffix"

- label: Spec Decode Draft Model
  timeout_in_minutes: 30
  device: h200_18gb
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "draft_model or no_sync or batch_inference"

- label: Spec Decode Draft Model Nightly B200
  timeout_in_minutes: 30
  device: b200
  optional: true
  source_file_dependencies:
    - vllm/v1/spec_decode/
    - vllm/v1/worker/gpu/spec_decode/
    - tests/v1/e2e/spec_decode/
  commands:
    - pytest -v -s v1/e2e/spec_decode -k "draft_model or no_sync or batch_inference"
[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`group: Spec Decode`
			`depends_on:`
			`- image-build`
			`steps:`
			`- label: Spec Decode Eagle`
			`timeout_in_minutes: 30`
[ci] Switch some CI jobs to H200 MIG slices (#38956) 2026-04-05 13:26:11 -07:00			`device: h200_18gb`
[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "eagle_correctness"`

Add nightly b200 test for spec decode eagle correctness (#38577) Signed-off-by: Rishi Puri <riship@nvidia.com> 2026-04-09 13:09:09 -07:00			`- label: Spec Decode Eagle Nightly B200`
			`timeout_in_minutes: 30`
			`device: b200`
			`optional: true`
			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "eagle_correctness"`

[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`- label: Spec Decode Speculators + MTP`
			`timeout_in_minutes: 30`
[ci] Switch some CI jobs to H200 MIG slices (#38956) 2026-04-05 13:26:11 -07:00			`device: h200_18gb`
[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- vllm/transformers_utils/configs/speculators/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "speculators or mtp_correctness"`

Add nightly b200 test for spec decode eagle correctness (#38577) Signed-off-by: Rishi Puri <riship@nvidia.com> 2026-04-09 13:09:09 -07:00			`- label: Spec Decode Speculators + MTP Nightly B200`
			`timeout_in_minutes: 30`
			`device: b200`
			`optional: true`
			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- vllm/transformers_utils/configs/speculators/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "speculators or mtp_correctness"`

[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`- label: Spec Decode Ngram + Suffix`
			`timeout_in_minutes: 30`
[ci] Switch some CI jobs to H200 MIG slices (#38956) 2026-04-05 13:26:11 -07:00			`device: h200_18gb`
[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "ngram or suffix"`

			`- label: Spec Decode Draft Model`
			`timeout_in_minutes: 30`
[ci] Switch some CI jobs to H200 MIG slices (#38956) 2026-04-05 13:26:11 -07:00			`device: h200_18gb`
[CI] Split V1 e2e + engine (1 GPU) into separate jobs (#36945) Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> 2026-03-13 14:16:02 -07:00			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "draft_model or no_sync or batch_inference"`
Add nightly b200 test for spec decode eagle correctness (#38577) Signed-off-by: Rishi Puri <riship@nvidia.com> 2026-04-09 13:09:09 -07:00
			`- label: Spec Decode Draft Model Nightly B200`
			`timeout_in_minutes: 30`
			`device: b200`
			`optional: true`
			`source_file_dependencies:`
			`- vllm/v1/spec_decode/`
			`- vllm/v1/worker/gpu/spec_decode/`
			`- tests/v1/e2e/spec_decode/`
			`commands:`
			`- pytest -v -s v1/e2e/spec_decode -k "draft_model or no_sync or batch_inference"`