bwasti/invariance_test.py

## invariance_test.py
from vllm import LLM, SamplingParams

# Setup model (prefix caching disabled)
llm = LLM(model="Qwen/Qwen3-1.7B", enable_prefix_caching=False, dtype="bfloat16")
prompt = "Ok, this is an extremely long story. There once was a "
params = SamplingParams(temperature=0.6, max_tokens=256, logprobs=1, seed=42)

# Generate 256 tokens, extract token 256's logprob
out1 = llm.generate([prompt], params)
tokens = out1[0].outputs[0].token_ids
logprob1 = out1[0].outputs[0].logprobs[255][tokens[255]].logprob

# Prefill with first 255 tokens, generate token 256 again
prefill = prompt + llm.get_tokenizer().decode(tokens[:255])
out2 = llm.generate([prefill], SamplingParams(temperature=0.0, max_tokens=1, logprobs=1, seed=42))
logprob2 = out2[0].outputs[0].logprobs[0][out2[0].outputs[0].token_ids[0]].logprob

print(f"Logprob difference: {logprob1 - logprob2:.10f}")
	from vllm import LLM, SamplingParams

	# Setup model (prefix caching disabled)
	llm = LLM(model="Qwen/Qwen3-1.7B", enable_prefix_caching=False, dtype="bfloat16")
	prompt = "Ok, this is an extremely long story. There once was a "
	params = SamplingParams(temperature=0.6, max_tokens=256, logprobs=1, seed=42)

	# Generate 256 tokens, extract token 256's logprob
	out1 = llm.generate([prompt], params)
	tokens = out1[0].outputs[0].token_ids
	logprob1 = out1[0].outputs[0].logprobs[255][tokens[255]].logprob

	# Prefill with first 255 tokens, generate token 256 again
	prefill = prompt + llm.get_tokenizer().decode(tokens[:255])
	out2 = llm.generate([prefill], SamplingParams(temperature=0.0, max_tokens=1, logprobs=1, seed=42))
	logprob2 = out2[0].outputs[0].logprobs[0][out2[0].outputs[0].token_ids[0]].logprob

	print(f"Logprob difference: {logprob1 - logprob2:.10f}")
No results found