yiliu30/eval_long_bench.sh

## eval_long_bench.sh
model_path="/dataset/auto-round/qwen_moe/"
taskname=gsm8k
taskname=longbench_hotpotqa
timestamp=$(date +%Y%m%d_%H%M%S)

model_path="/storage/yiliu7/meta-llama/Llama-3.1-8B-Instruct"
output_log_file_name="${taskname}_${timestamp}"
MAX_MODEL_LEN=40960
max_length=${MAX_MODEL_LEN}
taskname=gsm8k
taskname=longbench_hotpotqa
taskname=longbench2_govt_single
taskname=longbench
# taskname=longbench
# taskname=longbench
max_gen_toks=2048
EVAL_LOG_NAME="eval_${taskname}_${timestamp}"
mkdir -p benchmark_logs
# VLLM_ATTENTION_BACKEND=TORCH_SDPA \
VLLM_KERNEL_OVERRIDE_BATCH_INVARIANT=1 \
VLLM_ENABLE_V1_MULTIPROCESSING=0 \
VLLM_ALLREDUCE_USE_SYMM_MEM=0  NCCL_NVLS_ENABLE=0  \
HF_ALLOW_CODE_EVAL=1 \
lm_eval --model vllm \
    --tasks $taskname \
    --model_args pretrained=${model_path},trust_remote_code=True,dtype=bfloat16,max_model_len=${max_length},tensor_parallel_size=4,gpu_memory_utilization=0.75,enable_prefix_caching=False  \
    --confirm_run_unsafe_code \
    --seed 42 \
    --batch_size 128  \
    --apply_chat_template \
    --gen_kwargs '{"temperature":'0.0'}' \
    --output_path "benchmark_logs/$EVAL_LOG_NAME" \
    2>&1 | tee "benchmark_logs/${EVAL_LOG_NAME}.log"
	model_path="/dataset/auto-round/qwen_moe/"
	taskname=gsm8k
	taskname=longbench_hotpotqa
	timestamp=$(date +%Y%m%d_%H%M%S)

	model_path="/storage/yiliu7/meta-llama/Llama-3.1-8B-Instruct"
	output_log_file_name="${taskname}_${timestamp}"
	MAX_MODEL_LEN=40960
	max_length=${MAX_MODEL_LEN}
	taskname=gsm8k
	taskname=longbench_hotpotqa
	taskname=longbench2_govt_single
	taskname=longbench
	# taskname=longbench
	# taskname=longbench
	max_gen_toks=2048
	EVAL_LOG_NAME="eval_${taskname}_${timestamp}"
	mkdir -p benchmark_logs
	# VLLM_ATTENTION_BACKEND=TORCH_SDPA \
	VLLM_KERNEL_OVERRIDE_BATCH_INVARIANT=1 \
	VLLM_ENABLE_V1_MULTIPROCESSING=0 \
	VLLM_ALLREDUCE_USE_SYMM_MEM=0 NCCL_NVLS_ENABLE=0 \
	HF_ALLOW_CODE_EVAL=1 \
	lm_eval --model vllm \
	--tasks $taskname \
	--model_args pretrained=${model_path},trust_remote_code=True,dtype=bfloat16,max_model_len=${max_length},tensor_parallel_size=4,gpu_memory_utilization=0.75,enable_prefix_caching=False \
	--confirm_run_unsafe_code \
	--seed 42 \
	--batch_size 128 \
	--apply_chat_template \
	--gen_kwargs '{"temperature":'0.0'}' \
	--output_path "benchmark_logs/$EVAL_LOG_NAME" \
	2>&1 \| tee "benchmark_logs/${EVAL_LOG_NAME}.log"
No results found