Mark Saroufim msaroufim

## mini-sgl.md

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              0 stars
            
          
                msaroufim
                / mini-sgl.md
            
            
              Last active
              February 24, 2026 05:37
            
          
    Benchmarking

Offline

Each LLM can override:

Max sequence length
Extend tokens: amount of fresh compute; in decode, each step is usually 1 extend token
CUDA graph max batch size: static buffers are captured per batch size from 1 to max, so larger values increase startup time and memory usage

Online benchmarking


## eval.py
"""
Benchmark: hl.dot_scaled vs nvfp4_matmul vs torch._scaled_mm vs torch.matmul
=============================================================================
Compares:
  1. torch.matmul (fp16) — cuBLAS baseline
  2. torch._scaled_mm (e4m3) — PyTorch native FP8 scaled matmul
  3. hl.dot_scaled (fp16) — hardware tl.dot_scaled, fp16 format
  4. hl.dot_scaled (e4m3) — hardware tl.dot_scaled, FP8 format
  5. nvfp4_matmul (sw dequant) — existing helion example, software FP4

## llm-setup-gist.md

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              0 stars
            
          
                msaroufim
                / llm-setup-gist.md
            
            
              Created
              September 25, 2025 23:31
            
              
                Local LLM Service Setup with Qwen3, Ollama, Open WebUI, and Tailscale
              
          
    Local LLM Service Setup

1. Install Ollama

curl -fsSL https://ollama.com/install.sh | sh
2. Download Model

ollama pull qwen3:32b

  
## nvrtc_cubin.cpp
// Minimal NVRTC CUBIN generation example
// Compile: g++ -std=c++11 minimal_nvrtc_cubin.cpp -lnvrtc -lcuda -lcudart
// String -> cubin via nvrtc -> handle via the cuda driver API

#include <iostream>
#include <vector>
#include <nvrtc.h>
#include <cuda.h>

const char* kernelSource = R"(

## ptx_compile_kernel.py
import torch

# CUDA kernel with inline PTX
kernel_source = """
__global__ void vector_add(const float* a, const float* b, float* c, int n) {
    int idx;
    asm("mov.u32 %0, %%ctaid.x;" : "=r"(idx));
    int tid;
    asm("mov.u32 %0, %%tid.x;" : "=r"(tid));
    int ntid;

## gist:0e5ea7838e6e2f81a64b8ab475152c15
pytorch_operator,base_name,overload,folder_name,is_mapped
aten._adaptive_avg_pool2d.default,_adaptive_avg_pool2d,default,_adaptive_avg_pool2d,True
aten._adaptive_avg_pool2d_backward.default,_adaptive_avg_pool2d_backward,default,_adaptive_avg_pool2d_backward,True
aten._cudnn_rnn.default,_cudnn_rnn,default,_cudnn_rnn,True
aten._log_softmax.default,_log_softmax,default,_log_softmax,True
aten._log_softmax_backward_data.default,_log_softmax_backward_data,default,_log_softmax_backward_data,True
aten._softmax.default,_softmax,default,_softmax,True
aten._softmax_backward_data.default,_softmax_backward_data,default,_softmax_backward_data,True
aten._sparse_coo_tensor_with_dims_and_tensors.default,_sparse_coo_tensor_with_dims_and_tensors,default,_sparse_coo_tensor_with_dims_and_tensors,True
aten._to_copy.default,_to_copy,default,_to_copy,True

## gist:6a6e3cfeb725d3f731ae6e42bf88bcfb
diff --git a/torch/testing/_internal/common_methods_invocations.py b/torch/testing/_internal/common_methods_invocations.py
index 938cb7dd97a..d3ac1369e6a 100644
--- a/torch/testing/_internal/common_methods_invocations.py
+++ b/torch/testing/_internal/common_methods_invocations.py
@@ -7443,6 +7443,57 @@ def reference_inputs_clone_contiguous(op, device, dtype, requires_grad, **kwargs
     yield SampleInput(a, kwargs={'memory_format': torch.channels_last_3d})


+def sample_inputs_copy(op_info, device, dtype, requires_grad, **kwargs):
+    """Sample inputs for copy and copy_ operations.

## ops.csv

          
            op_name
            is_core
            is_in_opinfo
            is_in_torchbench

            
              __and__
              No
              No
              No

            
              __iand__
              No
              No
              No

            
              __ilshift__
              No
              No
              No

            
              __ior__
              No
              No
              No

            
              __irshift__
              No
              No
              No

            
              __ixor__
              No
              No
              No

            
              __lshift__
              No
              No
              No

            
              __or__
              No
              No
              No

            
              __rshift__
              No
              No
              No

## tp_dtensor.py
import torch
from torch import nn
from torch.distributed.tensor.placement_types import Replicate, Shard
import torch.distributed as dist
from torch.distributed.device_mesh import init_device_mesh
from torch.distributed.tensor import DTensor
from torch.distributed.tensor.parallel import parallelize_module


def dist_print(*args, **kwargs):

## gist:0a0452617d0eb08bf7c8a897a045f24e
import torch
from torch.utils.cpp_extension import _get_cuda_arch_flags

def test_fix():
    print("Testing CUDA arch flags fix...")

    user_arch_flags = ['-gencode=arch=compute_86,code=sm_86']
    result = _get_cuda_arch_flags(user_arch_flags)

    print(f"User provided: {user_arch_flags}")
	"""
	Benchmark: hl.dot_scaled vs nvfp4_matmul vs torch._scaled_mm vs torch.matmul
	=============================================================================
	Compares:
	1. torch.matmul (fp16) — cuBLAS baseline
	2. torch._scaled_mm (e4m3) — PyTorch native FP8 scaled matmul
	3. hl.dot_scaled (fp16) — hardware tl.dot_scaled, fp16 format
	4. hl.dot_scaled (e4m3) — hardware tl.dot_scaled, FP8 format
	5. nvfp4_matmul (sw dequant) — existing helion example, software FP4
	// Minimal NVRTC CUBIN generation example
	// Compile: g++ -std=c++11 minimal_nvrtc_cubin.cpp -lnvrtc -lcuda -lcudart
	// String -> cubin via nvrtc -> handle via the cuda driver API

	#include <iostream>
	#include <vector>
	#include <nvrtc.h>
	#include <cuda.h>

	const char* kernelSource = R"(
	import torch

	# CUDA kernel with inline PTX
	kernel_source = """
	__global__ void vector_add(const float* a, const float* b, float* c, int n) {
	int idx;
	asm("mov.u32 %0, %%ctaid.x;" : "=r"(idx));
	int tid;
	asm("mov.u32 %0, %%tid.x;" : "=r"(tid));
	int ntid;
	pytorch_operator,base_name,overload,folder_name,is_mapped
	aten._adaptive_avg_pool2d.default,_adaptive_avg_pool2d,default,_adaptive_avg_pool2d,True
	aten._adaptive_avg_pool2d_backward.default,_adaptive_avg_pool2d_backward,default,_adaptive_avg_pool2d_backward,True
	aten._cudnn_rnn.default,_cudnn_rnn,default,_cudnn_rnn,True
	aten._log_softmax.default,_log_softmax,default,_log_softmax,True
	aten._log_softmax_backward_data.default,_log_softmax_backward_data,default,_log_softmax_backward_data,True
	aten._softmax.default,_softmax,default,_softmax,True
	aten._softmax_backward_data.default,_softmax_backward_data,default,_softmax_backward_data,True
	aten._sparse_coo_tensor_with_dims_and_tensors.default,_sparse_coo_tensor_with_dims_and_tensors,default,_sparse_coo_tensor_with_dims_and_tensors,True
	aten._to_copy.default,_to_copy,default,_to_copy,True
	diff --git a/torch/testing/_internal/common_methods_invocations.py b/torch/testing/_internal/common_methods_invocations.py
	index 938cb7dd97a..d3ac1369e6a 100644
	--- a/torch/testing/_internal/common_methods_invocations.py
	+++ b/torch/testing/_internal/common_methods_invocations.py
	@@ -7443,6 +7443,57 @@ def reference_inputs_clone_contiguous(op, device, dtype, requires_grad, **kwargs
	yield SampleInput(a, kwargs={'memory_format': torch.channels_last_3d})


	+def sample_inputs_copy(op_info, device, dtype, requires_grad, **kwargs):
	+ """Sample inputs for copy and copy_ operations.
op_name	is_core	is_in_opinfo	is_in_torchbench
__and__	No	No	No
__iand__	No	No	No
__ilshift__	No	No	No
__ior__	No	No	No
__irshift__	No	No	No
__ixor__	No	No	No
__lshift__	No	No	No
__or__	No	No	No
__rshift__	No	No	No
	import torch
	from torch import nn
	from torch.distributed.tensor.placement_types import Replicate, Shard
	import torch.distributed as dist
	from torch.distributed.device_mesh import init_device_mesh
	from torch.distributed.tensor import DTensor
	from torch.distributed.tensor.parallel import parallelize_module


	def dist_print(args, *kwargs):
	import torch
	from torch.utils.cpp_extension import _get_cuda_arch_flags

	def test_fix():
	print("Testing CUDA arch flags fix...")

	user_arch_flags = ['-gencode=arch=compute_86,code=sm_86']
	result = _get_cuda_arch_flags(user_arch_flags)

	print(f"User provided: {user_arch_flags}")