tools: add quant-bench for profiling raw kernel performance

2026-02-08 22:37:37 +05:30 · 2026-02-08 22:37:37 +05:30 · 05dfc18d55
parent 22cae83218
commit 05dfc18d55
2 changed files with 268 additions and 1 deletions
--- a/tools/llama-bench/CMakeLists.txt
+++ b/tools/llama-bench/CMakeLists.txt
@ -3,6 +3,11 @@ add_executable(${TARGET} llama-bench.cpp)
 target_link_libraries(${TARGET} PRIVATE common llama ${CMAKE_THREAD_LIBS_INIT})
 target_compile_features(${TARGET} PRIVATE cxx_std_17)
 set(TARGET_QUANT quant-bench)
 add_executable(${TARGET_QUANT} quant-bench.cpp)
 target_link_libraries(${TARGET_QUANT} PRIVATE common llama ${CMAKE_THREAD_LIBS_INIT})
 target_compile_features(${TARGET_QUANT} PRIVATE cxx_std_17)
 if(LLAMA_TOOLS_INSTALL)
-    install(TARGETS ${TARGET} RUNTIME)
+    install(TARGETS ${TARGET} ${TARGET_QUANT} RUNTIME)
 endif()
--- a/tools/llama-bench/quant-bench.cpp
+++ b/tools/llama-bench/quant-bench.cpp
@ -0,0 +1,262 @@
 #include "ggml.h"
 #include "ggml-backend.h"
 #include "ggml-alloc.h"
 #include "common.h"
 #include <vector>
 #include <string>
 #include <cstdio>
 #include <chrono>
 #include <map>
 #include <cmath>
 #include <algorithm>
 #include <thread>
 #include <memory>
 #include <cstring>
 // Smart pointers for RAII cleanup
 struct ggml_context_deleter {
    void operator()(ggml_context * ctx) { ggml_free(ctx); }
 };
 using ggml_context_ptr = std::unique_ptr<ggml_context, ggml_context_deleter>;
 struct ggml_backend_buffer_deleter {
    void operator()(ggml_backend_buffer_t buf) { ggml_backend_buffer_free(buf); }
 };
 using ggml_backend_buffer_ptr = std::unique_ptr<struct ggml_backend_buffer, ggml_backend_buffer_deleter>;
 struct ggml_backend_deleter {
    void operator()(ggml_backend_t backend) { ggml_backend_free(backend); }
 };
 using ggml_backend_ptr = std::unique_ptr<struct ggml_backend, ggml_backend_deleter>;
 // Utils
 static uint64_t get_time_ns() {
    using clock = std::chrono::high_resolution_clock;
    return std::chrono::nanoseconds(clock::now().time_since_epoch()).count();
 }
 struct BenchmarkParams {
    int64_t m = 4096;
    int64_t k = 14336;
    int64_t n_prefill = 512;
    int64_t n_decode = 1;
    int reps = 5;
    bool verbose = false;
    std::string device_arg = "auto";
 };
 static void print_usage(const char * argv0) {
    printf("usage: %s [options]\n", argv0);
    printf("\n");
    printf("options:\n");
    printf("  -h, --help            show this help message and exit\n");
    printf("  -v, --verbose         verbose output\n");
    printf("  -d, --device <dev>    device ID (int) or name (str) to use (default: auto)\n");
    printf("\n");
 }
 static void run_benchmark(ggml_backend_t backend, const BenchmarkParams & params, ggml_type type_a, const std::string & phase_name, int64_t n) {
    if (params.verbose) {
        printf("Benchmarking %s %s: m=%ld n=%ld k=%ld\n", phase_name.c_str(), ggml_type_name(type_a), params.m, n, params.k);
    }
    // Init context
    size_t ctx_size = ggml_tensor_overhead() * 16 + ggml_graph_overhead();
    struct ggml_init_params init_params = {
        /*.mem_size   =*/ ctx_size,
        /*.mem_base   =*/ NULL,
        /*.no_alloc   =*/ true,
    };
    ggml_context_ptr ctx(ggml_init(init_params));
    // Create tensors
    // A: Weight matrix (Quantized) [k, m]
    // B: Input matrix [k, n]
    struct ggml_tensor * a = ggml_new_tensor_2d(ctx.get(), type_a, params.k, params.m);
    struct ggml_tensor * b = ggml_new_tensor_2d(ctx.get(), GGML_TYPE_F32, params.k, n);
    // Check support
    if (!ggml_backend_supports_op(backend, a) || !ggml_backend_supports_op(backend, b)) {
        if (params.verbose) printf("Backend does not support input tensors for %s\n", ggml_type_name(type_a));
        return;
    }
    // Build graph: C = A * B
    struct ggml_tensor * c = ggml_mul_mat(ctx.get(), a, b);
    if (!ggml_backend_supports_op(backend, c)) {
        if (params.verbose) printf("Backend does not support MUL_MAT for %s\n", ggml_type_name(type_a));
        return;
    }
    struct ggml_cgraph * gf = ggml_new_graph(ctx.get());
    ggml_build_forward_expand(gf, c);
    // Allocate memory
    ggml_backend_buffer_ptr buffer(ggml_backend_alloc_ctx_tensors(ctx.get(), backend));
    if (!buffer) {
        printf("Failed to allocate memory\n");
        return;
    }
    // Warmup
    ggml_backend_graph_compute(backend, gf);
    // Run benchmark
    uint64_t t_start = get_time_ns();
    for (int i = 0; i < params.reps; i++) {
        ggml_backend_graph_compute(backend, gf);
    }
    uint64_t t_end = get_time_ns();
    double t_ns = (double)(t_end - t_start) / params.reps;
    double t_us = t_ns / 1000.0;
    // Stats
    // TOPS: 2*m*n*k
    double ops = 2.0 * params.m * n * params.k;
    double tops = (ops / t_ns) * 1e9 / 1e12; // TOPS
    // Print Row
    if (n > 1) {
        // Prompt Processing: Bandwidth is less relevant, compute bound
        printf("| %-10s | %10.2f | %10.2f |\n", 
               ggml_type_name(type_a), t_us, tops);
    } else {
        // Token Generation: Bandwidth is critical
        // Bandwidth: Size(A) + Size(B) + Size(C)
        size_t size_a = ggml_nbytes(a);
        size_t size_b = ggml_nbytes(b);
        size_t size_c = ggml_nbytes(c);
        size_t total_bytes = size_a + size_b + size_c;
        double gb_s = (double)total_bytes / t_ns; // GB/s
        printf("| %-10s | %10.2f | %10.2f | %10.2f |\n", 
               ggml_type_name(type_a), t_us, tops, gb_s);
    }
 }
 int main(int argc, char ** argv) {
    BenchmarkParams params;
    // Parse args
    for (int i = 1; i < argc; i++) {
        std::string arg = argv[i];
        if (arg == "-h" || arg == "--help") {
            print_usage(argv[0]);
            return 0;
        } else if (arg == "-v" || arg == "--verbose") {
            params.verbose = true;
        } else if (arg == "-d" || arg == "--device") {
            if (++i >= argc) {
                fprintf(stderr, "error: missing argument for %s\n", arg.c_str());
                return 1;
            }
            params.device_arg = argv[i];
        } else {
            fprintf(stderr, "error: unknown argument: %s\n", arg.c_str());
            print_usage(argv[0]);
            return 1;
        }
    }
    ggml_backend_load_all();
    // Pick backend
    ggml_backend_ptr backend_ptr;
    if (params.device_arg != "auto") {
        // Try to parse as integer index
        try {
            int id = std::stoi(params.device_arg);
            if (id >= 0 && id < (int)ggml_backend_dev_count()) {
                ggml_backend_dev_t dev = ggml_backend_dev_get(id);
                printf("Using device %d: %s\n", id, ggml_backend_dev_name(dev));
                backend_ptr.reset(ggml_backend_dev_init(dev, NULL));
            }
        } catch (...) {
            // Not a number, try name lookup
        }
        if (!backend_ptr) {
            // Try by name
            ggml_backend_dev_t dev = ggml_backend_dev_by_name(params.device_arg.c_str());
            if (dev) {
                printf("Using device: %s\n", ggml_backend_dev_name(dev));
                backend_ptr.reset(ggml_backend_dev_init(dev, NULL));
            } else {
                fprintf(stderr, "error: device '%s' not found\n", params.device_arg.c_str());
                fprintf(stderr, "Available devices:\n");
                for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
                    ggml_backend_dev_t d = ggml_backend_dev_get(i);
                    fprintf(stderr, "  %zu: %s\n", i, ggml_backend_dev_name(d));
                }
                return 1;
            }
        }
    } else {
        // Auto-detect: Prioritize GPU
        if (ggml_backend_dev_count() > 0) {
            for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
                ggml_backend_dev_t dev = ggml_backend_dev_get(i);
                if (ggml_backend_dev_type(dev) == GGML_BACKEND_DEVICE_TYPE_GPU) {
                    printf("Using auto-detected device %zu: %s\n", i, ggml_backend_dev_name(dev));
                    backend_ptr.reset(ggml_backend_dev_init(dev, NULL));
                    break;
                }
            }
        }
    }
    // Fallback to CPU
    if (!backend_ptr) {
        backend_ptr.reset(ggml_backend_init_by_name("CPU", NULL));
        if (!backend_ptr) {
             // Try fetching CPU backend by index if name fails (fallback)
             for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
                ggml_backend_dev_t dev = ggml_backend_dev_get(i);
                if (ggml_backend_dev_type(dev) == GGML_BACKEND_DEVICE_TYPE_CPU) {
                    backend_ptr.reset(ggml_backend_dev_init(dev, NULL));
                    break;
                }
             }
        }
        printf("Using backend: CPU\n");
    }
    if (!backend_ptr) {
        fprintf(stderr, "error: failed to initialize backend\n");
        return 1;
    }
    // Quant types to test
    std::vector<ggml_type> quants = {
        GGML_TYPE_Q4_0, GGML_TYPE_Q4_K, 
        GGML_TYPE_Q5_0, GGML_TYPE_Q5_K,
        GGML_TYPE_Q6_K,
        GGML_TYPE_Q8_0,
        GGML_TYPE_IQ2_XXS, GGML_TYPE_IQ2_XS, GGML_TYPE_IQ2_S,
        GGML_TYPE_IQ3_XXS, GGML_TYPE_IQ3_S,
        GGML_TYPE_IQ4_NL, GGML_TYPE_IQ4_XS,
        GGML_TYPE_MXFP4
    };
    printf("\n=== Prompt Processing (Prefill) Phase (Batch Size = %ld) ===\n", params.n_prefill);
    printf("| %-10s | %-10s | %-10s |\n", "Quant", "Time (us)", "TOPS");
    printf("|-%-10s-|-%-10s-|-%-10s-|\n", "----------", "----------", "----------");
    for (auto type : quants) {
        run_benchmark(backend_ptr.get(), params, type, "Prefill", params.n_prefill);
    }
    printf("\n=== Token Generation (Decoding) Phase (Batch Size = %ld) ===\n", params.n_decode);
    printf("| %-10s | %-10s | %-10s | %-10s |\n", "Quant", "Time (us)", "TOPS", "Eff. BW (GB/s)");
    printf("|-%-10s-|-%-10s-|-%-10s-|-%-14s-|\n", "----------", "----------", "----------", "--------------");
    for (auto type : quants) {
        run_benchmark(backend_ptr.get(), params, type, "Decoding", params.n_decode);
    }
    return 0;
 }