gemma.cpp

History

Jan Wassenberg cf4d7ceb82 1.16x decode speedup: remove last MatVec in Attention Precompute row pointers. Remove no longer used MHA support; QStride -> qkv_dim. Remove RowPtr from MatMul interface, use only MatPtrT. Require opt-in define for NUQ to speed up builds. Also fix io.cc on Windows. PiperOrigin-RevId: 766228108		2025-06-02 09:40:29 -07:00
..
pytree	Add Python code for converting Griffin Orbax weights. Refs #301	2024-07-29 12:53:30 -07:00
BUILD.bazel	Minor: rename compression/shared -> types.h	2025-05-13 06:53:21 -07:00
compression_clif_aux.cc	1.31x batch prefill, 1.24x batch decode speedup: NUMA binding	2025-05-16 07:42:13 -07:00
compression_clif_aux.h	3.8x speedup of weights loading via preadv on Linux	2025-05-15 11:55:15 -07:00
compression_extension.cc	Minor: rename compression/shared -> types.h	2025-05-13 06:53:21 -07:00
compression_test.py	1.16x decode speedup: remove last MatVec in Attention	2025-06-02 09:40:29 -07:00
requirements.txt	Add python wrappers for configs and inference.	2025-01-28 08:22:03 -08:00