llama.cpp

History

Molly Sophia ee7136c6d1 llama: add support for QRWKV6 model architecture (#11001 ) llama: add support for QRWKV6 model architecture (#11001) * WIP: Add support for RWKV6Qwen2 Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * RWKV: Some graph simplification Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Add support for RWKV6Qwen2 with cpu and cuda GLA Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * RWKV6[QWEN2]: Concat lerp weights together to reduce cpu overhead Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix some typos Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * code format changes Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix wkv test & add gla test Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Fix cuda warning Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Update README.md Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * Update ggml/src/ggml-cuda/gla.cu Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> * Fix fused lerp weights loading with RWKV6 Signed-off-by: Molly Sophia <mollysophia379@gmail.com> * better sanity check skipping for QRWKV6 in llama-quant thanks @compilade Signed-off-by: Molly Sophia <mollysophia379@gmail.com> Co-authored-by: compilade <git@compilade.net> --------- Signed-off-by: Molly Sophia <mollysophia379@gmail.com> Co-authored-by: Georgi Gerganov <ggerganov@gmail.com> Co-authored-by: compilade <git@compilade.net>		2025-01-10 09:58:08 +08:00
..
ggml-alloc.h	ggml : fix typo in example usage ggml_gallocr_new (ggml/984)	2024-10-04 18:50:05 +03:00
ggml-backend.h	ggml: load all backends from a user-provided search path (#10699 )	2024-12-11 01:47:21 +01:00
ggml-blas.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-cann.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-cpp.h	GGUF: C++ refactor, backend support, misc fixes (#11030 )	2025-01-07 18:01:58 +01:00
ggml-cpu.h	ggml : refactor online repacking (#10446 )	2024-12-07 14:37:50 +02:00
ggml-cuda.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-kompute.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-metal.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-opencl.h	Introducing experimental OpenCL backend with support for Qualcomm Adreno GPUs (#10693 )	2024-12-13 12:23:52 -08:00
ggml-opt.h	ggml: new optimization interface (ggml/988)	2024-11-17 08:30:29 +02:00
ggml-rpc.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-sycl.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml-vulkan.h	ggml : build backends as libraries (#10256 )	2024-11-14 18:04:35 +01:00
ggml.h	llama: add support for QRWKV6 model architecture (#11001 )	2025-01-10 09:58:08 +08:00
gguf.h	GGUF: C++ refactor, backend support, misc fixes (#11030 )	2025-01-07 18:01:58 +01:00