Add VaetkiVisionModel mmproj converter with Rice ViT support

2026-01-11 01:06:22 +09:00 · 2026-01-11 01:06:22 +09:00 · 025ce711b6
parent 96294c6ad9
commit 025ce711b6
3 changed files with 82 additions and 0 deletions
--- a/convert_hf_to_gguf.py
+++ b/convert_hf_to_gguf.py
@ -7909,6 +7909,86 @@ class VaetkiModel(TextModel):
                raise ValueError(f"Unprocessed experts: {experts}")


+@ModelBase.register("VaetkiVisionModel", "VaetkiVLForCausalLM")
+class VaetkiVisionModel(MmprojModel):
+    """VAETKI Vision Model (mmproj) - Rice ViT with CLS token and 2D RoPE"""
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        assert self.hparams_vision is not None
+        # Remap vision config parameters to standard names
+        self.hparams_vision["num_attention_heads"] = self.hparams_vision.get("num_heads")
+        self.hparams_vision["num_hidden_layers"] = self.hparams_vision.get("depth")
+        if "embed_dim" in self.hparams_vision:
+            self.hparams_vision["hidden_size"] = self.hparams_vision.get("embed_dim")
+        if "image_size" not in self.hparams_vision:
+            self.hparams_vision["image_size"] = self.preprocessor_config.get("size", {}).get("shortest_edge", 560)
+
+    def set_gguf_parameters(self):
+        super().set_gguf_parameters()
+        assert self.hparams_vision is not None
+        hparams = self.hparams_vision
+
+        # VAETKI projector type - routes to vaetki.cpp graph builder
+        self.gguf_writer.add_clip_projector_type(gguf.VisionProjectorType.VAETKI)
+        self.gguf_writer.add_vision_attention_layernorm_eps(hparams.get("layer_norm_eps", 1e-5))
+        self.gguf_writer.add_vision_spatial_merge_size(hparams.get("spatial_merge_size", 2))
+
+    def tensor_force_quant(self, name, new_name, bid, n_dims):
+        if "class_pos_embd" in new_name:
+            return gguf.GGMLQuantizationType.F32
+        return super().tensor_force_quant(name, new_name, bid, n_dims)
+
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        del bid  # unused
+
+        # Only process vision tensors
+        if not (name.startswith("model.visual.") or name.startswith("visual.")):
+            return []
+
+        # Handle merger tensors with special index mapping
+        # clip.cpp PROJECTOR_TYPE_VAETKI expects:
+        #   mm.model.mlp.0.* -> ln_q (pre-norm)
+        #   mm.model.mlp.1.* -> mlp.0 (up projection)
+        #   mm.model.mlp.3.* -> mlp.2 (down projection)
+        if "merger.ln_q" in name:
+            # ln_q -> mm.model.mlp.0 (used as norm in vaetki.cpp)
+            suffix = "weight" if name.endswith(".weight") else "bias"
+            return [(f"mm.model.mlp.0.{suffix}", data_torch)]
+        elif "merger.mlp.0" in name:
+            # mlp.0 -> mm.model.mlp.1 (up projection)
+            suffix = "weight" if name.endswith(".weight") else "bias"
+            return [(f"mm.model.mlp.1.{suffix}", data_torch)]
+        elif "merger.mlp.2" in name:
+            # mlp.2 -> mm.model.mlp.3 (down projection)
+            suffix = "weight" if name.endswith(".weight") else "bias"
+            return [(f"mm.model.mlp.3.{suffix}", data_torch)]
+
+        # Handle class_embedding and class_pos_emb (keep model.visual. prefix for mapping)
+        if "class_embedding" in name or "class_pos_emb" in name:
+            return [(self.map_tensor_name(name), data_torch)]
+
+        # Strip model.visual. -> visual. for other tensors
+        if name.startswith("model.visual."):
+            name = name.replace("model.visual.", "visual.")
+
+        # Split fused QKV tensors
+        if ".qkv." in name:
+            if data_torch.ndim == 2:
+                c3, _ = data_torch.shape
+            else:
+                c3 = data_torch.shape[0]
+            assert c3 % 3 == 0
+            c = c3 // 3
+            return [
+                (self.map_tensor_name(name.replace("qkv", "q")), data_torch[:c]),
+                (self.map_tensor_name(name.replace("qkv", "k")), data_torch[c:c*2]),
+                (self.map_tensor_name(name.replace("qkv", "v")), data_torch[c*2:]),
+            ]
+
+        return [(self.map_tensor_name(name), data_torch)]
+
+
@ModelBase.register("MiniMaxM2ForCausalLM")
 class MiniMaxM2Model(TextModel):
    model_arch = gguf.MODEL_ARCH.MINIMAXM2
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@ -3650,6 +3650,7 @@ class VisionProjectorType:
    MUSIC_FLAMINGO = "musicflamingo" # audio
    GLM4V = "glm4v"
    YOUTUVL = "youtuvl"
+    VAETKI = "vaetki"


 # Items here are (block size, type size)
--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@ -1471,6 +1471,7 @@ class TensorNameMap:
            "vision_tower.ln_pre", # pixtral-hf
            "vision_encoder.ln_pre", # pixtral
            "vision_model.layernorm_pre", # llama4
+            "visual.pre_layernorm", # vaetki
        ),

        MODEL_TENSOR.V_POST_NORM: (