Internal change

PiperOrigin-RevId: 794620076
2025-08-13 09:47:05 -07:00 · 2025-08-13 09:47:05 -07:00 · d044801c1d
parent 71406cf6d0
commit d044801c1d
3 changed files with 37 additions and 0 deletions
--- a/gemma/configs.cc
+++ b/gemma/configs.cc
@ -471,6 +471,37 @@ static ModelConfig ConfigGemma3_27B() {
  return config;
 }
 static LayerConfig LayerConfigGemma3_270M_LM(size_t model_dim) {
  LayerConfig config;
  config.model_dim = model_dim;
  config.ff_hidden_dim = 2048;
  config.heads = 4;
  config.kv_heads = 1;
  config.qkv_dim = 256;
  config.optimized_gating = true;
  config.post_norm = PostNormType::Scale;
  config.use_qk_norm = true;
  return config;
 }
 static ModelConfig ConfigGemma3_270M() {
  ModelConfig config = ConfigBaseGemmaV3();
  config.display_name = "Gemma3_270M";
  config.model = Model::GEMMA3_270M;
  config.wrapping = PromptWrapping::GEMMA_IT;
  config.model_dim = 640;
  config.vocab_size = kGemmaV3VocabSize;  // new vocab size / tokenizer
  config.max_seq_len = 32 * 1024;
  LayerConfig layer_config = LayerConfigGemma3_270M_LM(config.model_dim);
  config.num_layers = 18;
  config.layer_configs = {config.num_layers, layer_config};
  config.query_scale = QueryScaleType::SqrtKeySize;
  // interleaved local / global attention
  config.attention_window_sizes = RepeatedAttentionWindowSizes<18, 6>(
      {512, 512, 512, 512, 512, config.max_seq_len});
  return config;
 }
 static ModelConfig ConfigFromModel(Model model) {
  switch (model) {
    case Model::GEMMA2_2B:
@ -499,6 +530,8 @@ static ModelConfig ConfigFromModel(Model model) {
      return ConfigGemma3_12B();
    case Model::GEMMA3_27B:
      return ConfigGemma3_27B();
    case Model::GEMMA3_270M:
      return ConfigGemma3_270M();
    default:
      HWY_ABORT("Model type %d unknown.", static_cast<int>(model));
  }
@ -534,6 +567,8 @@ const char* ModelPrefix(Model model) {
      return "gemma3-12b";
    case Model::GEMMA3_27B:
      return "gemma3-27b";
    case Model::GEMMA3_270M:
      return "gemma3-270m";
    default:
      HWY_ABORT("Model type %d unknown.", static_cast<int>(model));
  }
--- a/gemma/configs.h
+++ b/gemma/configs.h
@ -175,6 +175,7 @@ enum class Model {
  GEMMA3_1B,
  GEMMA3_12B,
  GEMMA3_27B,
  GEMMA3_270M,
  kSentinel,
 };
--- a/python/configs.cc
+++ b/python/configs.cc
@ -91,6 +91,7 @@ PYBIND11_MODULE(configs, py_module) {
      .value("PALIGEMMA2_10B_224", Model::PALIGEMMA2_10B_224)
      .value("PALIGEMMA2_3B_448", Model::PALIGEMMA2_3B_448)
      .value("PALIGEMMA2_10B_448", Model::PALIGEMMA2_10B_448)
      .value("GEMMA3_270M", Model::GEMMA3_270M)
  .value("PALIGEMMA_448", Model::PALIGEMMA_448);
  class_<TensorInfo>(py_module, "TensorInfo")