feat: Model/Router server architecture WIP

2025-11-20 14:24:50 +01:00 · 2025-11-20 14:24:50 +01:00 · 55d33a8b8c
parent 919d3f8cbf
commit 55d33a8b8c
5 changed files with 186 additions and 1 deletions
--- a/tools/server/webui/src/app.d.ts
+++ b/tools/server/webui/src/app.d.ts
@ -12,9 +12,20 @@ import type {
 	ApiContextSizeError,
 	ApiErrorResponse,
 	ApiLlamaCppServerProps,
-	ApiProcessingState
+	ApiProcessingState,
 	ApiRouterModelMeta,
 	ApiRouterModelsLoadRequest,
 	ApiRouterModelsLoadResponse,
 	ApiRouterModelsStatusRequest,
 	ApiRouterModelsStatusResponse,
 	ApiRouterModelsListResponse,
 	ApiRouterModelsUnloadRequest,
 	ApiRouterModelsUnloadResponse
 } from '$lib/types/api';
 import { ServerMode } from '$lib/enums/server';
 import { ServerModelStatus } from '$lib/enums/model';
 import type {
 	ChatMessageType,
 	ChatRole,
@ -60,6 +71,16 @@ declare global {
 		ApiErrorResponse,
 		ApiLlamaCppServerProps,
 		ApiProcessingState,
 		ApiRouterModelMeta,
 		ApiRouterModelsLoadRequest,
 		ApiRouterModelsLoadResponse,
 		ApiRouterModelsStatusRequest,
 		ApiRouterModelsStatusResponse,
 		ApiRouterModelsListResponse,
 		ApiRouterModelsUnloadRequest,
 		ApiRouterModelsUnloadResponse,
 		ServerMode,
 		ServerModelStatus,
 		ChatMessageData,
 		ChatMessagePromptProgress,
 		ChatMessageSiblingInfo,
--- a/tools/server/webui/src/lib/enums/model.ts
+++ b/tools/server/webui/src/lib/enums/model.ts
@ -0,0 +1,9 @@
 /**
 * Model status enum - matches tools/server/server-models.h from C++ server
 */
 export enum ServerModelStatus {
 	UNLOADED = 'UNLOADED',
 	LOADING = 'LOADING',
 	LOADED = 'LOADED',
 	FAILED = 'FAILED'
 }
--- a/tools/server/webui/src/lib/enums/server.ts
+++ b/tools/server/webui/src/lib/enums/server.ts
@ -0,0 +1,9 @@
 /**
 * Server mode enum - used for single/multi-model mode
 */
 export enum ServerMode {
 	/** Single model mode - server running with a specific model loaded */
 	MODEL = 'MODEL',
 	/** Router mode - server managing multiple model instances */
 	ROUTER = 'ROUTER'
 }
--- a/tools/server/webui/src/lib/stores/server.svelte.ts
+++ b/tools/server/webui/src/lib/stores/server.svelte.ts
@ -2,6 +2,8 @@ import { browser } from '$app/environment';
 import { SERVER_PROPS_LOCALSTORAGE_KEY } from '$lib/constants/localstorage-keys';
 import { ChatService } from '$lib/services/chat';
 import { config } from '$lib/stores/settings.svelte';
 import { ServerMode } from '$lib/enums/server';
 import { updateConfig } from '$lib/stores/settings.svelte';
 /**
 * ServerStore - Server state management and capability detection
@ -52,6 +54,10 @@ class ServerStore {
 	private _error = $state<string | null>(null);
 	private _serverWarning = $state<string | null>(null);
 	private _slotsEndpointAvailable = $state<boolean | null>(null);
 	private _serverMode = $state<ServerMode | null>(null);
 	private _selectedModel = $state<string | null>(null);
 	private _availableModels = $state<ApiRouterModelMeta[]>([]);
 	private _modelLoadingStates = $state<Map<string, boolean>>(new Map());
 	private fetchServerPropsPromise: Promise<void> | null = null;
 	private readCachedServerProps(): ApiLlamaCppServerProps | null {
@ -135,6 +141,48 @@ class ServerStore {
 		return this._serverProps?.default_generation_settings?.params || null;
 	}
 	/**
 	 * Get current server mode
 	 */
 	get serverMode(): ServerMode | null {
 		return this._serverMode;
 	}
 	/**
 	 * Detect if server is running in router mode (multi-model management)
 	 */
 	get isRouterMode(): boolean {
 		return this._serverMode === ServerMode.ROUTER;
 	}
 	/**
 	 * Detect if server is running in model mode (single model loaded)
 	 */
 	get isModelMode(): boolean {
 		return this._serverMode === ServerMode.MODEL;
 	}
 	/**
 	 * Get currently selected model in router mode
 	 */
 	get selectedModel(): string | null {
 		return this._selectedModel;
 	}
 	/**
 	 * Get list of available models
 	 */
 	get availableModels(): ApiRouterModelMeta[] {
 		return this._availableModels;
 	}
 	/**
 	 * Check if a specific model is currently loading
 	 */
 	isModelLoading(modelName: string): boolean {
 		return this._modelLoadingStates.get(modelName) ?? false;
 	}
 	/**
 	 * Check if slots endpoint is available based on server properties and endpoint support
 	 */
@ -198,6 +246,21 @@ class ServerStore {
 				this.persistServerProps(props);
 				this._error = null;
 				this._serverWarning = null;
 				// Detect server mode based on model_path
 				if (props.model_path === 'none') {
 					this._serverMode = ServerMode.ROUTER;
 					console.info('Server running in ROUTER mode (multi-model management)');
 					// Auto-enable model selector in router mode
 					if (browser) {
 						updateConfig('modelSelectorEnabled', true);
 					}
 				} else {
 					this._serverMode = ServerMode.MODEL;
 					console.info('Server running in MODEL mode (single model)');
 				}
 				await this.checkSlotsEndpointAvailability();
 			} catch (error) {
 				if (isSilent && hadProps) {
@ -312,6 +375,10 @@ class ServerStore {
 		this._serverWarning = null;
 		this._loading = false;
 		this._slotsEndpointAvailable = null;
 		this._serverMode = null;
 		this._selectedModel = null;
 		this._availableModels = [];
 		this._modelLoadingStates.clear();
 		this.fetchServerPropsPromise = null;
 		this.persistServerProps(null);
 	}
@ -329,3 +396,10 @@ export const supportsVision = () => serverStore.supportsVision;
 export const supportsAudio = () => serverStore.supportsAudio;
 export const slotsEndpointAvailable = () => serverStore.slotsEndpointAvailable;
 export const serverDefaultParams = () => serverStore.serverDefaultParams;
 // Server mode exports
 export const serverMode = () => serverStore.serverMode;
 export const isRouterMode = () => serverStore.isRouterMode;
 export const isModelMode = () => serverStore.isModelMode;
 export const selectedModel = () => serverStore.selectedModel;
 export const availableModels = () => serverStore.availableModels;
--- a/tools/server/webui/src/lib/types/api.d.ts
+++ b/tools/server/webui/src/lib/types/api.d.ts
@ -1,3 +1,4 @@
 import type { ServerModelStatus } from '$lib/enums/model';
 import type { ChatMessagePromptProgress } from './chat';
 export interface ApiChatMessageContentPart {
@ -314,3 +315,74 @@ export interface ApiProcessingState {
 	promptTokens?: number;
 	cacheTokens?: number;
 }
 export interface ApiRouterModelMeta {
 	/** Model identifier (e.g., "unsloth/phi-4-GGUF:q4_k_m") */
 	name: string;
 	/** Path to model file or manifest */
 	path: string;
 	/** Optional path to multimodal projector */
 	path_mmproj?: string;
 	/** Whether model is in HuggingFace cache */
 	in_cache: boolean;
 	/** Port where model instance is running (0 if not loaded) */
 	port: number;
 	/** Current status of the model */
 	status: ServerModelStatus;
 	/** Error message if status is FAILED */
 	error?: string;
 }
 /**
 * Request to load a model
 */
 export interface ApiRouterModelsLoadRequest {
 	model: string;
 }
 /**
 * Response from loading a model
 */
 export interface ApiRouterModelsLoadResponse {
 	success: boolean;
 	error?: string;
 }
 /**
 * Request to check model status
 */
 export interface ApiRouterModelsStatusRequest {
 	model: string;
 }
 /**
 * Response with model status
 */
 export interface ApiRouterModelsStatusResponse {
 	model: string;
 	status: ModelStatus;
 	port?: number;
 	error?: string;
 }
 /**
 * Response with list of all models
 */
 export interface ApiRouterModelsListResponse {
 	models: ApiRouterModelMeta[];
 }
 /**
 * Request to unload a model
 */
 export interface ApiRouterModelsUnloadRequest {
 	model: string;
 }
 /**
 * Response from unloading a model
 */
 export interface ApiRouterModelsUnloadResponse {
 	success: boolean;
 	error?: string;
 }