lightspeed-core · tisnik · Jan 26, 2026 · Jan 23, 2026 · tisnik · Jan 23, 2026
diff --git a/.github/workflows/e2e_tests.yaml b/.github/workflows/e2e_tests.yaml
@@ -110,6 +110,7 @@ jobs:
           grep -A 3 "llama_stack:" lightspeed-stack.yaml
 
       - name: Docker Login for quay access
+        if: matrix.mode == 'server'
         env:
           QUAY_ROBOT_USERNAME: ${{ secrets.QUAY_DOWNSTREAM_USERNAME }}
           QUAY_ROBOT_TOKEN: ${{ secrets.QUAY_DOWNSTREAM_TOKEN }}

diff --git a/Containerfile b/Containerfile
@@ -85,6 +85,10 @@ RUN microdnf install -y --nodocs --setopt=keepcache=0 --setopt=tsflags=nodocs jq
 RUN mkdir -p /opt/app-root/src/.llama/storage /opt/app-root/src/.llama/providers.d && \
     chown -R 1001:1001 /opt/app-root/src/.llama
 
+# Create Hugging Face cache directory for embedding models
+RUN mkdir -p /opt/app-root/src/.cache/huggingface && \
+    chown -R 1001:1001 /opt/app-root/src/.cache
+
 # Add executables from .venv to system PATH
 ENV PATH="/app-root/.venv/bin:$PATH"
 

diff --git a/pyproject.toml b/pyproject.toml
@@ -28,8 +28,8 @@ dependencies = [
     # Used by authentication/k8s integration
     "kubernetes>=30.1.0",
     # Used to call Llama Stack APIs
-    "llama-stack==0.3.5",
-    "llama-stack-client==0.3.5",
+    "llama-stack==0.4.2",
+    "llama-stack-client==0.4.2",
     # Used by Logger
     "rich>=14.0.0",
     # Used by JWK token auth handler

diff --git a/run.yaml b/run.yaml
@@ -9,7 +9,6 @@ apis:
 - inference
 - safety
 - scoring
-- telemetry
 - tool_runtime
 - vector_io
 
@@ -137,11 +136,7 @@ storage:
       namespace: prompts
       backend: kv_default
 registered_resources:
-  models:
-  - model_id: gpt-4o-mini
-    provider_id: openai
-    model_type: llm
-    provider_model_id: gpt-4o-mini
+  models: []
   shields:
   - shield_id: llama-guard
     provider_id: llama-guard
@@ -160,5 +155,3 @@ vector_stores:
     model_id: nomic-ai/nomic-embed-text-v1.5
 safety:
   default_shield_id: llama-guard
-telemetry:
-  enabled: true
diff --git a/src/app/endpoints/a2a.py b/src/app/endpoints/a2a.py
@@ -7,18 +7,17 @@
 from datetime import datetime, timezone
 from typing import Annotated, Any, AsyncIterator, MutableMapping, Optional
 
-from fastapi import APIRouter, Depends, HTTPException, Request, status
-from llama_stack.apis.agents.openai_responses import (
-    OpenAIResponseObjectStream,
-)
-from llama_stack_client import APIConnectionError
-from starlette.responses import Response, StreamingResponse
-
+from a2a.server.agent_execution import AgentExecutor, RequestContext
+from a2a.server.apps import A2AStarletteApplication
+from a2a.server.events import EventQueue
+from a2a.server.request_handlers import DefaultRequestHandler
+from a2a.server.tasks import TaskStore
+from a2a.server.tasks.task_updater import TaskUpdater
 from a2a.types import (
+    AgentCapabilities,
     AgentCard,
-    AgentSkill,
     AgentProvider,
-    AgentCapabilities,
+    AgentSkill,
     Artifact,
     Message,
     Part,
@@ -28,27 +27,27 @@
     TaskStatusUpdateEvent,
     TextPart,
 )
-from a2a.server.agent_execution import AgentExecutor, RequestContext
-from a2a.server.events import EventQueue
-from a2a.server.request_handlers import DefaultRequestHandler
-from a2a.server.tasks import TaskStore
-from a2a.server.tasks.task_updater import TaskUpdater
-from a2a.server.apps import A2AStarletteApplication
 from a2a.utils import new_agent_text_message, new_task
+from fastapi import APIRouter, Depends, HTTPException, Request, status
+from llama_stack_api.openai_responses import (
+    OpenAIResponseObjectStream,
+)
+from llama_stack_client import APIConnectionError
+from starlette.responses import Response, StreamingResponse
 
-from authentication.interface import AuthTuple
-from authentication import get_auth_dependency
-from authorization.middleware import authorize
-from configuration import configuration
-from a2a_storage import A2AStorageFactory, A2AContextStore
-from models.config import Action
-from models.requests import QueryRequest
+from a2a_storage import A2AContextStore, A2AStorageFactory
 from app.endpoints.query import (
-    select_model_and_provider_id,
     evaluate_model_hints,
+    select_model_and_provider_id,
 )
 from app.endpoints.streaming_query_v2 import retrieve_response
+from authentication import get_auth_dependency
+from authentication.interface import AuthTuple
+from authorization.middleware import authorize
 from client import AsyncLlamaStackClientHolder
+from configuration import configuration
+from models.config import Action
+from models.requests import QueryRequest
 from utils.mcp_headers import mcp_headers_dependency
 from utils.responses import extract_text_from_response_output_item
 from version import __version__

diff --git a/src/app/endpoints/conversations_v3.py b/src/app/endpoints/conversations_v3.py
@@ -7,7 +7,6 @@
 from llama_stack_client import (
     APIConnectionError,
     APIStatusError,
-    NOT_GIVEN,
 )
 from sqlalchemy.exc import SQLAlchemyError
 
@@ -332,10 +331,10 @@ async def get_conversation_endpoint_handler(
         # Use Conversations API to retrieve conversation items
         conversation_items_response = await client.conversations.items.list(
             conversation_id=llama_stack_conv_id,
-            after=NOT_GIVEN,
-            include=NOT_GIVEN,
-            limit=NOT_GIVEN,
-            order=NOT_GIVEN,
+            after=None,
+            include=None,
+            limit=None,
+            order=None,
         )
         items = (
             conversation_items_response.data

diff --git a/src/app/endpoints/health.py b/src/app/endpoints/health.py
@@ -6,10 +6,10 @@
 """
 
 import logging
+from enum import Enum
 from typing import Annotated, Any
 
 from fastapi import APIRouter, Depends, Response, status
-from llama_stack.providers.datatypes import HealthStatus
 from llama_stack_client import APIConnectionError
 
 from authentication import get_auth_dependency
@@ -30,6 +30,18 @@
 router = APIRouter(tags=["health"])
 
 
+# HealthStatus enum was removed from llama_stack in newer versions
+# Defining locally for compatibility
+class HealthStatus(str, Enum):
+    """Health status enum for provider health checks."""
+
+    OK = "ok"
+    ERROR = "Error"
+    NOT_IMPLEMENTED = "not_implemented"
+    HEALTHY = "healthy"
+    UNKNOWN = "unknown"
+
+
 get_readiness_responses: dict[int | str, dict[str, Any]] = {
     200: ReadinessResponse.openapi_response(),
     401: UnauthorizedResponse.openapi_response(

diff --git a/src/app/endpoints/models.py b/src/app/endpoints/models.py
@@ -26,6 +26,41 @@
 router = APIRouter(tags=["models"])
 
 
+def parse_llama_stack_model(model: Any) -> dict[str, Any]:
+    """
+    Parse llama-stack model.
+
+    Converting the new llama-stack model format (0.4.x) with custom_metadata.
+
+    Args:
+        model: Model object from llama-stack (has id, custom_metadata, object fields)
+
+    Returns:
+        dict: Model in legacy format with identifier, provider_id, model_type, etc.
+    """
+    custom_metadata = getattr(model, "custom_metadata", {}) or {}
+
+    model_type = str(custom_metadata.get("model_type", "unknown"))
+
+    metadata = {
+        k: v
+        for k, v in custom_metadata.items()
+        if k not in ("provider_id", "provider_resource_id", "model_type")
+    }
+
+    legacy_model = {
+        "identifier": getattr(model, "id", ""),
+        "metadata": metadata,
+        "api_model_type": model_type,
+        "provider_id": str(custom_metadata.get("provider_id", "")),
+        "type": getattr(model, "object", "model"),
+        "provider_resource_id": str(custom_metadata.get("provider_resource_id", "")),
+        "model_type": model_type,
+    }
+
+    return legacy_model
+
+
 models_responses: dict[int | str, dict[str, Any]] = {
     200: ModelsResponse.openapi_response(),
     401: UnauthorizedResponse.openapi_response(
@@ -72,8 +107,9 @@ async def models_endpoint_handler(
         client = AsyncLlamaStackClientHolder().get_client()
         # retrieve models
         models = await client.models.list()
-        m = [dict(m) for m in models]
-        return ModelsResponse(models=m)
+        # Parse models to legacy format
+        parsed_models = [parse_llama_stack_model(model) for model in models]
+        return ModelsResponse(models=parsed_models)
 
     # Connection to Llama Stack server failed
     except APIConnectionError as e: