init

relh · relh · commit 7c95ff564636 · 2025-12-22T17:28:42.000-05:00
no more .mpt Merge remote-tracking branch 'origin/main' into richard-unifympt slim policy spec handler more concise cleanup simplify Merge remote-tracking branch 'origin/main' into richard-unifympt re-add fix policy spex Update packages/mettagrid/python/src/mettagrid/util/uri_resolvers/schemes.py Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Merge remote-tracking branch 'origin/main' into richard-unifympt bundles Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt bundle Merge remote-tracking branch 'origin/richard-unifympt' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt simplify? ugh compat cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt cleanup tests Merge remote-tracking branch 'origin/main' into richard-unifympt more tests Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt simplify? Merge branch 'main' into richard-unifympt cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt no more .mpt remove all .mpt and lint cleanup local data path fixes mpt re-add re-add artifact lint Merge remote-tracking branch 'origin/main' into richard-unifympt more cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt diff cleanup ftt lint fix error Merge remote-tracking branch 'origin/main' into richard-unifympt more tests lint Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt checkpoint policy does save/load lint checkpoint moving catcus lint Merge branch 'main' into richard-unifympt fold-in [pyright 4] Get pyright to pass on app_backend (#4478) Merge remote-tracking branch 'origin/main' into richard-unifympt Fix command, add space (#4456) added space to --app:lib--tlsEmulation:off which makes it --app:lib --tlsEmulation:off now it runs Rename HyperUpdateRule to ScheduleRule (#4483) ## Summary - rename HyperUpdateRule to ScheduleRule and apply to TrainerConfig via target_path - update recipes and teacher scheduling to use ScheduleRule - report PPO stats using ppo_actor/ppo_critic hyperparam keys and update tests ## Testing - not run (not requested) --------- Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Merge remote-tracking branch 'origin/main' into richard-unifympt Fix supervisor teacher behavior and legacy BC mode (#4484) ## Summary - gate PPO actor during supervisor teacher phase - fix supervisor/no-teacher behavior and add legacy BC (no gating, no PPO resume) - require supervisor policy URI for sliced_cloner_no_ppo ## Testing - not run (not requested) --------- Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Co-authored-by: Adam S <134907338+gustofied@users.noreply.github.com> Minor fixes to the slstm triton kernel, causing failures for certain kernel sizes (#4492) cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt fold in training environments and eval environments mismatched (#4487) I ran a direct config comparison using the training entrypoint (recipes/experiment/cogs_v_clips.train) with variants=["heart_chorus"] and compared the eval suite config it builds (difficulty standard + heart_chorus) for an overlapping mission: hello_world.oxygen_bottleneck. Findings: - Compass is ON in both training and eval (global_obs.compass=True). - Vibe count and change‑vibe settings match (152 vibes; change_vibe.number_of_vibes=152). - But the mission parameters differ between training and eval for the same mission name: - game.objects.carbon_extractor.max_uses: train 25 vs eval 100 - game.objects.oxygen_extractor.max_uses: train 5 vs eval 20 - game.objects.germanium_extractor.max_uses: train 5 vs eval 20 - game.objects.silicon_extractor.max_uses: train 120 vs eval 480 So the mismatch isn’t compass — it’s the mission definitions used by training vs eval. Training uses base missions (cogames.cogs_vs_clips.missions), while eval uses integrated eval missions (cogames.cogs_vs_clips.evals.integrated_evals) that have different extractor settings. Also: the eval suite used by recipes/experiment/cogs_v_clips.train does not include machina_1.open_world at all (it only evaluates the 7 HELLO_WORLD integrated evals). So training can be creating hearts on easier missions while your eval runs on machina_1 are a different environment entirely. Relevant files: - Compass default: packages/cogames/src/cogames/cogs_vs_clips/mission.py - Training entrypoint + eval suite wiring: recipes/experiment/cogs_v_clips.py - Eval mission definitions: packages/cogames/src/cogames/cogs_vs_clips/evals/integrated_evals.py If you want true parity, we should align which mission templates eval uses (and/or include machina_1.open_world in the eval suite). I can patch this if you want — tell me whether you prefer: 1. Eval suite uses the same mission templates as training (from missions.py), or 2. Training uses the integrated eval mission definitions, or 3. Add machina_1.open_world to the eval suite. ripping out Merge remote-tracking branch 'origin/main' into richard-unifympt simplify fix and lint choke simplify submission zip creation use policy_spec for submission zips tighten checkpoint io helpers shorten checkpoint arg help inline checkpoint policy helpers restore policy spec docstring validate checkpoint data_path before download require checkpoint directory URIs expand policy spec s3 docstring
diff --git a/metta/rl/checkpoint_manager.py b/metta/rl/checkpoint_manager.py
@@ -9,8 +9,10 @@
 from metta.rl.system_config import SystemConfig
 from metta.rl.training.optimizer import is_schedulefree_optimizer
 from metta.tools.utils.auto_config import auto_policy_storage_decision
-from mettagrid.policy.mpt_artifact import save_mpt
-from mettagrid.util.uri_resolvers.schemes import checkpoint_filename, resolve_uri
+from mettagrid.policy.checkpoint_policy import WEIGHTS_FILENAME, CheckpointPolicy
+from mettagrid.policy.submission import POLICY_SPEC_FILENAME
+from mettagrid.util.file import write_data
+from mettagrid.util.uri_resolvers.schemes import resolve_uri
 
 logger = logging.getLogger(__name__)
 
@@ -80,16 +82,30 @@ def try_resolve(uri: str) -> tuple[str, int] | None:
         return max(candidates, key=lambda x: x[1])[0]
 
     def save_policy_checkpoint(self, state_dict: dict, architecture, epoch: int) -> str:
-        filename = checkpoint_filename(self.run_name, epoch)
         self.checkpoint_dir.mkdir(parents=True, exist_ok=True)
-
-        local_uri = save_mpt(self.checkpoint_dir / filename, architecture=architecture, state_dict=state_dict)
+        checkpoint_dir = CheckpointPolicy.write_checkpoint_dir(
+            base_dir=self.checkpoint_dir,
+            run_name=self.run_name,
+            epoch=epoch,
+            architecture=architecture,
+            state_dict=state_dict,
+        )
 
         if self._remote_prefix:
-            remote_uri = save_mpt(f"{self.output_uri}/{filename}", architecture=architecture, state_dict=state_dict)
-            logger.debug("Policy checkpoint saved remotely to %s", remote_uri)
-            return remote_uri
-
+            remote_dir = f"{self.output_uri.rstrip('/')}/{checkpoint_dir.name}"
+            write_data(
+                f"{remote_dir}/{WEIGHTS_FILENAME}",
+                (checkpoint_dir / WEIGHTS_FILENAME).read_bytes(),
+            )
+            write_data(
+                f"{remote_dir}/{POLICY_SPEC_FILENAME}",
+                (checkpoint_dir / POLICY_SPEC_FILENAME).read_bytes(),
+                content_type="application/json",
+            )
+            logger.debug("Policy checkpoint saved remotely to %s", remote_dir)
+            return remote_dir
+
+        local_uri = checkpoint_dir.as_uri()
         logger.debug("Policy checkpoint saved locally to %s", local_uri)
         return local_uri
 
diff --git a/metta/rl/loss/eer_kickstarter.py b/metta/rl/loss/eer_kickstarter.py
@@ -10,8 +10,8 @@
 from metta.rl.advantage import compute_advantage
 from metta.rl.loss.loss import Loss, LossConfig
 from metta.rl.training import ComponentContext
+from mettagrid.policy.checkpoint_policy import CheckpointPolicy
 from mettagrid.policy.loader import initialize_or_load_policy
-from mettagrid.policy.mpt_policy import MptPolicy
 from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri
 
 if TYPE_CHECKING:
@@ -59,8 +59,8 @@ def __init__(
             raise RuntimeError("Environment metadata is required to instantiate teacher policy")
         teacher_spec = policy_spec_from_uri(self.cfg.teacher_uri, device=str(self.device))
         self.teacher_policy = initialize_or_load_policy(policy_env_info, teacher_spec)
-        if isinstance(self.teacher_policy, MptPolicy):
-            self.teacher_policy = self.teacher_policy._policy
+        if isinstance(self.teacher_policy, CheckpointPolicy):
+            self.teacher_policy = self.teacher_policy.wrapped_policy
 
     def get_experience_spec(self) -> Composite:
         act_space = self.env.single_action_space
diff --git a/metta/rl/loss/kickstarter.py b/metta/rl/loss/kickstarter.py
@@ -10,8 +10,8 @@
 from metta.agent.policy import Policy
 from metta.rl.loss.loss import Loss, LossConfig
 from metta.rl.training import ComponentContext
+from mettagrid.policy.checkpoint_policy import CheckpointPolicy
 from mettagrid.policy.loader import initialize_or_load_policy
-from mettagrid.policy.mpt_policy import MptPolicy
 from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri
 
 if TYPE_CHECKING:
@@ -60,8 +60,8 @@ def __init__(
             raise RuntimeError("Environment metadata is required to instantiate teacher policy")
         teacher_spec = policy_spec_from_uri(self.cfg.teacher_uri, device=str(self.device))
         self.teacher_policy = initialize_or_load_policy(policy_env_info, teacher_spec)
-        if isinstance(self.teacher_policy, MptPolicy):
-            self.teacher_policy = self.teacher_policy._policy
+        if isinstance(self.teacher_policy, CheckpointPolicy):
+            self.teacher_policy = self.teacher_policy.wrapped_policy
 
     def get_experience_spec(self) -> Composite:
         # Get action space size for logits shape
diff --git a/metta/rl/loss/logit_kickstarter.py b/metta/rl/loss/logit_kickstarter.py
@@ -10,8 +10,8 @@
 from metta.agent.policy import Policy
 from metta.rl.loss.loss import Loss, LossConfig
 from metta.rl.training import ComponentContext
+from mettagrid.policy.checkpoint_policy import CheckpointPolicy
 from mettagrid.policy.loader import initialize_or_load_policy
-from mettagrid.policy.mpt_policy import MptPolicy
 from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri
 
 if TYPE_CHECKING:
@@ -67,8 +67,8 @@ def __init__(
 
         teacher_spec = policy_spec_from_uri(self.cfg.teacher_uri, device=self.device)
         self.teacher_policy = initialize_or_load_policy(base_policy_env_info, teacher_spec)
-        if isinstance(self.teacher_policy, MptPolicy):
-            self.teacher_policy = self.teacher_policy._policy
+        if isinstance(self.teacher_policy, CheckpointPolicy):
+            self.teacher_policy = self.teacher_policy.wrapped_policy
 
     def get_experience_spec(self) -> Composite:
         # Get action space size for logits shape
diff --git a/metta/rl/loss/sliced_kickstarter.py b/metta/rl/loss/sliced_kickstarter.py
@@ -10,8 +10,8 @@
 from metta.agent.policy import Policy
 from metta.rl.loss.loss import Loss, LossConfig
 from metta.rl.training import ComponentContext
+from mettagrid.policy.checkpoint_policy import CheckpointPolicy
 from mettagrid.policy.loader import initialize_or_load_policy
-from mettagrid.policy.mpt_policy import MptPolicy
 from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri
 
 if TYPE_CHECKING:
@@ -64,8 +64,8 @@ def __init__(
 
         teacher_spec = policy_spec_from_uri(self.cfg.teacher_uri, device=self.device)
         self.teacher_policy = initialize_or_load_policy(base_policy_env_info, teacher_spec)
-        if isinstance(self.teacher_policy, MptPolicy):
-            self.teacher_policy = self.teacher_policy._policy
+        if isinstance(self.teacher_policy, CheckpointPolicy):
+            self.teacher_policy = self.teacher_policy.wrapped_policy
 
     def get_experience_spec(self) -> Composite:
         # Get action space size for logits shape
diff --git a/metta/rl/training/checkpointer.py b/metta/rl/training/checkpointer.py
@@ -1,18 +1,22 @@
 """Policy checkpoint management component."""
 
 import logging
+from pathlib import Path
 from typing import Optional
 
 import torch
 from pydantic import Field
+from safetensors.torch import load as load_safetensors
 
 from metta.agent.policy import Policy, PolicyArchitecture
 from metta.rl.checkpoint_manager import CheckpointManager
 from metta.rl.training import DistributedHelper, TrainerComponent
 from mettagrid.base_config import Config
-from mettagrid.policy.mpt_artifact import MptArtifact, load_mpt
+from mettagrid.policy.checkpoint_policy import CheckpointPolicy
+from mettagrid.policy.loader import initialize_or_load_policy
 from mettagrid.policy.policy_env_interface import PolicyEnvInterface
-from mettagrid.util.uri_resolvers.schemes import resolve_uri
+from mettagrid.util.module import load_symbol
+from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri, resolve_uri
 
 logger = logging.getLogger(__name__)
 
@@ -55,21 +59,30 @@ def load_or_create_policy(
         candidate_uri = policy_uri or self._checkpoint_manager.get_latest_checkpoint()
         load_device = torch.device(self._distributed.config.device)
 
+        def load_state_from_checkpoint_uri(uri: str) -> tuple[str, dict[str, torch.Tensor]]:
+            spec = policy_spec_from_uri(uri, device=str(load_device))
+            architecture_spec = spec.init_kwargs.get("architecture_spec")
+            if not architecture_spec:
+                raise ValueError("policy_spec.json missing init_kwargs.architecture_spec")
+            if not spec.data_path:
+                raise ValueError("policy_spec.json missing data_path")
+            state_dict = load_safetensors(Path(spec.data_path).read_bytes())
+            return architecture_spec, dict(state_dict)
+
         if self._distributed.is_distributed:
             normalized_uri = None
             if self._distributed.is_master() and candidate_uri:
                 normalized_uri = resolve_uri(candidate_uri).canonical
             normalized_uri = self._distributed.broadcast_from_master(normalized_uri)
 
             if normalized_uri:
-                artifact: MptArtifact | None = None
+                loaded: tuple[str, dict[str, torch.Tensor]] | None = None
                 if self._distributed.is_master():
-                    artifact = load_mpt(normalized_uri)
-
+                    loaded = load_state_from_checkpoint_uri(normalized_uri)
                 state_dict = self._distributed.broadcast_from_master(
-                    {k: v.cpu() for k, v in artifact.state_dict.items()} if artifact else None
+                    {k: v.cpu() for k, v in loaded[1].items()} if loaded else None
                 )
-                arch = self._distributed.broadcast_from_master(artifact.architecture if artifact else None)
+                architecture_spec = self._distributed.broadcast_from_master(loaded[0] if loaded else None)
                 action_count = self._distributed.broadcast_from_master(
                     len(policy_env_info.actions.actions()) if self._distributed.is_master() else None
                 )
@@ -78,6 +91,10 @@ def load_or_create_policy(
                 if local_action_count != action_count:
                     raise ValueError(f"Action space mismatch: master={action_count}, rank={local_action_count}")
 
+                if architecture_spec is None:
+                    raise ValueError("Missing architecture_spec from master")
+                class_path = architecture_spec.split("(", 1)[0].strip()
+                arch = load_symbol(class_path).from_spec(architecture_spec)
                 policy = arch.make_policy(policy_env_info).to(load_device)
                 if hasattr(policy, "initialize_to_environment"):
                     policy.initialize_to_environment(policy_env_info, load_device)
@@ -91,8 +108,10 @@ def load_or_create_policy(
                 return policy
 
         if candidate_uri:
-            artifact = load_mpt(candidate_uri)
-            policy = artifact.instantiate(policy_env_info, self._distributed.config.device)
+            spec = policy_spec_from_uri(candidate_uri, device=str(load_device))
+            policy = initialize_or_load_policy(policy_env_info, spec, device_override=str(load_device))
+            if isinstance(policy, CheckpointPolicy):
+                policy = policy.wrapped_policy
             self._latest_policy_uri = resolve_uri(candidate_uri).canonical
             logger.info("Loaded policy from %s", candidate_uri)
             return policy
diff --git a/packages/mettagrid/python/src/mettagrid/policy/checkpoint_policy.py b/packages/mettagrid/python/src/mettagrid/policy/checkpoint_policy.py
@@ -0,0 +1,129 @@
+from __future__ import annotations
+
+from pathlib import Path
+from typing import Any, Mapping
+
+import torch
+from safetensors.torch import load as load_safetensors
+from safetensors.torch import save as save_safetensors
+
+from mettagrid.policy.policy import AgentPolicy, MultiAgentPolicy
+from mettagrid.policy.policy_env_interface import PolicyEnvInterface
+from mettagrid.policy.submission import POLICY_SPEC_FILENAME, SubmissionPolicySpec
+from mettagrid.util.module import load_symbol
+from mettagrid.util.uri_resolvers.schemes import checkpoint_filename
+
+WEIGHTS_FILENAME = "weights.safetensors"
+
+
+def prepare_state_dict_for_save(state_dict: Mapping[str, torch.Tensor]) -> dict[str, torch.Tensor]:
+    result: dict[str, torch.Tensor] = {}
+    seen_storage: set[int] = set()
+    for key, tensor in state_dict.items():
+        if not isinstance(tensor, torch.Tensor):
+            raise TypeError(f"State dict entry '{key}' is not a torch.Tensor")
+        value = tensor.detach().cpu()
+        data_ptr = value.data_ptr()
+        if data_ptr in seen_storage:
+            value = value.clone()
+        else:
+            seen_storage.add(data_ptr)
+        result[key] = value
+    return result
+
+
+def _resolve_policy_data_path(path: Path) -> Path:
+    if path.is_dir():
+        spec_path = path / POLICY_SPEC_FILENAME
+        if not spec_path.exists():
+            raise FileNotFoundError(f"{POLICY_SPEC_FILENAME} not found in checkpoint directory: {path}")
+        submission_spec = SubmissionPolicySpec.model_validate_json(spec_path.read_text())
+        if not submission_spec.data_path:
+            raise ValueError(f"{POLICY_SPEC_FILENAME} missing data_path in {path}")
+        weights_path = path / submission_spec.data_path
+        if not weights_path.exists():
+            raise FileNotFoundError(f"Policy data path does not exist: {weights_path}")
+        return weights_path
+
+    if path.is_file() and path.name != POLICY_SPEC_FILENAME:
+        return path
+
+    raise FileNotFoundError(f"Policy data path does not exist: {path}")
+
+
+def write_policy_spec(checkpoint_dir: Path, architecture_spec: str) -> None:
+    spec = SubmissionPolicySpec(
+        class_path="mettagrid.policy.checkpoint_policy.CheckpointPolicy",
+        data_path=WEIGHTS_FILENAME,
+        init_kwargs={"architecture_spec": architecture_spec},
+    )
+    (checkpoint_dir / POLICY_SPEC_FILENAME).write_text(spec.model_dump_json())
+
+
+class CheckpointPolicy(MultiAgentPolicy):
+    short_names = ["checkpoint"]
+
+    def __init__(
+        self,
+        policy_env_info: PolicyEnvInterface,
+        *,
+        architecture_spec: str,
+        device: str = "cpu",
+        strict: bool = True,
+    ):
+        super().__init__(policy_env_info, device=device)
+        self._strict = strict
+        self._device = torch.device(device)
+        self._policy_env_info = policy_env_info
+        self._architecture_spec = architecture_spec
+        class_path = architecture_spec.split("(", 1)[0].strip()
+        self._architecture = load_symbol(class_path).from_spec(architecture_spec)
+        self._policy = self._architecture.make_policy(policy_env_info).to(self._device)
+        self._policy.eval()
+
+    def load_policy_data(self, policy_data_path: str) -> None:
+        weights_blob = _resolve_policy_data_path(Path(policy_data_path).expanduser()).read_bytes()
+        state_dict = load_safetensors(weights_blob)
+        missing, unexpected = self._policy.load_state_dict(dict(state_dict), strict=self._strict)
+        if self._strict and (missing or unexpected):
+            raise RuntimeError(f"Strict loading failed. Missing: {missing}, Unexpected: {unexpected}")
+        if hasattr(self._policy, "initialize_to_environment"):
+            self._policy.initialize_to_environment(self._policy_env_info, self._device)
+        self._policy.eval()
+
+    def save_policy_data(self, policy_data_path: str) -> None:
+        target_dir = Path(policy_data_path).expanduser()
+        target_dir.mkdir(parents=True, exist_ok=True)
+        (target_dir / WEIGHTS_FILENAME).write_bytes(
+            save_safetensors(prepare_state_dict_for_save(self._policy.state_dict()))
+        )
+        write_policy_spec(target_dir, self._architecture_spec)
+
+    @staticmethod
+    def write_checkpoint_dir(
+        *,
+        base_dir: Path,
+        run_name: str,
+        epoch: int,
+        architecture: Any,
+        state_dict: Mapping[str, torch.Tensor],
+    ) -> Path:
+        architecture_spec = architecture if isinstance(architecture, str) else architecture.to_spec()
+        checkpoint_dir = (base_dir / checkpoint_filename(run_name, epoch)).expanduser().resolve()
+        checkpoint_dir.mkdir(parents=True, exist_ok=True)
+        (checkpoint_dir / WEIGHTS_FILENAME).write_bytes(
+            save_safetensors(prepare_state_dict_for_save(state_dict))
+        )
+        write_policy_spec(checkpoint_dir, architecture_spec)
+        return checkpoint_dir
+
+    def agent_policy(self, agent_id: int) -> AgentPolicy:
+        return self._policy.agent_policy(agent_id)
+
+    def eval(self) -> "CheckpointPolicy":
+        self._policy.eval()
+        return self
+
+    @property
+    def wrapped_policy(self) -> Any:
+        return self._policy
diff --git a/packages/mettagrid/python/src/mettagrid/policy/prepare_policy_spec.py b/packages/mettagrid/python/src/mettagrid/policy/prepare_policy_spec.py
diff --git a/packages/mettagrid/python/src/mettagrid/util/uri_resolvers/schemes.py b/packages/mettagrid/python/src/mettagrid/util/uri_resolvers/schemes.py