init

relh · relh · commit caed3d04017e · 2025-12-23T22:37:47.000-05:00
no more .mpt Merge remote-tracking branch 'origin/main' into richard-unifympt slim policy spec handler more concise cleanup simplify Merge remote-tracking branch 'origin/main' into richard-unifympt re-add fix policy spex Update packages/mettagrid/python/src/mettagrid/util/uri_resolvers/schemes.py Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Merge remote-tracking branch 'origin/main' into richard-unifympt bundles Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt bundle Merge remote-tracking branch 'origin/richard-unifympt' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt simplify? ugh compat cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt cleanup tests Merge remote-tracking branch 'origin/main' into richard-unifympt more tests Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt simplify? Merge branch 'main' into richard-unifympt cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt no more .mpt remove all .mpt and lint cleanup local data path fixes mpt re-add re-add artifact lint Merge remote-tracking branch 'origin/main' into richard-unifympt more cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt diff cleanup ftt lint fix error Merge remote-tracking branch 'origin/main' into richard-unifympt more tests lint Merge remote-tracking branch 'origin/main' into richard-unifympt Merge remote-tracking branch 'origin/main' into richard-unifympt checkpoint policy does save/load lint checkpoint moving catcus lint Merge branch 'main' into richard-unifympt fold-in [pyright 4] Get pyright to pass on app_backend (#4478) Merge remote-tracking branch 'origin/main' into richard-unifympt Fix command, add space (#4456) added space to --app:lib--tlsEmulation:off which makes it --app:lib --tlsEmulation:off now it runs Rename HyperUpdateRule to ScheduleRule (#4483) - rename HyperUpdateRule to ScheduleRule and apply to TrainerConfig via target_path - update recipes and teacher scheduling to use ScheduleRule - report PPO stats using ppo_actor/ppo_critic hyperparam keys and update tests - not run (not requested) --------- Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Merge remote-tracking branch 'origin/main' into richard-unifympt Fix supervisor teacher behavior and legacy BC mode (#4484) - gate PPO actor during supervisor teacher phase - fix supervisor/no-teacher behavior and add legacy BC (no gating, no PPO resume) - require supervisor policy URI for sliced_cloner_no_ppo - not run (not requested) --------- Co-authored-by: graphite-app[bot] <96075541+graphite-app[bot]@users.noreply.github.com> Co-authored-by: Adam S <134907338+gustofied@users.noreply.github.com> Minor fixes to the slstm triton kernel, causing failures for certain kernel sizes (#4492) cleanup Merge remote-tracking branch 'origin/main' into richard-unifympt fold in training environments and eval environments mismatched (#4487) I ran a direct config comparison using the training entrypoint (recipes/experiment/cogs_v_clips.train) with variants=["heart_chorus"] and compared the eval suite config it builds (difficulty standard + heart_chorus) for an overlapping mission: hello_world.oxygen_bottleneck. Findings: - Compass is ON in both training and eval (global_obs.compass=True). - Vibe count and change‑vibe settings match (152 vibes; change_vibe.number_of_vibes=152). - But the mission parameters differ between training and eval for the same mission name: - game.objects.carbon_extractor.max_uses: train 25 vs eval 100 - game.objects.oxygen_extractor.max_uses: train 5 vs eval 20 - game.objects.germanium_extractor.max_uses: train 5 vs eval 20 - game.objects.silicon_extractor.max_uses: train 120 vs eval 480 So the mismatch isn’t compass — it’s the mission definitions used by training vs eval. Training uses base missions (cogames.cogs_vs_clips.missions), while eval uses integrated eval missions (cogames.cogs_vs_clips.evals.integrated_evals) that have different extractor settings. Also: the eval suite used by recipes/experiment/cogs_v_clips.train does not include machina_1.open_world at all (it only evaluates the 7 HELLO_WORLD integrated evals). So training can be creating hearts on easier missions while your eval runs on machina_1 are a different environment entirely. Relevant files: - Compass default: packages/cogames/src/cogames/cogs_vs_clips/mission.py - Training entrypoint + eval suite wiring: recipes/experiment/cogs_v_clips.py - Eval mission definitions: packages/cogames/src/cogames/cogs_vs_clips/evals/integrated_evals.py If you want true parity, we should align which mission templates eval uses (and/or include machina_1.open_world in the eval suite). I can patch this if you want — tell me whether you prefer: 1. Eval suite uses the same mission templates as training (from missions.py), or 2. Training uses the integrated eval mission definitions, or 3. Add machina_1.open_world to the eval suite. ripping out Merge remote-tracking branch 'origin/main' into richard-unifympt simplify fix and lint choke
diff --git a/recipes/experiment/abes/kickstart/checked.py b/recipes/experiment/abes/kickstart/checked.py
@@ -112,7 +112,7 @@ def train(
         ppo_critic=PPOCriticConfig(enabled=True),
         sl_checkpointed_kickstarter=SLCheckpointedKickstarterConfig(
             enabled=True,
-            teacher_uri="s3://softmax-public/policies/av.teach.24checks.11.10.10/av.teach.24checks.11.10.10:v8016.mpt",
+            teacher_uri="s3://softmax-public/policies/av.teach.24checks.11.10.10/av.teach.24checks.11.10.10:v8016",
             checkpointed_interval=24,
             epochs_per_checkpoint=1,
             terminating_epoch=334,
diff --git a/recipes/experiment/abes/kickstart/cortex_100m.py b/recipes/experiment/abes/kickstart/cortex_100m.py
@@ -150,7 +150,7 @@ def train(
     losses_config = LossesConfig()
     default_teacher_steps = 600_000_000
     teacher = teacher or TeacherConfig(
-        policy_uri="s3://softmax-public/policies/subho.abes.vit_baseline/subho.abes.vit_baseline:v2340.mpt",
+        policy_uri="s3://softmax-public/policies/subho.abes.vit_baseline/subho.abes.vit_baseline:v2340",
         mode="sliced_kickstarter",
         steps=default_teacher_steps,
         teacher_led_proportion=0.2,
@@ -192,11 +192,11 @@ def evaluate(policy_uris: Optional[Sequence[str]] = None) -> EvaluateTool:
 
 def evaluate_latest_in_dir(dir_path: Path) -> EvaluateTool:
     """Evaluate the latest policy on arena simulations."""
-    checkpoints = dir_path.glob("*.mpt")
-    policy_uri = [checkpoint.as_posix() for checkpoint in sorted(checkpoints, key=lambda x: x.stat().st_mtime)]
-    if not policy_uri:
+    checkpoints = [p for p in dir_path.iterdir() if p.is_dir() and (p / "policy_spec.json").exists()]
+    checkpoints = sorted(checkpoints, key=lambda x: x.stat().st_mtime)
+    if not checkpoints:
         raise ValueError(f"No policies found in {dir_path}")
-    policy_uri = policy_uri[-1]
+    policy_uri = checkpoints[-1].as_posix()
     sim = mettagrid(num_agents=6)
     return EvaluateTool(
         simulations=[SimulationConfig(suite="arena", name="very_basic", env=sim)], policy_uris=[policy_uri]
diff --git a/recipes/experiment/abes/kickstart/logit.py b/recipes/experiment/abes/kickstart/logit.py
@@ -110,7 +110,7 @@ def train(
     losses_config = LossesConfig()
     trainer_cfg = TrainerConfig(losses=losses_config)
     teacher = teacher or TeacherConfig(
-        policy_uri="s3://softmax-public/policies/av.sliced.mb.11.22.110.ctrl/av.sliced.mb.11.22.110.ctrl:v9900.mpt",
+        policy_uri="s3://softmax-public/policies/av.sliced.mb.11.22.110.ctrl/av.sliced.mb.11.22.110.ctrl:v9900",
         mode="logit_kickstarter",
         steps=1_000_000_000,
         teacher_led_proportion=1.0,
@@ -169,11 +169,11 @@ def evaluate(policy_uris: Optional[Sequence[str]] = None) -> EvaluateTool:
 
 def evaluate_latest_in_dir(dir_path: Path) -> EvaluateTool:
     """Evaluate the latest policy on arena simulations."""
-    checkpoints = dir_path.glob("*.mpt")
-    policy_uri = [checkpoint.as_posix() for checkpoint in sorted(checkpoints, key=lambda x: x.stat().st_mtime)]
-    if not policy_uri:
+    checkpoints = [p for p in dir_path.iterdir() if p.is_dir() and (p / "policy_spec.json").exists()]
+    checkpoints = sorted(checkpoints, key=lambda x: x.stat().st_mtime)
+    if not checkpoints:
         raise ValueError(f"No policies found in {dir_path}")
-    policy_uri = policy_uri[-1]
+    policy_uri = checkpoints[-1].as_posix()
     sim = mettagrid(num_agents=6)
     return EvaluateTool(
         simulations=[SimulationConfig(suite="arena", name="very_basic", env=sim)], policy_uris=[policy_uri]
diff --git a/recipes/experiment/abes/kickstart/sliced.py b/recipes/experiment/abes/kickstart/sliced.py
@@ -114,7 +114,7 @@ def train(
     losses_config = LossesConfig()
     trainer_cfg = TrainerConfig(losses=losses_config)
     teacher = teacher or TeacherConfig(
-        policy_uri="s3://softmax-public/policies/av.student.11.26.28/av.student.11.26.28:v4000.mpt",
+        policy_uri="s3://softmax-public/policies/av.student.11.26.28/av.student.11.26.28:v4000",
         mode="sliced_kickstarter",
         steps=1_000_000_000,
         teacher_led_proportion=0.2,
@@ -148,11 +148,11 @@ def evaluate(policy_uris: Optional[Sequence[str]] = None) -> EvaluateTool:
 
 def evaluate_latest_in_dir(dir_path: Path) -> EvaluateTool:
     """Evaluate the latest policy on arena simulations."""
-    checkpoints = dir_path.glob("*.mpt")
-    policy_uri = [checkpoint.as_posix() for checkpoint in sorted(checkpoints, key=lambda x: x.stat().st_mtime)]
-    if not policy_uri:
+    checkpoints = [p for p in dir_path.iterdir() if p.is_dir() and (p / "policy_spec.json").exists()]
+    checkpoints = sorted(checkpoints, key=lambda x: x.stat().st_mtime)
+    if not checkpoints:
         raise ValueError(f"No policies found in {dir_path}")
-    policy_uri = policy_uri[-1]
+    policy_uri = checkpoints[-1].as_posix()
     sim = mettagrid(num_agents=6)
     return EvaluateTool(
         simulations=[SimulationConfig(suite="arena", name="very_basic", env=sim)], policy_uris=[policy_uri]
diff --git a/recipes/experiment/abes/quantile.py b/recipes/experiment/abes/quantile.py
@@ -132,11 +132,11 @@ def evaluate(policy_uris: Optional[Sequence[str]] = None) -> EvaluateTool:
 
 def evaluate_latest_in_dir(dir_path: Path) -> EvaluateTool:
     """Evaluate the latest policy on arena simulations."""
-    checkpoints = dir_path.glob("*.mpt")
-    policy_uri = [checkpoint.as_posix() for checkpoint in sorted(checkpoints, key=lambda x: x.stat().st_mtime)]
-    if not policy_uri:
+    checkpoints = [p for p in dir_path.iterdir() if p.is_dir() and (p / "policy_spec.json").exists()]
+    checkpoints = sorted(checkpoints, key=lambda x: x.stat().st_mtime)
+    if not checkpoints:
         raise ValueError(f"No policies found in {dir_path}")
-    policy_uri = policy_uri[-1]
+    policy_uri = checkpoints[-1].as_posix()
     sim = mettagrid(num_agents=6)
     return EvaluateTool(
         simulations=[SimulationConfig(suite="arena", name="very_basic", env=sim)], policy_uris=[policy_uri]
diff --git a/recipes/experiment/cogs_v_clips.py b/recipes/experiment/cogs_v_clips.py
@@ -308,7 +308,7 @@ def make_curriculum(
 
 
 # uv run cogames submit \
-#   -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \
+#   -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \
 #   -n your-policy-name-for-leaderboard \
 #   --skip-validation
 #
diff --git a/recipes/experiment/cvc/cloner.py b/recipes/experiment/cvc/cloner.py
@@ -112,7 +112,7 @@ def make_curriculum(
 # How to submit a policy trained here to the CoGames leaderboard:
 #
 # uv run cogames submit \
-#   -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \
+#   -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \
 #   -n your-policy-name-for-leaderboard \
 #   --skip-validation
 #
diff --git a/recipes/experiment/cvc/mission_variant_curriculum.py b/recipes/experiment/cvc/mission_variant_curriculum.py
@@ -554,12 +554,19 @@ def _get_policy_action_space(policy_uri: str) -> Optional[int]:
         return None
 
     try:
-        from metta.rl.mpt_artifact import load_mpt
+        from pathlib import Path
 
-        artifact = load_mpt(policy_uri)
+        from safetensors.torch import load as load_safetensors
+
+        from mettagrid.util.uri_resolvers.schemes import policy_spec_from_uri
+
+        spec = policy_spec_from_uri(policy_uri)
+        if not spec.data_path:
+            return None
+        state_dict = load_safetensors(Path(spec.data_path).read_bytes())
 
         # Look for actor head weight to determine action space
-        for key, tensor in artifact.state_dict.items():
+        for key, tensor in state_dict.items():
             if "actor_head" in key and "weight" in key and len(tensor.shape) == 2:
                 return tensor.shape[0]
         return None
diff --git a/recipes/experiment/cvc/sliced_cloner.py b/recipes/experiment/cvc/sliced_cloner.py
@@ -136,7 +136,7 @@ def make_curriculum(
 # How to submit a policy trained here to the CoGames leaderboard:
 #
 # uv run cogames submit \
-#   -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \
+#   -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \
 #   -n your-policy-name-for-leaderboard \
 #   --skip-validation
 #

Original file line number	Diff line number	Diff line change
`@@ -308,7 +308,7 @@ def make_curriculum(`
`308`	`308`
`309`	`309`
`310`	`310`	`# uv run cogames submit \`
`311`		`-# -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \`
	`311`	`+# -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \`
`312`	`312`	`# -n your-policy-name-for-leaderboard \`
`313`	`313`	`# --skip-validation`
`314`	`314`	`#`
Original file line number	Diff line number	Diff line change
`@@ -112,7 +112,7 @@ def make_curriculum(`
`112`	`112`	`# How to submit a policy trained here to the CoGames leaderboard:`
`113`	`113`	`#`
`114`	`114`	`# uv run cogames submit \`
`115`		`-# -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \`
	`115`	`+# -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \`
`116`	`116`	`# -n your-policy-name-for-leaderboard \`
`117`	`117`	`# --skip-validation`
`118`	`118`	`#`
Original file line number	Diff line number	Diff line change
`@@ -136,7 +136,7 @@ def make_curriculum(`
`136`	`136`	`# How to submit a policy trained here to the CoGames leaderboard:`
`137`	`137`	`#`
`138`	`138`	`# uv run cogames submit \`
`139`		`-# -p class=mpt,kw.checkpoint_uri=s3://softmax-public/policies/...:v1.mpt \`
	`139`	`+# -p class=checkpoint,data=s3://softmax-public/policies/...:v1 \`
`140`	`140`	`# -n your-policy-name-for-leaderboard \`
`141`	`141`	`# --skip-validation`
`142`	`142`	`#`