velocity noise

mttga · mttga · commit 51a4e61fc555 · 2025-11-20T13:56:44.000+01:00
diff --git a/baselines/MAPPO/config/mappo_homogenous_transf_utracking.yaml b/baselines/MAPPO/config/mappo_homogenous_transf_utracking.yaml
@@ -1,5 +1,5 @@
-LR: 0.0005
-NUM_ENVS: 1024
+LR: 0.0001
+NUM_ENVS: 512
 NUM_STEPS: 256
 TOTAL_TIMESTEPS: 2e9
 HIDDEN_DIM: 64
@@ -16,7 +16,7 @@ ENT_COEF: 0.01
 VF_COEF: 0.5
 MAX_GRAD_NORM: 0.5
 ACTIVATION: relu
-ANNEAL_LR: true
+ANNEAL_LR: false
 
 # Environment configuration
 "ENV_NAME": "utracking"
@@ -25,29 +25,35 @@ ANNEAL_LR: true
   "num_landmarks": 1,
   "max_steps": 1024,
   "dt": 30,
-  "difficulty": "hard",
+  "difficulty": "manual",
+  "landmark_rel_speed": [0.5, 0.8],
+  "dirchange_time_range_landmark": [100, 200],
+  "rudder_range_landmark": [0.1, 0.2],
   "rew_follow_coeff": 1.0,
   "rew_tracking_coeff": 1.0,
   "steps_for_new_range": 4,
+  "traj_noise_std": 0.2,
+  "velocity_noise_std": 0.2,
   "max_range_dist": 1500.0,
   "min_init_distance": 30.0,
-  "max_init_distance": 1000.0,
+  "max_init_distance": 800.0,
   "matrix_obs": true,
   "matrix_state": true,
+  "pre_init_pos_len": 10000000,
 }
  
 
 # Experiment settings
-SEED: 0
+SEED: 3
 NUM_SEEDS: 1
 TUNE: false
-SAVE_PATH: models/utracking_mbari
-LOAD_PATH: #models/utracking_mbari/utracking_2_vs_1/mappo_transformer_tracking_rew/mappo_transformer_tracking_rew_utracking_2_vs_1_seed0_vmap0.safetensors # models/utracking_post/utracking_5_vs_5/mappo_transformer_hard_128steps/mappo_transformer_hard_128steps_utracking_5_vs_5_seed2.safetensors
-LOAD_CRITIC: # True
-ALG_NAME: mappo_transformer_newobs_hard
-CHECKPOINT_INTERVAL: 0.05 # perecentage of total update steps
+SAVE_PATH: #models/17november
+LOAD_PATH: #models/17november/utracking_2_vs_1/mappo_transformer_noisy_more_linear_4steps_3rdrun/mappo_transformer_noisy_more_linear_4steps_3rdrun_utracking_2_vs_1_step760_rng1946498123.safetensors # "models/17november/utracking_1_vs_1/mappo_transformer_noisy/mappo_transformer_noisy_utracking_1_vs_1_step3230_rng1948878966.safetensors" #models/utracking_mbari/utracking_1_vs_1/mappo_transformer_newobs_medium_correct_norm/mappo_transformer_newobs_medium_correct_norm_utracking_1_vs_1_step2660_rng1948878966.safetensors #models/utracking_mbari/utracking_2_vs_1/mappo_transformer_newobs_medium_2ndrun/mappo_transformer_newobs_medium_2ndrun_utracking_2_vs_1_step3810_rng928981903.safetensors #models/utracking_mbari/utracking_1_vs_1_newobs/mappo_transformer_newobs_medium_utracking_1_vs_1_step4191_rng928981903.safetensors # models/utracking_post/utracking_5_vs_5/mappo_transformer_hard_128steps/mappo_transformer_hard_128steps_utracking_5_vs_5_seed2.safetensors
+LOAD_CRITIC: #True #False
+ALG_NAME: mappo_transformer_noisy_more_linear_4steps
+CHECKPOINT_INTERVAL: 0.02 # perecentage of total update steps
 ANIMATION_LOG_INTERVAL: 0.1  # percentage of total update steps
-ANIMATION_MAX_STEPS: 128     # should match the env
+ANIMATION_MAX_STEPS: 1024     # should match the env
 
 # Weights & Biases logging
 WANDB_MODE: online
diff --git a/baselines/MAPPO/mappo_transformer_utracking.py b/baselines/MAPPO/mappo_transformer_utracking.py
@@ -767,8 +767,6 @@ def callback(
                         env_name = f'utracking_{config["ENV_KWARGS"]["num_agents"]}_vs_{config["ENV_KWARGS"]["num_landmarks"]}'
                         alg_name = config.get("ALG_NAME", "mappo_rnn_utracking")
 
-                        print("Saving Checkpoint")
-
                         model_state = {
                             "actor": model_state[0].params,
                             "critic": model_state[1].params,
@@ -781,6 +779,7 @@ def callback(
                             f"{alg_name}_{env_name}_step{int(metrics['update_steps'])}_rng{int(original_seed)}.safetensors",
                         )
                         save_params(model_state, save_path)
+                        print("Checkpoint saved at", save_path)
 
                 if config.get("ANIMATION_LOG_INTERVAL", None) is not None:
 
diff --git a/jaxmarl/environments/utracking/particle_filter.py b/jaxmarl/environments/utracking/particle_filter.py
@@ -27,7 +27,7 @@ def __init__(
         self,
         num_particles=5000,
         std_range=10,  # m (standard deviation error of the range measurements)
-        mu_init_vel=1.0,  # m/s
+        mu_init_vel=2.0,  # m/s
         std_init_vel=0.6,  # m/s
         turn_noise=0.5,  # rad
         vel_noise=0.10,  # m/s
diff --git a/jaxmarl/environments/utracking/utracking.py b/jaxmarl/environments/utracking/utracking.py
@@ -124,7 +124,8 @@ def __init__(
         tracking_method: str = "pf",  # method for tracking the landmarks positions (ls, pf)
         tracking_buffer_len: int = 32,  # maximum number of range observations kept for predicting the landmark positions
         range_noise_std: float = 10.0,  # standard deviation of the gaussian noise added to range measurements (meters)
-        traj_noise_std: float = 0.02,  # standard deviation of the gaussian noise added to the traj models (radians)
+        traj_noise_std: float = 0.1,  # standard deviation of the gaussian noise added to the traj models (radians)
+        velocity_noise_std: float = 0.1,  # standard deviation of the gaussian noise added to the velocity (meters/second)
         lost_comm_prob=0.1,  # probability of loosing communications (range measurements and intra-agent communication)
         min_steps_ls: int = 2,  # minimum steps for collecting data and start predicting landmarks positions with least squares
         rew_dist_thr: float = 150.0,  # distance threshold for the follow reward
@@ -218,7 +219,7 @@ def __init__(
         self.tracking_buffer_len = tracking_buffer_len
         self.range_noise_std = range_noise_std
         self.traj_noise_std = traj_noise_std
-        self.traj_noise_std = traj_noise_std
+        self.velocity_noise_std = velocity_noise_std
         self.lost_comm_prob = lost_comm_prob
         self.min_steps_ls = min_steps_ls
         self.rew_dist_thr = rew_dist_thr
@@ -487,27 +488,20 @@ def world_step(
         else:
             # update the angle
             angle_change = actions * traj_coeffs + traj_intercepts
-            # add noise
-            angle_change += (
+            # add noise to agents only (not landmarks)
+            angle_noise = (
                 jax.random.normal(rng, shape=angle_change.shape) * self.traj_noise_std
             )
-            new_angles = (pos[:, -1] + angle_change + jnp.pi) % (2 * jnp.pi) - jnp.pi
-            # update the x-y position (depth remains constant)
-            pos = pos.at[:, -1].set(new_angles)
-
-        if self.actions_as_angles:
-            pos = pos.at[:, -1].set(actions)
-        else:
-            # update the angle
-            angle_change = actions * traj_coeffs + traj_intercepts
-            # add noise
-            angle_change += (
-                jax.random.normal(rng, shape=angle_change.shape) * self.traj_noise_std
+            angle_change = angle_change.at[: self.num_agents].add(
+                angle_noise[: self.num_agents]
             )
             new_angles = (pos[:, -1] + angle_change + jnp.pi) % (2 * jnp.pi) - jnp.pi
             # update the x-y position (depth remains constant)
             pos = pos.at[:, -1].set(new_angles)
 
+        # add noise to velocity of agents only (not landmarks)
+        vel_noise = jax.random.normal(rng, shape=vel.shape) * self.velocity_noise_std
+        vel = vel.at[: self.num_agents].add(vel_noise[: self.num_agents])
         pos = pos.at[:, 0].add(jnp.cos(pos[:, -1]) * vel * self.dt)
         pos = pos.at[:, 1].add(jnp.sin(pos[:, -1]) * vel * self.dt)
         return pos
@@ -666,16 +660,17 @@ def get_obs(self, delta_xyz, ranges, comm_drop, pos, old_pos, land_pred_pos):
         delta_self_pos = delta_self_pos.at[:, 3].set(
             (delta_self_pos[:, 3] + jnp.pi) / (2 * jnp.pi)
         )
-        delta_xyz = self.normalize_distances(delta_xyz)
 
+        # other entities relative distance
+        delta_xyz = self.normalize_distances(delta_xyz)
         other_agents_dist = jnp.where(
             comm_drop[:, :, None], 0, delta_xyz[:, : self.num_agents]
         )  # 0 for communication drop
         self_mask = (
             jnp.arange(self.num_agents) == np.arange(self.num_agents)[:, np.newaxis]
         )
         self_pos_feats = delta_self_pos[: self.num_agents, [0, 1, 3]]
-        self_pos_feats = self_pos_feats.at[:, 2].set(0)
+        self_pos_feats = self_pos_feats.at[:, 2].set(0)  # set angle to 0 for now
         agents_rel_pos = jnp.where(
             self_mask[:, :, None],
             self_pos_feats,
@@ -693,18 +688,20 @@ def get_obs(self, delta_xyz, ranges, comm_drop, pos, old_pos, land_pred_pos):
         is_self_feat = (
             jnp.arange(self.num_entities) == jnp.arange(self.num_agents)[:, np.newaxis]
         )
+        ranges = self.normalize_distances(ranges)
         ranges *= 1.0 if self.ranges_in_obs else 0.0  # mask the ranges if not in obs
         # the distance based feats are rescaled to hundreds of meters (better for NNs)
 
         feats = jnp.concatenate(
             (
                 pos_feats,
-                self.normalize_distances(ranges[:, :, None]),
+                ranges[:, :, None],
                 is_agent_feat[:, :, None],
                 is_self_feat[:, :, None],
             ),
             axis=2,
         )
+        feats = jnp.where(jnp.isnan(feats), 0.0, feats)  # replace nan with 0
 
         # than it is assigned to each agent its obs
         return {
@@ -830,6 +827,8 @@ def get_global_state(
         else:
             state = self.get_vertex_state(pos, vel, ranges, land_pred_pos)
 
+        state = jnp.where(jnp.isnan(state), 0.0, state)  # replace nan with 0
+
         if self.matrix_state:
             return state
         else:
@@ -912,6 +911,8 @@ def exponential_decay(x, x1=self.rew_pred_ideal, x2=self.rew_pred_thr):
             ).any()
             rew = jnp.where(any_agent_lost, -1.0, rew)
 
+        rew = jnp.where(jnp.isnan(rew), 0.0, rew)  # replace nan with 0
+
         # DONE
         done = t == self.max_steps
 
@@ -1013,28 +1014,32 @@ def get_ranges(
             jax.random.normal(key_noise, shape=ranges_real.shape) * self.range_noise_std
         )
 
+        # Add noise to 3D range measurement (physically correct)
         ranges = ranges_real + noise
         lost_range = (
             jax.random.uniform(key_lost, shape=ranges.shape) <= self.lost_comm_prob
         ) | (
             ranges_real > self.max_range_dist
         )  # lost communication or landmark too far
         ranges = jnp.where(lost_range, 0.0, ranges)
-        lost_range = (
-            jax.random.uniform(key_lost, shape=ranges.shape) <= self.lost_comm_prob
-        ) | (
-            ranges_real > self.max_range_dist
-        )  # lost communication or landmark too far
-        ranges = jnp.where(lost_range, 0.0, ranges)
         ranges = fill_diagonal_zeros(ranges)  # reset to 0s the self-ranges
 
-        ranges_2d = ranges_real_2d + noise
-        ranges_2d = jnp.where(lost_range, 0.0, ranges_2d)
-        ranges_2d = fill_diagonal_zeros(ranges_2d)
-
-        ranges_2d = ranges_real_2d + noise
-        ranges_2d = jnp.where(lost_range, 0.0, ranges_2d)
-        ranges_2d = fill_diagonal_zeros(ranges_2d)
+        # Convert noisy 3D measurement to 2D (if depth is known)
+        # This is the physically correct way: measure 3D with noise, then convert to 2D
+        if self.landmark_depth_known:
+            # Calculate depth differences for landmarks (agents to landmarks)
+            delta_z = pos[: self.num_agents, np.newaxis, 2] - pos[:, 2]
+            # Convert noisy 3D range to 2D: r_2d = sqrt(r_3d² - dz²)
+            # Use jnp.maximum to avoid negative values under sqrt
+            ranges_2d_squared = jnp.maximum(ranges**2 - delta_z**2, 0.0)
+            ranges_2d = jnp.sqrt(ranges_2d_squared)
+            # Set to 0 where communication was lost
+            ranges_2d = jnp.where(lost_range, 0.0, ranges_2d)
+            ranges_2d = fill_diagonal_zeros(ranges_2d)
+        else:
+            # If depth is not known, can't convert - use 3D ranges directly
+            # (This is less realistic but keeps backward compatibility)
+            ranges_2d = ranges
 
         return delta_xyz, ranges_real_2d, ranges_real, ranges_2d, ranges