johnjim0816 · GeYuhong · Apr 4, 2023 · Apr 4, 2023 · Apr 4, 2023
diff --git a/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/config.yaml b/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/config.yaml
@@ -0,0 +1,44 @@
+general_cfg:
+  algo_name: DQN
+  device: cpu
+  env_name: MountainCar-v0
+  eval_eps: 10
+  eval_per_episode: 5
+  load_checkpoint: true
+  load_path: Train_MountainCar-v0_DQN_20230404-130132
+  max_steps: 200
+  mode: test
+  new_step_api: true
+  render: true
+  render_mode: human
+  save_fig: true
+  seed: 1
+  show_fig: false
+  test_eps: 20
+  train_eps: 300
+  wrapper: null
+algo_cfg:
+  batch_size: 64
+  buffer_size: 50000
+  epsilon_decay: 1000
+  epsilon_end: 0.01
+  epsilon_start: 0.99
+  gamma: 0.99
+  lr: 0.01
+  target_update: 4
+  value_layers:
+  - activation: relu
+    layer_dim:
+    - n_states
+    - 256
+    layer_type: linear
+  - activation: relu
+    layer_dim:
+    - 256
+    - 256
+    layer_type: linear
+  - activation: none
+    layer_dim:
+    - 256
+    - n_actions
+    layer_type: linear
diff --git a/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/logs/log.txt b/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/logs/log.txt
@@ -0,0 +1,60 @@
+2023-04-04 13:40:35 - r - INFO: - Hyperparameters:
+2023-04-04 13:40:35 - r - INFO: - ================================================================================
+2023-04-04 13:40:35 - r - INFO: -         Name        	       Value        	        Type        
+2023-04-04 13:40:35 - r - INFO: -       env_name      	   MountainCar-v0   	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -     new_step_api    	         1          	   <class 'bool'>   
+2023-04-04 13:40:35 - r - INFO: -       wrapper       	        None        	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -        render       	         1          	   <class 'bool'>   
+2023-04-04 13:40:35 - r - INFO: -      algo_name      	        DQN         	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -         mode        	        test        	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -         seed        	         1          	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -        device       	        cpu         	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -      train_eps      	        300         	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -       test_eps      	         20         	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -       eval_eps      	         10         	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -   eval_per_episode  	         5          	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -      max_steps      	        200         	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -   load_checkpoint   	         1          	   <class 'bool'>   
+2023-04-04 13:40:35 - r - INFO: -      load_path      	Train_MountainCar-v0_DQN_20230404-130132	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -       show_fig      	         0          	   <class 'bool'>   
+2023-04-04 13:40:35 - r - INFO: -       save_fig      	         1          	   <class 'bool'>   
+2023-04-04 13:40:35 - r - INFO: -     render_mode     	       human        	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -    epsilon_start    	        0.99        	  <class 'float'>   
+2023-04-04 13:40:35 - r - INFO: -     epsilon_end     	        0.01        	  <class 'float'>   
+2023-04-04 13:40:35 - r - INFO: -    epsilon_decay    	        1000        	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -        gamma        	        0.99        	  <class 'float'>   
+2023-04-04 13:40:35 - r - INFO: -          lr         	        0.01        	  <class 'float'>   
+2023-04-04 13:40:35 - r - INFO: -     buffer_size     	       50000        	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -      batch_size     	         64         	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -    target_update    	         4          	   <class 'int'>    
+2023-04-04 13:40:35 - r - INFO: -     value_layers    	[{'activation': 'relu', 'layer_dim': ['n_states', 256], 'layer_type': 'linear'}, {'activation': 'relu', 'layer_dim': [256, 256], 'layer_type': 'linear'}, {'activation': 'none', 'layer_dim': [256, 'n_actions'], 'layer_type': 'linear'}]	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -       task_dir      	/home/PJLAB/geyuhong/rl-tutorials/joyrl/tasks/Test_MountainCar-v0_DQN_20230404-134035	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -      model_dir      	/home/PJLAB/geyuhong/rl-tutorials/joyrl/tasks/Test_MountainCar-v0_DQN_20230404-134035/models	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -       res_dir       	/home/PJLAB/geyuhong/rl-tutorials/joyrl/tasks/Test_MountainCar-v0_DQN_20230404-134035/results	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -       log_dir       	/home/PJLAB/geyuhong/rl-tutorials/joyrl/tasks/Test_MountainCar-v0_DQN_20230404-134035/logs	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: -       traj_dir      	/home/PJLAB/geyuhong/rl-tutorials/joyrl/tasks/Test_MountainCar-v0_DQN_20230404-134035/traj	   <class 'str'>    
+2023-04-04 13:40:35 - r - INFO: - ================================================================================
+2023-04-04 13:40:35 - r - INFO: - n_states: 2, n_actions: 3
+2023-04-04 13:40:35 - r - INFO: - Start testing!
+2023-04-04 13:40:35 - r - INFO: - Env: MountainCar-v0, Algorithm: DQN, Device: cpu
+2023-04-04 13:40:40 - r - INFO: - Episode: 1/20, Reward: -112.000, Step: 112
+2023-04-04 13:40:43 - r - INFO: - Episode: 2/20, Reward: -112.000, Step: 112
+2023-04-04 13:40:47 - r - INFO: - Episode: 3/20, Reward: -112.000, Step: 112
+2023-04-04 13:40:51 - r - INFO: - Episode: 4/20, Reward: -112.000, Step: 112
+2023-04-04 13:40:55 - r - INFO: - Episode: 5/20, Reward: -112.000, Step: 112
+2023-04-04 13:40:58 - r - INFO: - Episode: 6/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:02 - r - INFO: - Episode: 7/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:06 - r - INFO: - Episode: 8/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:10 - r - INFO: - Episode: 9/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:13 - r - INFO: - Episode: 10/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:17 - r - INFO: - Episode: 11/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:21 - r - INFO: - Episode: 12/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:24 - r - INFO: - Episode: 13/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:28 - r - INFO: - Episode: 14/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:32 - r - INFO: - Episode: 15/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:36 - r - INFO: - Episode: 16/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:39 - r - INFO: - Episode: 17/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:43 - r - INFO: - Episode: 18/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:47 - r - INFO: - Episode: 19/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:51 - r - INFO: - Episode: 20/20, Reward: -112.000, Step: 112
+2023-04-04 13:41:51 - r - INFO: - Finish testing!
diff --git a/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/models/checkpoint.pt b/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/models/checkpoint.pt
diff --git a/...l/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/results/learning_curve.png b/...l/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/results/learning_curve.png
diff --git a/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/results/res.csv b/joyrl/benchmarks/Test_MountainCar-v0_DQN_20230404-134035/results/res.csv
@@ -0,0 +1,21 @@
+episodes,rewards,steps
+0,-112.0,112
+1,-112.0,112
+2,-112.0,112
+3,-112.0,112
+4,-112.0,112
+5,-112.0,112
+6,-112.0,112
+7,-112.0,112
+8,-112.0,112
+9,-112.0,112
+10,-112.0,112
+11,-112.0,112
+12,-112.0,112
+13,-112.0,112
+14,-112.0,112
+15,-112.0,112
+16,-112.0,112
+17,-112.0,112
+18,-112.0,112
+19,-112.0,112
diff --git a/joyrl/benchmarks/Train_MountainCar-v0_DQN_20230404-130132/config.yaml b/joyrl/benchmarks/Train_MountainCar-v0_DQN_20230404-130132/config.yaml
@@ -0,0 +1,43 @@
+general_cfg:
+  algo_name: DQN
+  device: cpu
+  env_name: MountainCar-v0
+  eval_eps: 10
+  eval_per_episode: 5
+  load_checkpoint: false
+  load_path: tasks
+  max_steps: 200
+  mode: train
+  new_step_api: true
+  render: false
+  save_fig: true
+  seed: 1
+  show_fig: false
+  test_eps: 20
+  train_eps: 300
+  wrapper: null
+algo_cfg:
+  batch_size: 64
+  buffer_size: 50000
+  epsilon_decay: 1000
+  epsilon_end: 0.01
+  epsilon_start: 0.99
+  gamma: 0.99
+  lr: 0.01
+  target_update: 4
+  value_layers:
+  - activation: relu
+    layer_dim:
+    - n_states
+    - 256
+    layer_type: linear
+  - activation: relu
+    layer_dim:
+    - 256
+    - 256
+    layer_type: linear
+  - activation: none
+    layer_dim:
+    - 256
+    - n_actions
+    layer_type: linear