rl/README extended.

Błażej O · Błażej O · commit d435ee81813b · 2018-03-08T18:08:47.000+01:00
diff --git a/tensor2tensor/rl/README.md b/tensor2tensor/rl/README.md
@@ -7,14 +7,47 @@ for now and under heavy development.
 
 Currently the only supported algorithm is Proximy Policy Optimization - PPO.
 
-## Sample usage - training in the Pendulum-v0 environment.
-
-```python rl/t2t_rl_trainer.py --problems=Pendulum-v0 --hparams_set continuous_action_base [--output_dir dir_location]```
-
-## Sample usage - training in the PongNoFrameskip-v0 environment.
-
-```python tensor2tensor/rl/t2t_rl_trainer.py --problem stacked_pong --hparams_set atari_base --hparams num_agents=5 [--output_dir dir_location]```
-
-## Sample usage - generation of trajectories data
-
-```python tensor2tensor/bin/t2t-datagen --data_dir=~/t2t_data --tmp_dir=~/t2t_data/tmp --problem=gym_pong_trajectories_from_policy --model_path [model]```
+# Sample usages
+
+## Training agent in the Pendulum-v0 environment.
+
+```
+python rl/t2t_rl_trainer.py \
+  --problems=Pendulum-v0 \
+  --hparams_set continuous_action_base \
+  [--output_dir dir_location]
+```
+
+## Training agent in the PongNoFrameskip-v0 environment.
+
+```
+python tensor2tensor/rl/t2t_rl_trainer.py \
+  --problem stacked_pong \
+  --hparams_set atari_base \
+  --hparams num_agents=5 \
+  [--output_dir dir_location]
+```
+
+## Generation of trajectories data
+
+```
+python tensor2tensor/bin/t2t-datagen \
+  --data_dir=~/t2t_data \
+  --tmp_dir=~/t2t_data/tmp \
+  --problem=gym_pong_trajectories_from_policy \
+  --model_path [model]
+```
+
+## Training model for frames generation based on randomly played games
+
+```
+python tensor2tensor/bin/t2t-trainer \
+  --generate_data \
+  --data_dir=~/t2t_data \
+  --output_dir=~/t2t_data/output \
+  --problems=gym_pong_random5k \
+  --model=basic_conv_gen \
+  --hparams_set=basic_conv_small \
+  --train_steps=1000 \
+  --eval_steps=10
+```