Reinforcement learning for hyperparameter optimization

Hi,

i'm trying to improve this software by adding Reinforcement learning for hyperparameter optimization： Rainbow based on
Q-learnin and Proximal Policy Optimization (PPO).

has anyone ever worked on it?