Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2022/02/04 08:24] – [Principe vulgarisé de l'Apprentissage par Renforcement] serge
+++ apprentissage_par_renforcement [2022/02/10 07:52] (Version actuelle) – [Apprentissage Par Renforcement] serge
@@ Ligne 201: / Ligne 201: @@
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
-Avec du son ce serait encore plus génial !
 =====Quelques explications=====
 ====Relations scripts vs Blender====
@@ Ligne 273: / Ligne 271: @@
 Bullet est le moteur physique de Blender
-==== Création de votre propre environnement ====
-  * [[https://github.com/openai/gym/blob/master/docs/creating-environments.md|How to create new environments for Gym]] @  openai / gym\\
-L'étape suivante de la visualisation dans blender serait de créer un environnement spécifique pour ce my_cartpole et l'installer en dur. Puis d'utiliser gym en l'installant et supprimant les imports locaux de gym.
 ====Un cartpole réel documenté mais sans RL====