Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2021/06/01 11:18] – [Relèvement du pendule appelé Swing-up] serge
+++ apprentissage_par_renforcement [2021/06/01 11:19] – [Résultat du 1er essai] serge
@@ Ligne 168: / Ligne 168: @@
 {{ :media_14:cartpole_avec_blender_game_engine.mp4 |}}
-{{ :media_14:cubemos_skeleton_blender.mp4 |}}
 Avec un apprentissage de quelques heures ....
@@ Ligne 195: / Ligne 194: @@
 Les sources sont dans le dossier **[[https://github.com/sergeLabo/balance/tree/main/redressement|redressement]]** de balance. [[https://github.com/sergeLabo/balance/blob/main/redressement/swing_avec_reprise.py|Training ou Rendu]] en modifiant le script ligne 47.L'import de my_gym est réalisé avec un chemin absolu, pour tester il faut adapter ce chemin à votre cas.\\
 Ce pendule a été construit dans l'**Atelier du C01N de mon salon**:
-{{ vimeo>510756033?large }}
-L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
 {{ :media_14:swingup_dans_le_blender_game_engine.mp4?500 |}}
+L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
 La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\