Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Dernière révision Les deux révisions suivantes
apprentissage_par_renforcement [2021/02/13 13:42]
serge [Relèvement du pendule appelé Swing-up]
apprentissage_par_renforcement [2021/02/13 13:43]
serge [Relèvement du pendule appelé Swing-up]
Ligne 195: Ligne 195:
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.  L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent. 
  
-{{ :media_14:swingup_efficiency.png?400 |}}+{{ :media_14:swingup_efficiency.png?300 |}}
 La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
 Avec du son ce serait encore plus génial ! Avec du son ce serait encore plus génial !
apprentissage_par_renforcement.txt · Dernière modification: 2021/05/09 10:38 de serge