apprentissage_par_renforcement
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
apprentissage_par_renforcement [2021/06/01 11:18] – [Relèvement du pendule appelé Swing-up] serge | apprentissage_par_renforcement [2021/06/01 11:19] – [Résultat du 1er essai] serge | ||
---|---|---|---|
Ligne 168: | Ligne 168: | ||
{{ : | {{ : | ||
- | {{ : | ||
Avec un apprentissage de quelques heures .... | Avec un apprentissage de quelques heures .... | ||
Ligne 195: | Ligne 194: | ||
Les sources sont dans le dossier **[[https:// | Les sources sont dans le dossier **[[https:// | ||
Ce pendule a été construit dans l' | Ce pendule a été construit dans l' | ||
- | {{ vimeo> | ||
- | L' | ||
{{ : | {{ : | ||
+ | |||
+ | L' | ||
La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ | La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ |
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge