apprentissage_par_renforcement
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédente | Prochaine révisionLes deux révisions suivantes | ||
apprentissage_par_renforcement [2021/06/01 11:18] – [Relèvement du pendule appelé Swing-up] serge | apprentissage_par_renforcement [2021/06/01 11:18] – [Relèvement du pendule appelé Swing-up] serge | ||
---|---|---|---|
Ligne 195: | Ligne 195: | ||
Les sources sont dans le dossier **[[https:// | Les sources sont dans le dossier **[[https:// | ||
Ce pendule a été construit dans l' | Ce pendule a été construit dans l' | ||
- | {{ vimeo> | ||
- | L' | ||
{{ : | {{ : | ||
+ | |||
+ | L' | ||
La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ | La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ |
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge