apprentissage_par_renforcement
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
apprentissage_par_renforcement [2021/02/12 10:06] – [Résultat du 1er essai] serge | apprentissage_par_renforcement [2021/05/09 08:38] – [Le Hello World de l'Apprentissage Par Renforcement] serge | ||
---|---|---|---|
Ligne 23: | Ligne 23: | ||
</ | </ | ||
</ | </ | ||
+ | https:// | ||
=====Apprentissage par renforcement===== | =====Apprentissage par renforcement===== | ||
* **[[https:// | * **[[https:// | ||
Ligne 189: | Ligne 189: | ||
Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | ||
===== Relèvement du pendule appelé Swing-up===== | ===== Relèvement du pendule appelé Swing-up===== | ||
- | |||
Les [[https:// | Les [[https:// | ||
Les sources sont dans le dossier **[[https:// | Les sources sont dans le dossier **[[https:// | ||
Ligne 196: | Ligne 195: | ||
L' | L' | ||
+ | {{ : | ||
+ | La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ | ||
Avec du son ce serait encore plus génial ! | Avec du son ce serait encore plus génial ! | ||
=====Quelques explications===== | =====Quelques explications===== |
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge