apprentissage_par_renforcement
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
apprentissage_par_renforcement [2021/02/11 15:28] – [Réflexions philosophiques] serge | apprentissage_par_renforcement [2022/02/10 07:52] (Version actuelle) – [Apprentissage Par Renforcement] serge | ||
---|---|---|---|
Ligne 23: | Ligne 23: | ||
</ | </ | ||
</ | </ | ||
+ | * Rotary Inverted Pendulum: Swing Up and Stabilization https:// | ||
+ | * Double Inverted Furuta Pendulum https:// | ||
+ | * Furuta Pendulum avec une belle finition https:// | ||
=====Apprentissage par renforcement===== | =====Apprentissage par renforcement===== | ||
* **[[https:// | * **[[https:// | ||
Ligne 42: | Ligne 44: | ||
* [[https:// | * [[https:// | ||
- | ====Principe vulgarisé==== | + | ====Principe vulgarisé |
- | ===Boucle | + | |
* [[https:// | * [[https:// | ||
Ligne 51: | Ligne 52: | ||
{{ : | {{ : | ||
- | ===Apprentissage par renforcement=== | + | ====Principe vulgarisé de l'Apprentissage par Renforcement==== |
+ | **RL = Reinforcement Learning = Apprentissage par Renforcement** | ||
{{ : | {{ : | ||
L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, | L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, | ||
Ligne 165: | Ligne 167: | ||
====Résultat du 1er essai==== | ====Résultat du 1er essai==== | ||
- | {{vimeo> | ||
+ | {{ : | ||
+ | |||
+ | Avec un apprentissage de quelques heures .... | ||
=====Comment est définit l' | =====Comment est définit l' | ||
Ligne 189: | Ligne 193: | ||
Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | ||
===== Relèvement du pendule appelé Swing-up===== | ===== Relèvement du pendule appelé Swing-up===== | ||
- | |||
Les [[https:// | Les [[https:// | ||
Les sources sont dans le dossier **[[https:// | Les sources sont dans le dossier **[[https:// | ||
Ce pendule a été construit dans l' | Ce pendule a été construit dans l' | ||
- | {{ vimeo> | + | |
+ | {{ : | ||
L' | L' | ||
- | Avec du son ce serait encore plus génial ! | ||
=====Quelques explications===== | =====Quelques explications===== | ||
====Relations scripts vs Blender==== | ====Relations scripts vs Blender==== | ||
Ligne 267: | Ligne 271: | ||
Bullet est le moteur physique de Blender | Bullet est le moteur physique de Blender | ||
- | ==== Création de votre propre environnement ==== | ||
- | * [[https:// | ||
- | L' | ||
====Un cartpole réel documenté mais sans RL==== | ====Un cartpole réel documenté mais sans RL==== |
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge