tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2020/06/01 08:36] – [Bi-gram] serge | tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2021/08/21 22:10] – ↷ Liens modifiés en raison d'un déplacement. 54.36.149.43 | ||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
<WRAP center round box 80% centeralign> | <WRAP center round box 80% centeralign> | ||
**Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | **Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | ||
+ | </ | ||
+ | |||
+ | <WRAP center round box 80% centeralign> | ||
+ | **La page suivante est [[archives: | ||
</ | </ | ||
Ligne 17: | Ligne 21: | ||
===== Ressources ===== | ===== Ressources ===== | ||
- | * **[[https:// | + | * **[[https:// |
+ | * **[[https:// | ||
===== Récupération des datas ===== | ===== Récupération des datas ===== | ||
Les fables de **[[https:// | Les fables de **[[https:// | ||
Ligne 67: | Ligne 72: | ||
</ | </ | ||
</ | </ | ||
- | |||
- | |||
- | |||
- | |||
- | |||
===== Etape 2: Nettoyer et normaliser les données ===== | ===== Etape 2: Nettoyer et normaliser les données ===== | ||
Ligne 89: | Ligne 89: | ||
{{ : | {{ : | ||
+ | |||
===== Etape 3 Représentation du corpus en bag of words ===== | ===== Etape 3 Représentation du corpus en bag of words ===== | ||
====Cooccurrence==== | ====Cooccurrence==== | ||
* **[[https:// | * **[[https:// | ||
- | |||
- | |||
====Bi-gram ==== | ====Bi-gram ==== | ||
* **[[https:// | * **[[https:// | ||
- | |||
- | * * **[[https:// | ||
====TF-IDF==== | ====TF-IDF==== | ||
+ | * * **[[https:// | ||
====Représentation du TF-IDF==== | ====Représentation du TF-IDF==== | ||
- | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn, et comme c'est inutile pour la suite, je passe (en python pass). | + | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn |
+ | |||
+ | ===== Plongement de mots - word embedding ===== | ||
+ | ====Wikipedia==== | ||
+ | * Le **[[https:// | ||
+ | |||
+ | Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. | ||
+ | La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d' | ||
+ | |||
+ | Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir **[[https:// | ||
+ | |||
+ | Une image uniquement pour faire joli et épater en société ! | ||
+ | {{ : | ||
+ | ====Gensim==== | ||
+ | * Voir **[[https:// | ||
+ | |||
+ | |||
+ | ===== Réseaux de neurones ===== | ||
+ | * **[[archives: | ||
+ | {{tag> apprentissage_automatique python text_gen }} | ||
- | ===== Etape 4 ===== | ||
- | ===== Etape 5 ===== | ||
- | ===== Etape 6 ===== | ||
- | {{tag> |
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.txt · Dernière modification : 2022/02/08 15:59 de serge