tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteDernière révisionLes deux révisions suivantes | ||
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2020/05/29 12:52] – [Ressources] serge | tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2022/02/08 15:54] – Tag0 Added: tal serge | ||
---|---|---|---|
Ligne 10: | Ligne 10: | ||
</ | </ | ||
- | ===== Sources ===== | + | <WRAP center round box 80% centeralign> |
+ | **La page suivante est [[archives: | ||
+ | </ | ||
+ | ===== Sources ===== | ||
+ | Tout le code utilisé ici se trouve à: | ||
+ | * **[[https:// | ||
+ | Les liens de code pointent directement à la ligne du github. | ||
===== Ressources ===== | ===== Ressources ===== | ||
- | * [[https:// | + | |
+ | * **[[https:// | ||
===== Récupération des datas ===== | ===== Récupération des datas ===== | ||
- | Les fables sont récupérées sur le site **[[http:// | + | Les fables |
Merci à son auteur. | Merci à son auteur. | ||
Ligne 42: | Ligne 48: | ||
</ | </ | ||
- | ===== Etape 1 ===== | + | =====Installation==== |
- | ===== Etape 2 ===== | + | sudo pip3 install pandas |
- | ===== Etape 3 ===== | + | ===== Etape 1: Exploration du texte ===== |
- | ===== Etape 4 ===== | + | ==== Récupération du corpus ==== |
- | ===== Etape 5 ===== | + | |
- | ===== Etape 6 ===== | + | * [[https:// |
+ | |||
+ | Les fables sont reproupées par livre, numéroté livre-i (i de 1 à 12), [[https:// | ||
+ | ==== Exploration ==== | ||
+ | <WRAP group> | ||
+ | <WRAP half column> | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | </ | ||
+ | |||
+ | <WRAP half column> | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | </ | ||
+ | </ | ||
+ | |||
+ | ===== Etape 2: Nettoyer et normaliser les données | ||
+ | Script | ||
+ | ====Suppression des stop words ou Mot vide==== | ||
+ | En recherche d' | ||
+ | Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: [[https:// | ||
+ | |||
+ | * [[|words_frequency_without_stopwords]] | ||
+ | {{ : | ||
+ | Si je n'ai pas fais d' | ||
+ | |||
+ | ====Racinisation (Stemming en EN)==== | ||
+ | En linguistique, | ||
+ | |||
+ | * [[https:// | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | ===== Etape 3 Représentation du corpus en bag of words ===== | ||
+ | ====Cooccurrence==== | ||
+ | * **[[https:// | ||
+ | ====Bi-gram | ||
+ | * **[[https:// | ||
+ | ====TF-IDF==== | ||
+ | * * **[[https:// | ||
+ | ====Représentation du TF-IDF==== | ||
+ | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn et qui soit juste, et comme c'est inutile pour la suite, je passe (en python pass). | ||
+ | |||
+ | ===== Plongement de mots - word embedding | ||
+ | ====Wikipedia==== | ||
+ | * Le **[[https:// | ||
+ | |||
+ | Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. | ||
+ | La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d' | ||
+ | |||
+ | Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir **[[https:// | ||
+ | |||
+ | Une image uniquement pour faire joli et épater en société ! | ||
+ | {{ : | ||
+ | ====Gensim==== | ||
+ | * Voir **[[https:// | ||
+ | |||
+ | |||
+ | ===== Réseaux de neurones ===== | ||
+ | * **[[archives: | ||
+ | |||
+ | |||
+ | {{tag> apprentissage_automatique python tal text_gen }} | ||
- | {{tag> |
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.txt · Dernière modification : 2022/02/08 15:59 de serge