tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2020/05/30 08:50] – [Suppression des stopwords] serge | tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2021/08/21 22:10] – ↷ Liens modifiés en raison d'un déplacement. 54.36.149.43 | ||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
<WRAP center round box 80% centeralign> | <WRAP center round box 80% centeralign> | ||
**Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | **Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | ||
+ | </ | ||
+ | |||
+ | <WRAP center round box 80% centeralign> | ||
+ | **La page suivante est [[archives: | ||
</ | </ | ||
===== Sources ===== | ===== Sources ===== | ||
+ | Tout le code utilisé ici se trouve à: | ||
* **[[https:// | * **[[https:// | ||
+ | Les liens de code pointent directement à la ligne du github. | ||
===== Ressources ===== | ===== Ressources ===== | ||
- | * **[[https:// | + | * **[[https:// |
+ | * **[[https:// | ||
===== Récupération des datas ===== | ===== Récupération des datas ===== | ||
- | Les fables sont récupérées sur le site **[[http:// | + | Les fables |
Merci à son auteur. | Merci à son auteur. | ||
Ligne 49: | Ligne 55: | ||
* [[https:// | * [[https:// | ||
+ | Les fables sont reproupées par livre, numéroté livre-i (i de 1 à 12), [[https:// | ||
==== Exploration ==== | ==== Exploration ==== | ||
+ | <WRAP group> | ||
+ | <WRAP half column> | ||
* [[https:// | * [[https:// | ||
{{: | {{: | ||
* [[https:// | * [[https:// | ||
{{: | {{: | ||
+ | </ | ||
+ | |||
+ | <WRAP half column> | ||
* [[https:// | * [[https:// | ||
{{: | {{: | ||
* [[https:// | * [[https:// | ||
{{: | {{: | ||
+ | </ | ||
+ | </ | ||
+ | ===== Etape 2: Nettoyer et normaliser les données ===== | ||
+ | Script | ||
+ | ====Suppression des stop words ou Mot vide==== | ||
+ | En recherche d' | ||
+ | Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: [[https:// | ||
- | |||
- | ===== Etape 2: Nettoyez et normalisez les données ===== | ||
- | **[[|Script etape_2.py]]** | ||
- | ====Suppression des stopwords==== | ||
* [[|words_frequency_without_stopwords]] | * [[|words_frequency_without_stopwords]] | ||
- | {{: | + | {{ :media_10:fable_06.png?400 |}} |
- | ====S==== | + | Si je n'ai pas fais d' |
+ | |||
+ | ====Racinisation (Stemming en EN)==== | ||
+ | En linguistique, | ||
+ | |||
+ | * [[https:// | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | ===== Etape 3 Représentation du corpus en bag of words ===== | ||
+ | ====Cooccurrence==== | ||
+ | * **[[https:// | ||
+ | ====Bi-gram ==== | ||
+ | * **[[https:// | ||
+ | ====TF-IDF==== | ||
+ | * * **[[https:// | ||
+ | ====Représentation du TF-IDF==== | ||
+ | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn et qui soit juste, et comme c'est inutile pour la suite, je passe (en python pass). | ||
+ | |||
+ | ===== Plongement de mots - word embedding ===== | ||
+ | ====Wikipedia==== | ||
+ | * Le **[[https:// | ||
+ | |||
+ | Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. | ||
+ | La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d' | ||
+ | |||
+ | Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir **[[https:// | ||
+ | |||
+ | Une image uniquement pour faire joli et épater en société ! | ||
+ | {{ : | ||
+ | ====Gensim==== | ||
+ | * Voir **[[https:// | ||
+ | |||
+ | |||
+ | ===== Réseaux de neurones ===== | ||
+ | * **[[archives: | ||
+ | |||
+ | |||
+ | {{tag> apprentissage_automatique python text_gen }} | ||
- | ===== Etape 3 ===== | ||
- | ===== Etape 4 ===== | ||
- | ===== Etape 5 ===== | ||
- | ===== Etape 6 ===== | ||
- | {{tag> |
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.txt · Dernière modification : 2022/02/08 15:59 de serge