tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédenteDernière révisionLes deux révisions suivantes | ||
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2020/05/30 10:42] – [Exploration] serge | tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2022/02/08 15:54] – Tag0 Added: tal serge | ||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
<WRAP center round box 80% centeralign> | <WRAP center round box 80% centeralign> | ||
**Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | **Cette page est la suite de [[Text Processing and Machine Learning TAL]]** | ||
+ | </ | ||
+ | |||
+ | <WRAP center round box 80% centeralign> | ||
+ | **La page suivante est [[archives: | ||
</ | </ | ||
===== Sources ===== | ===== Sources ===== | ||
+ | Tout le code utilisé ici se trouve à: | ||
* **[[https:// | * **[[https:// | ||
+ | Les liens de code pointent directement à la ligne du github. | ||
===== Ressources ===== | ===== Ressources ===== | ||
- | * **[[https:// | + | * **[[https:// |
+ | * **[[https:// | ||
===== Récupération des datas ===== | ===== Récupération des datas ===== | ||
Les fables de **[[https:// | Les fables de **[[https:// | ||
Ligne 49: | Ligne 55: | ||
* [[https:// | * [[https:// | ||
+ | Les fables sont reproupées par livre, numéroté livre-i (i de 1 à 12), [[https:// | ||
==== Exploration ==== | ==== Exploration ==== | ||
<WRAP group> | <WRAP group> | ||
Ligne 66: | Ligne 73: | ||
</ | </ | ||
+ | ===== Etape 2: Nettoyer et normaliser les données ===== | ||
+ | Script | ||
+ | ====Suppression des stop words ou Mot vide==== | ||
+ | En recherche d' | ||
+ | Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: [[https:// | ||
+ | * [[|words_frequency_without_stopwords]] | ||
+ | {{ : | ||
+ | Si je n'ai pas fais d' | ||
+ | ====Racinisation (Stemming en EN)==== | ||
+ | En linguistique, | ||
+ | * [[https:// | ||
+ | {{ : | ||
- | ===== Etape 2: Nettoyer et normaliser les données | + | ===== Etape 3 Représentation du corpus en bag of words ===== |
- | Script | + | ====Cooccurrence==== |
- | ====Suppression des stopwords==== | + | * **[[https:// |
- | * [[|words_frequency_without_stopwords]] | + | ====Bi-gram |
- | {{: | + | |
- | Si je n'ai pas fais d' | + | ====TF-IDF==== |
- | ====S==== | + | * * **[[https:// |
+ | ====Représentation du TF-IDF==== | ||
+ | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn et qui soit juste, et comme c'est inutile pour la suite, je passe (en python pass). | ||
+ | |||
+ | ===== Plongement de mots - word embedding ===== | ||
+ | ====Wikipedia==== | ||
+ | | ||
+ | |||
+ | Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. | ||
+ | La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d' | ||
+ | |||
+ | Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir **[[https:// | ||
+ | |||
+ | Une image uniquement pour faire joli et épater en société ! | ||
+ | {{ :media_10:cbow_eta_skipgram.png?400 |}} | ||
+ | ====Gensim==== | ||
+ | * Voir **[[https:// | ||
+ | |||
+ | |||
+ | ===== Réseaux de neurones | ||
+ | * **[[archives: | ||
+ | |||
+ | |||
+ | {{tag> apprentissage_automatique python tal text_gen }} | ||
- | ===== Etape 3 ===== | ||
- | ===== Etape 4 ===== | ||
- | ===== Etape 5 ===== | ||
- | ===== Etape 6 ===== | ||
- | {{tag> |
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.txt · Dernière modification : 2022/02/08 15:59 de serge