Ceci est une ancienne révision du document !
Table des matières
Text Processing and Machine Learning
Définitions
Text processing
In computing, the term text processing refers to the theory and practice of automating the creation or manipulation of electronic text.
TAL
Le traitement automatique du langage naturel (abr. TALN), ou traitement automatique de la langue naturelle1, ou encore traitement automatique des langues (abr. TAL) est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement de la langue naturelle pour diverses applications.
Ressources
- Analysez vos données textuelles sur OpenClassrooms. L'exemple est trop compliqué pour expliquer des notions simples. De plus, l'exemple n'est pas fourni, le code est partiel (avec des erreurs et un mauvais respect du PEP8). C'est en français et ça a le mérite d'exister.
En anglais, beaucoup de ressources, en particulier:
Analyse du corpus
Récupérération de textes et exploration du corpus
Récupérération du texte de l'exemple
Cet exemple analyse le texte défini dans text.py par
TEXT = “”“un texte”““
Import de TEXT dans text_process_ex.py avec:
# Import comme module --> pas de fichier à lire from text import TEXT # TEXT est une varible globale
TEXT est notre corpus
En général
Le corpus sera soit une liste, un dictionnaire, un set de string, récupéré dans une DB, dans du html, dans des fichiers … qu'il peut être nécessaire de nettoyer, arranger.