Différences

Ci-dessous, les différences entre deux révisions de la page.

--- aitextgen [2020/06/24 16:34] – [Configuration] serge
+++ aitextgen [2020/07/01 14:31] – [OpenAI] serge
@@ Ligne 28: / Ligne 28: @@
 ====OpenAI====
-  * **[[https://fr.wikipedia.org/wiki/OpenAI|OpenAI sur Wikipedia]]**: OpenAI est une entreprise à « but lucratif plafonné » en intelligence artificielle, basée à San Francisco. L'objectif de cette société est de promouvoir et développer une intelligence artificielle à visage humain qui bénéficiera à toute l'humanité. OpenAI a mis au point une intelligence artificielle nommée **[[https://fr.wikipedia.org/wiki/OpenAI#GPT2|GPT2]]** capable d'écrire des articles de presse et des œuvres de fiction. Reposant sur un générateur de texte qui assimile les mots reçus et détermine la suite la plus logique qu'elle retransmet dans le même style, elle s'avère particulièrement performante, à tel point qu'il est impossible de faire la différence avec un texte écrit par un être humain7.\\ Les chercheurs retardent la publication de leurs recherches car ils estiment que **GPT2 a un potentiel « trop dangereux »**, étant donné que cette IA pourrait à terme servir à des actes mal intentionnées comme générer des avis négatifs ou positifs sur des produits, des spams, des textes complotistes, voire des fausses nouvelles8.
+  * **[[https://fr.wikipedia.org/wiki/OpenAI|OpenAI sur Wikipedia]]**: OpenAI est une entreprise à « but lucratif plafonné » en intelligence artificielle, basée à San Francisco. L'objectif de cette société est de promouvoir et développer une intelligence artificielle à visage humain qui bénéficiera à toute l'humanité. OpenAI a mis au point une intelligence artificielle nommée **[[https://fr.wikipedia.org/wiki/OpenAI#GPT2|GPT2]]** capable d'écrire des articles de presse et des œuvres de fiction. Reposant sur un générateur de texte qui assimile les mots reçus et détermine la suite la plus logique qu'elle retransmet dans le même style, elle s'avère particulièrement performante, à tel point qu'il est impossible de faire la différence avec un texte écrit par un être humain7.\\ Les chercheurs retardent la publication de leurs recherches car ils estiment que **GPT2 a un potentiel « trop dangereux »**, étant donné que cette IA pourrait à terme servir à des actes mal intentionnées comme générer des avis négatifs ou positifs sur des produits, des spams, des textes complotistes, voire des fausses nouvelles.
 ====Controverse sur GPT-2====
@@ Ligne 224: / Ligne 224: @@
 ai.generate(n=1, prompt=prompt, max_length=100, temperature=0.8, return_as_list=True)
-"""
-See this article by Huggingface engineer Patrick von Platen for how sampling and
-these parameters are used in practice.
-n: Number of texts generated.
-max_length: Maximum length of the generated text (default: 200; for GPT-2, the maximum is 1024.)
-prompt: Prompt that starts the generated text and is included in the generate text. (used to be prefix in previous tools)
-temperature: Controls the "craziness" of the text (default: 0.7)
-top_k: If nonzero, limits the sampled tokens to the top k values. (default: 0)
-top_p: If nonzero, limits the sampled tokens to the cumulative probability
-Some lesser-known-but-still-useful-parameters that are unique to Transformers:
-num_beams: If greater than 1, executes beam search for cleaner text.
-repetition_penalty: If greater than 1.0, penalizes repetition in a text to avoid infinite loops.
-length_penalty: If greater than 1.0, penalizes text proportional to the length
-no_repeat_ngram_size: Token length to avoid repeating given phrases.
-input_context = 'The dog'
-input_ids = tokenizer.encode(input_context, return_tensors='pt')  # encode input context
-"""
 </code>
@@ Ligne 271: / Ligne 250: @@
 ai.train(data, batch_size=32, num_steps=150000)
 </code>
+=====Victor Hugo=====
+Toutes l’œuvre de Victor Hugo est libre, et comme Victor a beaucoup écrit et particulièrement bien, cela fournit de bonnes datas pour l'apprentissage.
+Toutes sont oeuvre a été téléchargée sur [[http://www.bouquineux.com/index.php?ebooks=36&Hugo&page=1|bouquineux.com]] au format epub.
+Conversion de *.epub vers *.txt avec pypandoc, puis regroupement de tous les poèmes dans poesie.txt et tous les romans dans roman.txt
+===Nettoyage des datas===
+Les sauts de lignes, les sommaires ... doivent être nettoyés: avec clean_txt.py
+Le nettoyage des datas est très important, ce n'est pas drôle, il faut vérifier le résultat obtenu en tapant au hasard dans le texte.
+La génération de texte est une représentation fidèle du texte d'apprentissage: par exemple si il y a beaucoup de saut de ligne, le texte généré aura aussi plein de saut de ligne.
+====Poésie====
+===Config===
+<code>
+vocab_size=10000
+n_positions=1024
+n_ctx=1024
+n_embd=768
+n_layer=12
+n_head=12
+bos_token_id=0
+eos_token_id=0
+max_length=1024
+dropout=0.0
+batch_size=32
+num_steps=180000
+temps de training 26:37:34
+Encoding 50,741 sets of tokens from ./poesie_clean.txt
+debut Loss: 6.521 — Avg: 8.438 — GPU Mem: 5174 MB
+fin   Loss: 0.140 — Avg: 0.141
+</code>
+====Roman====