aitextgen
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
aitextgen [2020/06/24 16:34] – [Configuration] serge | aitextgen [2020/07/01 14:31] – [OpenAI] serge | ||
---|---|---|---|
Ligne 28: | Ligne 28: | ||
====OpenAI==== | ====OpenAI==== | ||
- | * **[[https:// | + | * **[[https:// |
====Controverse sur GPT-2==== | ====Controverse sur GPT-2==== | ||
Ligne 224: | Ligne 224: | ||
ai.generate(n=1, | ai.generate(n=1, | ||
- | """ | ||
- | See this article by Huggingface engineer Patrick von Platen for how sampling and | ||
- | these parameters are used in practice. | ||
- | |||
- | n: Number of texts generated. | ||
- | max_length: Maximum length of the generated text (default: 200; for GPT-2, the maximum is 1024.) | ||
- | prompt: Prompt that starts the generated text and is included in the generate text. (used to be prefix in previous tools) | ||
- | temperature: | ||
- | top_k: If nonzero, limits the sampled tokens to the top k values. (default: 0) | ||
- | top_p: If nonzero, limits the sampled tokens to the cumulative probability | ||
- | |||
- | Some lesser-known-but-still-useful-parameters that are unique to Transformers: | ||
- | |||
- | num_beams: If greater than 1, executes beam search for cleaner text. | ||
- | repetition_penalty: | ||
- | length_penalty: | ||
- | no_repeat_ngram_size: | ||
- | |||
- | input_context = 'The dog' | ||
- | input_ids = tokenizer.encode(input_context, | ||
- | """ | ||
</ | </ | ||
Ligne 271: | Ligne 250: | ||
ai.train(data, | ai.train(data, | ||
</ | </ | ||
+ | |||
+ | =====Victor Hugo===== | ||
+ | Toutes l’œuvre de Victor Hugo est libre, et comme Victor a beaucoup écrit et particulièrement bien, cela fournit de bonnes datas pour l' | ||
+ | |||
+ | Toutes sont oeuvre a été téléchargée sur [[http:// | ||
+ | |||
+ | Conversion de *.epub vers *.txt avec pypandoc, puis regroupement de tous les poèmes dans poesie.txt et tous les romans dans roman.txt | ||
+ | |||
+ | ===Nettoyage des datas=== | ||
+ | Les sauts de lignes, les sommaires ... doivent être nettoyés: avec clean_txt.py | ||
+ | |||
+ | Le nettoyage des datas est très important, ce n'est pas drôle, il faut vérifier le résultat obtenu en tapant au hasard dans le texte. | ||
+ | |||
+ | La génération de texte est une représentation fidèle du texte d' | ||
+ | |||
+ | ====Poésie==== | ||
+ | |||
+ | ===Config=== | ||
+ | < | ||
+ | vocab_size=10000 | ||
+ | n_positions=1024 | ||
+ | n_ctx=1024 | ||
+ | n_embd=768 | ||
+ | n_layer=12 | ||
+ | n_head=12 | ||
+ | bos_token_id=0 | ||
+ | eos_token_id=0 | ||
+ | max_length=1024 | ||
+ | dropout=0.0 | ||
+ | batch_size=32 | ||
+ | num_steps=180000 | ||
+ | |||
+ | temps de training 26:37:34 | ||
+ | Encoding 50,741 sets of tokens from ./ | ||
+ | debut Loss: 6.521 — Avg: 8.438 — GPU Mem: 5174 MB | ||
+ | fin Loss: 0.140 — Avg: 0.141 | ||
+ | </ | ||
+ | ====Roman==== | ||
aitextgen.txt · Dernière modification : 2022/02/08 15:59 de serge