Outils pour utilisateurs

Outils du site


archiver_et_rendre_statique_un_wiki

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
archiver_et_rendre_statique_un_wiki [2019/08/08 08:54] sergearchiver_et_rendre_statique_un_wiki [2024/02/27 11:27] (Version actuelle) – [Avec httrack] Benjamin Labomedia
Ligne 1: Ligne 1:
-====== Archiver et rendre statique un wiki ======+====== Archiver et rendre statique un site web ======
  
-=====Préparation===== +Voir aussi le projet [[https://github.com/rhizome-conifer/conifer|Conifer]] de [[https://rhizome.org|Rhizome.org]] pour archiver des sites web complexes (net-art, javascript, ...)
-====Ajouter sur la page d’accueil un lien vers toutes les pages==== +
-Il y a 2 pages d'accueil ! Sur la page https://wiki.labomedia.org/ +
-Ajouter: +
-  * Un lien vers les pages de l'espace principal et des liens vers les espaces de nom spécifiques ! https://wiki.labomedia.org/index.php/Toutes_les_pages.html +
-  * Un lien vers les pages en edit https://wiki.labomedia.org/index.php/Toutes_les_pages_en_edit.html+
  
-Cela assure que toutes les pages seront bien parcourues.+===== Avec httrack =====
  
-=====Téléchargement===== +[[https://www.httrack.com/|httrack]] est un logiciel qui aspire un site avec de nombreuses options et qui peut aussi s'executer en ligne de commande. Souvent meilleur que wget, c'est surement le meilleur choix actuellement.
-Ne pas utiliser httrack qui veux toujours aspirer tous les internets ! +
-====Ressources==== +
-  * https://alvinalexander.com/linux-unix/how-to-make-offline-mirror-copy-website-with-wget+
  
-====Commande à valider et commenter par bj==== +Il suffit de l'installer via le gestionnaire de paquet de votre distribution Linux BSD, ou via les binaires à télécharger sur le site pour Windows, OSX, Linux et même Android.
-  wget  -c --mirror --no-parent --convert-links https://wiki.labomedia.org +
-Test +
-  wget -k -p -r --user-agent='Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTMLlike Gecko) Chrome/37.0.2049.0 Safari/537.36' -R '*Special*' -R '*Help*' -E https://gendersec.tacticaltech.org/wiki/ +
-D'après http://meng6.net/pages/computing/sysadmin/backup_mediawiki/ +
- -k: convert links to suit local viewing +
- -p: download page requisites/dependencies +
- -r: download recursively +
- --user-agent: set "fake" user agent for the purpose of emulating regular browsing as sometimes site checks user agent. Check user agent string at useragentstring.com. +
-Voir https://gist.github.com/bshishov/db5436eb2dea0e38069525eb44ef1583+
  
-=====Ajouter un bandeau sur toutes les pages===== +Une fois installé, lancer simplement en ligne de commande :
-  * Des explications +
-  * Avec un lien de recherche vers Google sur votre wiki+
  
-**Exemple sur mediawiki** +  httrack 
-  * https://wiki.labomedia.org/index.php/index.html +   
-{{ :a:bandeau_accueil.png?800 |}}+Puis suivre le processus en répondant aux questions.
  
-Facile en pythondemander à Max comment il l'a fait en bash!+Par exemplepour télécharger un site complet exemple.org (html, css, js, images, pdf...etc), en limitant à 4 connections / seconde, 400kb/s et 8 connections en même temps max :
  
-{{tag>sb}}+  httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path example.org --max-rate=409600 --connection-per-second=4 --sockets=8 --quiet https://exemple.org/ -* +exemple.org/
 +  httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path /home/pipi/Documents/httrack --max-rate=67108854 --sockets=8 --quiet monsiteweb.org 
 + 
 +===== Avec wget ===== 
 + 
 +Avec wget, ça aspire tout un site en bourrant le serveur de requêtes (attention à pas se faire bannir) : 
 + 
 +  wget --mirror --convert-links --html-extension wget --adjust-extension --page-requisites --no-parent -o log http://monsite.org 
 +   
 +Cela aspirera le site en écrivant tout ce qu'il se passe dans un fichier log. En enlevant le paramètre <code>-o log</code> cela affichera tout devant vos yeux victorieux. Pour y aller + molo avec le nombre de requêtes par secondes, vous pouvez ajouer un paramètre <code>--wait=1</code> qui ne fera une requête que toutes les secondes. Du coup ça risque de durer un moment pour un gros site. Pour les autres paramètres : 
 + 
 +<code> 
 +--mirror : Equivalent à '-r -N -l inf --no-remove-listing', cela permet de faire un mirroir le + exact possible. 
 +</code> 
 +<code> 
 +--convert-links : Cela converti les liens après que le téléchargement est terminé pour relier les assets au HTML (pour une vue locale. Ce qu'il nous faut quoi). 
 +</code> 
 +<code> 
 +--html-extension : Ajoute une extension .html à tous les fichiers téléchargés. Votre Apache/Nginx/etc... vous remerciera. 
 +--adjust-extension : Ajoute les bonnes extensions aux noms de fichier(html or css) selon leur type 
 +--page-requisites : télécharge le CSS et les images pour bien afficher la page offline 
 +--no-parent : quand récursif, évite de remonter au répertoire parent, pour par exeple, ne copier qu'un bout du site 
 +</code> 
 + 
 +====Ressources==== 
 + 
 +  * https://alvinalexander.com/linux-unix/how-to-make-offline-mirror-copy-website-with-wget 
 +  * http://meng6.net/pages/computing/sysadmin/backup_mediawiki/ 
 +  * https://itprohelper.com/mirror-a-website-using-wget/
  
 +{{tag>web}}
archiver_et_rendre_statique_un_wiki.1565254475.txt.gz · Dernière modification : 2019/08/08 08:54 de serge