====== Archiver et rendre statique un site web ====== Voir aussi le projet [[https://github.com/rhizome-conifer/conifer|Conifer]] de [[https://rhizome.org|Rhizome.org]] pour archiver des sites web complexes (net-art, javascript, ...) ===== Avec httrack ===== [[https://www.httrack.com/|httrack]] est un logiciel qui aspire un site avec de nombreuses options et qui peut aussi s'executer en ligne de commande. Souvent meilleur que wget, c'est surement le meilleur choix actuellement. Il suffit de l'installer via le gestionnaire de paquet de votre distribution Linux / BSD, ou via les binaires à télécharger sur le site pour Windows, OSX, Linux et même Android. Une fois installé, lancer simplement en ligne de commande : httrack Puis suivre le processus en répondant aux questions. Par exemple, pour télécharger un site complet exemple.org (html, css, js, images, pdf...etc), en limitant à 4 connections / seconde, 400kb/s et 8 connections en même temps max : httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path example.org --max-rate=409600 --connection-per-second=4 --sockets=8 --quiet https://exemple.org/ -* +exemple.org/* httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path /home/pipi/Documents/httrack --max-rate=67108854 --sockets=8 --quiet monsiteweb.org ===== Avec wget ===== Avec wget, ça aspire tout un site en bourrant le serveur de requêtes (attention à pas se faire bannir) : wget --mirror --convert-links --html-extension wget --adjust-extension --page-requisites --no-parent -o log http://monsite.org Cela aspirera le site en écrivant tout ce qu'il se passe dans un fichier log. En enlevant le paramètre -o log cela affichera tout devant vos yeux victorieux. Pour y aller + molo avec le nombre de requêtes par secondes, vous pouvez ajouer un paramètre --wait=1 qui ne fera une requête que toutes les secondes. Du coup ça risque de durer un moment pour un gros site. Pour les autres paramètres : --mirror : Equivalent à '-r -N -l inf --no-remove-listing', cela permet de faire un mirroir le + exact possible. --convert-links : Cela converti les liens après que le téléchargement est terminé pour relier les assets au HTML (pour une vue locale. Ce qu'il nous faut quoi). --html-extension : Ajoute une extension .html à tous les fichiers téléchargés. Votre Apache/Nginx/etc... vous remerciera. --adjust-extension : Ajoute les bonnes extensions aux noms de fichier(html or css) selon leur type --page-requisites : télécharge le CSS et les images pour bien afficher la page offline --no-parent : quand récursif, évite de remonter au répertoire parent, pour par exeple, ne copier qu'un bout du site ====Ressources==== * https://alvinalexander.com/linux-unix/how-to-make-offline-mirror-copy-website-with-wget * http://meng6.net/pages/computing/sysadmin/backup_mediawiki/ * https://itprohelper.com/mirror-a-website-using-wget/ {{tag>web}}