Outils pour utilisateurs

Outils du site


archiver_et_rendre_statique_un_wiki

Table des matières

Archiver et rendre statique un site web

Voir aussi le projet Conifer de Rhizome.org pour archiver des sites web complexes (net-art, javascript, …)

Avec httrack

httrack est un logiciel qui aspire un site avec de nombreuses options et qui peut aussi s'executer en ligne de commande. Souvent meilleur que wget, c'est surement le meilleur choix actuellement.

Il suffit de l'installer via le gestionnaire de paquet de votre distribution Linux / BSD, ou via les binaires à télécharger sur le site pour Windows, OSX, Linux et même Android.

Une fois installé, lancer simplement en ligne de commande :

httrack

Puis suivre le processus en répondant aux questions.

Par exemple, pour télécharger un site complet exemple.org (html, css, js, images, pdf…etc), en limitant à 4 connections / seconde, 400kb/s et 8 connections en même temps max :

httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path example.org --max-rate=409600 --connection-per-second=4 --sockets=8 --quiet https://exemple.org/ -* +exemple.org/*
httrack --mirror --robots=0 --stay-on-same-domain --keep-links=0 --path /home/pipi/Documents/httrack --max-rate=67108854 --sockets=8 --quiet monsiteweb.org

Avec wget

Avec wget, ça aspire tout un site en bourrant le serveur de requêtes (attention à pas se faire bannir) :

wget --mirror --convert-links --html-extension wget --adjust-extension --page-requisites --no-parent -o log http://monsite.org

Cela aspirera le site en écrivant tout ce qu'il se passe dans un fichier log. En enlevant le paramètre

-o log

cela affichera tout devant vos yeux victorieux. Pour y aller + molo avec le nombre de requêtes par secondes, vous pouvez ajouer un paramètre

--wait=1

qui ne fera une requête que toutes les secondes. Du coup ça risque de durer un moment pour un gros site. Pour les autres paramètres :

--mirror : Equivalent à '-r -N -l inf --no-remove-listing', cela permet de faire un mirroir le + exact possible.
--convert-links : Cela converti les liens après que le téléchargement est terminé pour relier les assets au HTML (pour une vue locale. Ce qu'il nous faut quoi).
--html-extension : Ajoute une extension .html à tous les fichiers téléchargés. Votre Apache/Nginx/etc... vous remerciera.
--adjust-extension : Ajoute les bonnes extensions aux noms de fichier(html or css) selon leur type
--page-requisites : télécharge le CSS et les images pour bien afficher la page offline
--no-parent : quand récursif, évite de remonter au répertoire parent, pour par exeple, ne copier qu'un bout du site

Ressources

archiver_et_rendre_statique_un_wiki.txt · Dernière modification : 2024/02/27 11:27 de Benjamin Labomedia