Иногда надо выкачать все файлы, ссылки на которые выложены на html странице.
Это можно сделать скриптов Powershell, Python или просто воспользоваться утилитой wget. Во всех случаях происходит анализ содержимого контейнеров html веб страницы, поиск тэгов href и скачивание файлов по ним.
Самый быстрый способ — использование возможностей wget. В примере ниже показан способ скачивания всех файлов rar, zip и exe с веб-страницы.
wget -r -l1 -H -nd -A rar,zip,exe -e robots=off https://example.com/page-with-links.htmlЗдесь используются следующие параметры утилиты wget:
-r: рекурсивно-l1: только на 1 уровень глубины (только данную страницу)-H: span hosts (следовать ссылкам на другие хосты и скачивать с них)-nd: не использовать директории, все сохранить в текущую папку-A: принимать только указанные расширения-e robots=off: игнорировать robots.txt
Дополнительно можно использовать опцию --exclude-domains, которая исключает определённые домены хостов из скачивания.
