Как быстро скачать все файлы со веб страницы?

Иногда надо выкачать все файлы, ссылки на которые выложены на html странице.

Это можно сделать скриптов Powershell, Python или просто воспользоваться утилитой wget. Во всех случаях происходит анализ содержимого контейнеров html веб страницы, поиск тэгов href и скачивание файлов по ним.

Самый быстрый способ — использование возможностей wget. В примере ниже показан способ скачивания всех файлов rar, zip и exe с веб-страницы.

wget -r -l1 -H -nd -A rar,zip,exe -e robots=off https://example.com/page-with-links.html

Здесь используются следующие параметры утилиты wget:

  • -r: рекурсивно
  • -l1: только на 1 уровень глубины (только данную страницу)
  • -H: span hosts (следовать ссылкам на другие хосты и скачивать с них)
  • -nd: не использовать директории, все сохранить в текущую папку
  • -A: принимать только указанные расширения
  • -e robots=off: игнорировать robots.txt

Дополнительно можно использовать опцию --exclude-domains, которая исключает определённые домены хостов из скачивания.

Был ли наш пост полезен?

Нажмите на звезду, чтобы оценить мои труды!

Средний рейтинг: 0 / 5. Количество голосов: 0

Пока голосов нет. Проголосуй первым!

Мне жаль, что пост вам не помог 🙁

Позвольте мне исправиться.

Поделитесь, что можно улучшить?

Похожие посты