Я опишу простой метод скачивания любых файлов с сети по заранее подготовленному списку.
Буду писать на примере того, как это можно применить к парсеру Датакол. Например, по техническим причинам, Вы не смогли скачать файлы или Вы не хотите грузить парсинг скачкой файлов, Вы просто собрали данные, а возможно просто забыли, что нужно скачать и потом опомнились).
Что нужно для начала?
Для начала нам нужно составить список полных URL к файлам, каждый с новой строки, например:
https://site.com/files/file_image_1.jpg
https://site.com/files/file_image_2.jpg
https://site.com/files/file_image_3.jpg
…
Сохраняйте его в текстовый файл, который назовем, к примеру "url-list.txt".
Далее нам понадобится утилита WGET, думаю некоторые из Вас уже слышали о ней.
Переходим на сайт https://eternallybored.org/misc/wget/ и скачиваем нужную версию (32/64 бита). Последняя версия 1.20, только учтите, она не поддерживает XP, если у Вас такая, то берите прошлую версию.
Для лентяев приведу ссылки на последние версии
32 бита https://eternallybored.org/misc/wget/releases/wget-1.20-win32.zip
64 бита https://eternallybored.org/misc/wget/releases/wget-1.20-win64.zip
Подготовка к работе
Далее, просто распаковывайте архив в любую папку, например, c:\wget
Эта утилита консольная, у нее нет графического интерфейса, поэтому, чтобы запускать её из командной строки из любого места, нужно прописать в свойствах системы путь к папке:
- Правой кнопкой мыши на значке Мой компьютер (или Win + Pause Break)

- Выбираем Дополнительные параметры системы и в открывшемся окне Переменные среды

Дополнительные параметры системы
- В открывшемся окне выделяем переменную Path и нажимаем изменить, и создаем новой значение с нашим путем к папке c:\wget\
- Сохраняем

Если Вам кажется это слишком сложным и Вам это нужно на один раз, то можете не делать, а сразу приступить к следующим действиям.
Собираем все и начинаем
Итак, приступим, имеем следующие исходные данные:
- Файл со списком URL к файлам, предположим, что он у нас в корне диска С - c:\url-list.txt
- Создаем папку, куда будем скачивать файлы, предположим c:\files\
- Распаковали файлы с архива утилиты в папку c:\wget\
Когда эти 3 пункта готовы, открываем консоль. Для этого нажимаем комбинацию Win + R и вводим cmd и нажимаем enter
Сразу напишу готовую команду, а ниже расскажу, что к чему:
wget -i c:\url-list.txt --secure-protocol=auto -nc -c -P c:\files\
Если Вы не прописывали путь в свойствах системы, по моей инструкции выше, то для старта wget Вам нужно указать полный путь к ней, т.е
c:\wget\wget.exe вместо wget и команда для Вас будет выглядеть так
c:\wget\wget.exe -i c:\url-list.txt --secure-protocol=auto -nc -c -P c:\files\
Теперь разбираем переменные:
- -i и дальше путь для файла со списком URL для скачивания
- --secure-protocol=auto - это используем, если на сайте защищенный протокол HTTPS, если простой HTTP, то убирайте эту команду
- -nc - если файл уже есть, и он скачан полностью, то он не будет загружен заново
- -c - если файл закачан не полностью, то будет продолжена закачка
- -P и дальше папка, куда сохранять данные
Кому интересны все команды, а их ОЧЕНЬ много, то просто набираем в консоли
wget -h или c:\wget\wget.exe -h
Если Вам важна структура сохранения файлов как на источнике, то добавьте команду -x.
После того, как команда прописана, нажимаете enter и пойдет загрузка в указанную папку. На экране Вы будете видеть ЛОГ операций.
P.S строку для запуска лучше не писать в консоли, а приготовить ее заранее в любом редакторе, хоть в блокноте. Затем копируйте ее и в консоли нажимайте просто правую кнопку мыши или комбинацию Shift + Insert или Ctrl + V (эта комбинация раньше в консоли Windows не работала, сейчас на Win 10 работает, может работает и в ранних версиях, не знаю, когда добавили эту поддержку)
P.S чтобы собирать данные с серьезных порталов, однозначно нужны платные прокси.
Хорошие прокси от 33р за шт можно купить тут
И напоминаю, что по моей партнерской ссылке Вы получите 20% скидки на любой тариф, при покупке Датакол. Например, годовая лицензия будет стоить 6070руб. вместо 7590р.
Спасибо
Спасибо за статью. Сам пользуюсь этой программой уже давно, пока разобрался - кучу времени потратил, а тут все просто и ясно написано и разъяснено.
Спасибо автору!
Спасибо, 361 файл за пару минут!
Спасибо, реально работает, довольно быстро... 5 минут потратил, 1500 фото еще и по папкам...
Реально полезное!