Сегодня поделюсь с Вами проектом для парсера Датакол под сайт liveinternet.ru, который используется для сбора статистики с сайтов. В свою очередь сам сайт еще и является каталогом сайтов, которые разбиты по категориям. Мой парсер liveinternet поможет Вам собрать тысячи сайтов за короткий промежуток.
После сбора вы получите таблицу: URL сайта, заголовок сайта и его рейтинг. Таким образом Вы можете быстро получить тематический список сайтов, с которым Вы можете работать в дальнейшем. Например, в категории товары и услуги в РФ около 56000 сайтов.
Как работать с проектом? Все просто!
- Заходим в каталог https://www.liveinternet.ru/rating/ru/
- Из верхнего меню сайта выбирайте нужную Вас категорию, страну или регион
Возьмем к примеру категорию авто https://www.liveinternet.ru/rating/ru/#geo=ru;group=auto;
Т.к сайты разбиты на страницы, то сделаем генерацию пагинации. Смотрим сколько всего страницы в категории, для этого опускаемся вниз сайта. Видим, что их 413. Формируем ссылку для начальных URL
https://www.liveinternet.ru/rating/ru/#geo=ru;group=auto;page={1,413}
Т.е к нашей ссылке добавляем пагинацию page={1,413}. Это значит, что Датакол сам сгенерирует ссылки от 1-й до 413 страницы.
Дальше Вам останется заменить путь сохранения файла экспорта и можно запускать парсер.
Парсер Liveinternet
И напоминаю, что по моей партнерской ссылке Вы получите 20% скидки на любой тариф, при покупке Датакол. Например, годовая лицензия будет стоить 6070руб. вместо 7590р.