Часто приходится собирать данные с нескольких стартовых URL. Если их не много, то можно просто скопировать и вставить. Но бывает, что их 10, 20 и более. При этом Вам нужны не все из них, а только часть.
Можно подобрать xpath и затем добавлять исключения. Но есть метод проще, как для меня, а также Вы немного ускорите работу Вашего проекта, т.к Datacol не будет при каждом запросе заново собирать ссылки по xpath и затем их фильтровать, проверять, собирал он их или нет, если ссылка в исключении или нет ...
И за одно начнем знакомство с очень полезной штукой в Вашем браузере "Инструменты разработчика". Итак, поехали.
- Открываем нужный Вам сайт в Вашем любимом сайте. У большинства это будет Chrome или Firefox. Я буду показывать на Chrome. Для примера возьмем сайт Датакола http://web-data-extractor.net/ и предположим, что нам нужно собрать часть данных из раздела "Решения"
- Нажимаем правой кнопкой мыши на пункте меню "Решения" и выбираем пункт "Просмотреть код"
- Далее Вам понадобится минимум познания в HTML ) Мы видим, что после нажатия внизу открылась новая панель с исходным кодом и выделим элемент <a>. Нам нужно получить все элементы списка, для этого визуально выше поднимаемся по структуре и видим элемент <li>, который я указал стрелкой на скриншоте. Нажимаем на нем левой кнопкой мыши и дальше копируем его комбинацией Ctrl+C
- В Датакол открываем Selector (кто не знает он находится на вкладке Дополнительные). И вставляем скопированный код в окно "Исходный код", предварительно удалив код, который там есть (если он есть). После вставки нажимаем кнопку "Код в браузер" наверху. И мы получаем в Селекторе часть кода меню.
- Теперь переходим на вкладку "Подбор Xpath", вводим //a и нажимаем "Найти Xpath"
- Теперь на соседней вкладке "Ссылки" видим, что там появились данные.
- Теперь просто копируем их поля "Результата поиска ссылок". Если кто не в курсе, то делается так - нажимаем левой кнопкой мыши на это поле, далее Ctrl+A и Ctrl+С этим вы все выделите и скопируете.
- Далее уже вставляете их в стартовые URL Датакол или если нужна обработка ссылок, чистка, то сначала вставляете их в какой-то редактор, там делайте правки и потом уже вставляйте.
Не подготовленным к этому пользователям, может показаться, что это очень сложно. Но проделав эту операцию 1-2 раза, Вы поймете, что это не сложно. И самое главное Вам не нужны какие-то сторонние программы для этого.