Сейчас из Телеграм мы берем очень много информации (группы, каналы), общаемся по работе и с близкими.
Сегодня я расскажу, что нужно сделать и бесплатно выложу проект Datacol для парсинга telegram групп или каналов. Бесплатный проект показывает основные моменты для парсинга и как его делать. Далее Вы можете настроить проект под себя или заказать проект у меня под Ваши нужды.
Сделаем парсинг на примере группы Датакол https://t.me/datacol.
Заходим в группу, подписываемся, если нужно. Далее в меню группы выбираем "Экспорт истории чата"
В открывшихся настройках отключаем "Фотографии", т.к. нас пока интересует только текстовая информация. Выбираем формат "Машиночитаемый JSON" и выбираем период, за который нужно скачать посты. Если нужны все посты, то не меняем период.
Нажимаем кнопку "Экспортировать" и ждем результат. Куда он сохраняется видно на скрине выше. После экспорта вы получите в папке файл "result.json". Рекомендую его сразу переименовать в название группы/канала с которого экспортируете.
Открываем проект Датакол и добавляем путь к файлу в качестве стартового URL.
Можно проверить результат на вкладке Сбор данных
Если все устраивает, тогда сохраняем проект и запускаем. На выходе в моих документах Вы получите файл с данными.
P.S. собирать данные Вы можете с открытых каналов или там где у Вас есть доступ. С закрытых каналов/групп естественно Вы не соберете данные.
P.P.S. проект, который Вы можете скачать ниже, ограничен сбором только первой строки в каждом посте. Полную версию или версию для Ваших нужд, Вы сможете заказать в форме ниже или в контактах.