SiteSputnik Web Spider. Мониторинг изменений на сайтах:
SiteSputnik Web Spider. отслеживание обновлений по запросу
Дата выхода публикации: 23.07.12г.     
Последнее изменение: 11.10.24г.     

Общая информация
Данная публикация является инструкцией по применению модуля SiteSputnik WebSpider

- нового варианта комплектации программы SiteSputnik, предназначенного для наблюдения за изменениями на страницах сайтов.

Ещё одна публикация об этом модуле программы - на ссылке SiteSputnik WebSpider.

Синтаксическое отличие этого типа Проекта от новостного типа состоит только в том, что добавив в новостной проект оператор
    ^^Обновления;     (или эквивалентный ему оператор ^^WebSpider;)
Вы преобразуете его в проект, отслеживающий не только появление и анализ новых страниц, но и наблюдение за изменениями на "старых" страницах и анализ этих изменений по сложному критерию (по запросу), - в этом семантическое отличие.
    ^^Удаления;     (доступно, начиная с версии 11.3.5 от 09.09.2024г)
Этот оператор заставляет программу аналогичном образом следить за удаленной информацией: удаленная информация должна удовлетворять сложному критерию (запросу).

Все изменения анализируются относительно последнего предыдущего содержания ссылок.

Оба оператора могут быть указаны в Проекте как вместе, так и каждый по отдельности.

Выполнение WebSpider-проекта является более ресурсоёмким процессом. Не применяйте его без необходимости.
Top Web crawler, иногда называемый spider или spiderbot - краулер или поисковый робот паук. Перебор страниц программный.

Система Спутник Сайт - программа для мониторинга обновлений и изменений

Site Sputnik. Мониторинг, программный комплекс - изменения по запросу

Скачать программу отслеживания изменений на сайтах и социальных сетях

monitoring watcher, observation

Система, программа, обновление информации и интернета

Следить, слежка, слежу, отслежу, отслежка, наружка, следопыт!


Источниками могут быть любые страницы, в том числе, и поисковые.

Количество критериев (Рубрик) - произвольное.

Например, мониторинг Телеграм (часть реального проекта) приведена в текстовом виде ниже:

^^Обновления;
^^Удаления;
tg://kremlininfo + ^^Президент РФ
tg://governmentru + ^^Правительство РФ
tg://government_rus + ^^Правительство РФ Официальный канал
tg://dumainfo + ^^ГосДума РФ
tg://sovfedinfo + ^^Совфед РФ
tg://sovfedofficial + ^^СФ РФ
tg://minpromtorgrf + ^^Минпромторг РФ
tg://minenergorf + ^^Минэнерго РФ
tg://mintransrussia + ^^Минтранс РФ
tg://ruminfin + ^^Минфин РФ
tg://minprirody + ^^Минприроды РФ
tg://minselhozrf + ^^Минсельхоз РФ
tg://rosmintrudru + ^^Минтруд РФ
tg://mincifry + ^^Минцифры РФ
tg://minvrru + ^^Минвостокразвития
tg://MID_Russia + ^^МИД РФ
tg://minstroyrf + ^^Минстрой России
tg://minjustrf + ^^Минюст
tg://fasrussia + ^^FAS Russia
tg://fas_time + ^^ФАС России
tg://gosnadzorru + ^^Ростехнадзор
tg://fsspinfo + ^^ФССП России
tg://rostransnadzor + ^^Ространснадзор
tg://roskomnadzorro + ^^Роскомнадзор
tg://fstecru + ^^ФСТЭК России
tg://rpngovru + ^^Росприроднадзор
tg://fnsru + ^^ФНС России
tg://customsrf + ^^ФТС России
tg://fedsfmru + ^^Росфинмониторинг
tg://rostrudgovru + ^^Роструд
tg://rosstatinfo + ^^РосСтат
tg://rosreestrinfo + ^^Росреестр
tg://rosleshozgovru + ^^Рослесхоз
tg://rosnedra + ^^Роснедра
tg://fsagovru + ^^Росаккредитация
tg://fishgovru + ^^Росрыболовство
tg://vodagovru + ^^Росводресурсы
tg://fsvps + ^^Россельхознадзор
tg://meteorf + ^^Росгидромет
tg://archivesru + ^^Росархив
tg://rosim_ru + ^^Росимущество
tg://EECommission + ^^ЕАЭК
tg://nerzhavey + ^^Нержавейка
tg://sustainable_business +^^Цурих, 17
tg://azakonodatel + ^^ЗАКОНДЫРИН
tg://rostecnews + ^^Ростех
tg://rsppnews + ^^РСПП
tg://vebrf + ^^ВЭБ.РФ
tg://poolN74 + ^^Губернатор ЧО
tg://deloros + ^^Деловая Россия
tg://vsrf_ru + ^^Верховный суд РФ
tg://ksrf_ru + ^^Конституционный Суд РФ
tg://cbrrf + ^^Центральный банк РФ

Рубрика://Тесты/Экология
экологическая /1 экспертиза
захоронение /3 (радиоактивных /1 отходов | 'РАО')
Охрана /1 окружающей /1 среды
воспроизводство /3 природных /1 ресурсов
(разрешения | капитальное) /3 (строительство | реконструкция)
(правила | проекты) /1 разработки /1 месторождений
методика /1 исчисления /1 'вреда'
твердые /1 полезные /1 ископаемые
рекультивация
разработка /1 месторождений /1 полезных /1 ископаемых
постановление /1 правительства /7 ('319' | '№319' | 'N319' | '1048' | '1048' | 'N1048')

Рубрика://Тесты/Отходы производства
отходы /2 (производства | промышленные)
негативное /1 воздействие | 'НВО'
вторичные /1 материальные /1 ресурсы | 'ВМР'
Российский /1 экологический /1 регулятор | 'РЭО'
Федеральная /1 государственная /1 информационная /1 система /6 обращения /2 отходами
'ЕГИС'  'УОИТ'
'89-ФЗ' | 'N89-ФЗ' | '№89-ФЗ'

При втором и следующих выполнениях Проекта SiteSputnik выдаст только обновленную и удаленную информацию относительно предыдущего выполнения.
Причем только ту информацию, которая удовлетворяет критериям, прописанным в двух Рубриках: "Экология" и "Отходы производства".

Если в Вашей комплектации СайтСпутника есть компонента WebSpider, то Вы можете скопипастить и выполнить у себя этот Проект.
Рекомендация: в настройках на вкладке +WebSpider у параметра "Игнорировать изменение чисел и времени" установите галочку, чтобы не реагировать на изменения числа просмотров постов в Телеграмме.

Пример простого проекта для мониторинга изменений (обновлений) на страницах из Инстаграм - на картинке ниже:

Мониторинг изменений и обновлений на сайте

В этом проекте СайтСпутник будет отслеживать появление:
    • и новых ссылок (в данном проекте это публикации),
    • и новых фрагментов информации на старых ссылках (в данном проекте это новые комментарии),
в которых упоминаются разные названия города Волгограда.


В принципе, приведенные выше два Проекта могут быть выполнены как один Проект.

Подробнее в недавно открытом телеграм-каналe программа по поиску в Телеграм




Видеоуроки по мониторингу изменений/обновлений информационных потоков:

  • Отслеживание изменений на сайтах и их Рубрикация - урок 08
  • Отслеживание изменений по пакету запросов и их Рубрикация - урок 09

  • В большинстве случаев, предоставленной выше информации достаточно для того, чтобы приступить к работе с WedSpider-проектами.

    Дополнительная информация

    Назначение и терминология

    SiteSputnik WebSpider следит за обновлениями уже существующих страниц,
    а именно, за появлением на них новых фрагментов информации,
    удовлетворяющих достаточно сложному запросу, заданному Пользователем.

    В этом состоит отличие от варианта SiteSputnik News,
    предназначенного для мониторинга потока новых страниц.

    Желательно, чтобы Вы уже были знакомы с SiteSputnik News.

    Пост-запрос (запрос) - это критерий, которому должны удовлетворять фрагменты новой информации на страницах.
    Язык, на котором формулируется критерий, имеет некоторое сходство с языком запросов Яндекса образца до 2017 года.

    Простые примеры запросов есть на странице Рубрики и Клиентские папки -
    смотрите раздел "Элементарные правила попадания информации в Рубрики".

    Динамические Рубрики также можно применять в WebSpider.


    Под мониторингом будем понимать весь процесс обработки информации, а именно:
  • поиск, скачивание и сохранение веб-страниц,
  • сравнение их контента с предыдущим состоянием,
  • выделение фрагментов новой информации,
  • проверка их контентов на удовлетворение критериям, заданным в запросах (Пост-запросах).


  • Сразу отмечу, что запросов к одному фрагменту может быть сколько угодно,
    и результаты каждого запроса выгружаются в разные файлы.

    Если попадается новая ссылка, то фрагментом становится весь её контент.


    Описание демонстрационной задачи

    Возможности WebSpider(а) продемонстрируем на наглядном примере.
    Настроим СайтСпутник на слежку за "собой" и за автором программы.

    Для этого Пост-запросу поручим проверять наличие слов:
    "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников", -
    в обновлениях страниц из нескольких источников.

    В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов:

    Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова,
    Игоря Нежданова
    , Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука,
    а также обновившиеся темы форума СПКР
    и первую поисковую страницу Яндекса по запросу "SiteSputnik".



    Решение демонстрационной задачи

    Последовательность действий Пользователя такова.
    1. Создаем Ящик (папку), например, с именем "О СайтСпутнике".

      Это простая, хорошо известная Пользователям программы процедура.
      Она выполняется следующим образом:

        - на вкладке "Проекты" (она в нижнем левом углу) создаём новый Ящик: "Главное меню - Ящик - Создать новый Ящик...",
        - в появившемся окне вводим его имя "О СайтСпутнике",
        - нажимаем на кнопку "Создать".


    2. Определяем Пост-запрос.

      Выбираем "Главное меню - Настройки - Параметры - вкладка +WebSpider".
      В поле "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий,
      которому должны удовлетворять изменения на сайтах.

      Мониторинг изменений

      Как уже пояснялось выше, заданный на картинке Пост-запрос буквально означает следующее.

      Нас будут интересовать изменения на сайтах (выше мы их назвали фрагментами новой информации),
      в которых упомянуты слова "СайтСпутник", или "SiteSputnik", или два слова: "Алексей" и "Мыльников",
      стоящих рядом (на расстоянии не более 1-го пробела друг от друга).

      В выдачу попадут те и только те новые фрагменты, которые удовлетворяют этому запросу.

      Описание всех параметров с этой картинки приведено ниже.

      Важное замечание.
      Пост-запросов может быть несколько, а именно: любые Рубрики, прописанные в Проекте, - это отдельные Пост-запросы.
      Смотрите на картинке ниже на коричневую стрелочку, указывающую на две дополнительные статические Рубрики, задействованные в Проекте.
      Серая стрелочка указывает на динамическую (не созданную заранее) Рубрику.


    3. Прописываем в Проекте список интересующих Вас источников: сайтов, страниц, RSS-потоков, поисков.

      Это делается один раз при формировании Проекта. При необходимости, Проект может быть отредактирован.

      Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет", в открывшемся окне введите адреса источников и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже.

      Мониторинг обновлений

      Пояснения.
        В 1-ом столбце прописываются адреса сайтов, ресурсов, страниц, RSS-потоков или поисков.
        Во 2-ом - WebSpider (паук), который, собственно, указывает на способ поиска ссылок.
        В 3-ем - глубина поиска (глубина проникновения Web Spider(а)).
        В 4-ом - можно ввести комментарии. Ознакомиться с ними Вы можете прямо на картинке.


      В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний 10-ый адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит три лексемы: yandex.net, yandex.ru, &sign=. Адреса ссылок, содержащие эти лексемы, будут игнорироваться.

      Локальные фильтры.

      1. В предыдущем абзаце были упомянуты глобальные для Проекта фильтры. Они задаются на вкладке +WebSpider.
        Можно применить и локальные, относящие только к конкретному источнику фильтры. Например, если последний 10-ый источник записать так:

        отслеживание обновлений и изменений сайтов

        то это будет означать, что в ссылках c источника http://yandex.ru/yandsearch?text=sitesputnik должна быть хотя бы одна лексема: .ru или sputnik и не должно быть лексемы allsoft.


      2. "Использовать "Настройка сайтов" для определения параметров", - также можно применить для локальной настройки.
        Он рассмотрен ниже. Применяется достаточно редко.


      На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов Web Spider(а). Затем, при необходимости, в колонке Стр. Пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)).
      Наибольшее практическое значение имеют первые два варианта:
        0 - слежение за контентом только самой ссылки;
        1 - слежение за контентами самой ссылки и ссылок, размещенных на ней.


    4. Оператор ^^WebSpider;   равносильно   Оператор ^^Обновления;

      Последнее действие при формировании Проекта:
      прописываем в его тексте оператор ^^WebSpider; - смотрите по красной стрелочке на картинке выше.

      Если не сделать этого, то выполнится только "половина" Проекта, а именно, найдутся только все ссылки, которые должны попасть на мониторинг и всё. Скачивание, сравнение, выделение новых фрагментов, их анализ произойдут только, если прописан оператор ^^WebSpider;. Он доступен только в комплектации SiteSputnik News+Webspider и больше.



    5. Выполняем мониторинг.

      Для этого нажимаем на кнопку "Совместно".

      Первое выполнение Проекта - это создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях.
      Выдача при первом выполнении будет совпадать с выдачей SiteSputnik News, так как новые фрагменты - это сами страницы.

      Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.
      Все состояния всех ссылок доступны на вкладке "Загрузки".

      Замечание.
      После каждого редактирования Проекта не забывайте сохранить в Библиотеке его новый текст, если это необходимо.
      Для этого воспользуйтесь кнопкой "Сохранение".
      Если Вы забыли сделать это, то текст Проекта можно взять из первой строки нижней таблички с названием "Проект исполняемый".




    Глобальные настройки, вкладка +WebSpider
    Продублируем картинку с вкладкой +WebSpider и подробно опишем каждый параметр, размещённый на ней:

    Мониторинг изменений и обновлений на сайте

    Фильтры для адресов ссылок.

  • Учитывать ссылки только с исследуемых ресурсов или сайтов:
      Если ссылка ведет на другой ресурс или сайт, то она игнорируется.

  • Учитывать только адреса ссылок, содержащие лексемы:
      Лексемы перечисляются через точку с запятой.
      Не содержащие ни одной лексемы ссылки игнорируются.

  • Не учитывать адреса ссылок, содержащие лексемы:
      Лексемы перечисляются через точку с запятой.
      Содержащие хотя бы одну лексему ссылки игнорируются.

  • Фильтры для контентов фрагментов.

  • Не учитывать фрагменты новой информации, содержащие фразы:
      Фразы перечисляются через точку с запятой.
      Если хотя бы одна фраза встречается в контенте фрагмента, то он игнорируется.
      Это фильтр грубой очистки.
      Практика показала, что такой фильтр удобен,
      хотя эти фразы можно указать и в Пост-запросе, поставив перед ними знак ~ (логическоe "Нет").

  • Не учитывать во фрагментах новую информацию после фраз:
      Явное отсечение хвоста фрагмента.
      Фразы перечисляются через точку с запятой.
      Отсечение производится по самой ближней к началу фрагмента фразе.

  • Не учитывать во фрагментах новую информацию до фраз:
      Явное отсечение головы фрагмента.
      Фразы перечисляются через точку с запятой.
      Отсечение производится по самой дальней от начала фрагмента фразе.

  • Применить "Пост-запрос" (встроенная рубрика):
      Специальная рабочая Рубрика - фильтр тонкой очистки. Применимы все правила попадания в Рубрики.

  • Включить экспорт в клиентские папки и адреса:
      Это локальные папки компьютера, папки локальной сети, папки сайта,е-мейлы или телеграм-каналы,
      по которым отправляется содержимое Пост-запроса.
      Каждая клиентская папка записывается в отдельной строке.

  • Максимальное количество уникальных ссылок, обрабатываемых пауком (от 1 до 10000)
      На картинке установлено число 1000, соответственно, "добравшисть" до 1000 ссылки, паук прекращает поиски ссылок для мониторинга.

  • Выделять значимый контент ссылки, используемый для мониторинга
      Если галочка не установлена, то вся ссылка, а не только её значимый контент, отправляется на выделение новых фрагментов и на дальнейшую обработку.

  • Использовать "Настройка сайтов" для определения параметров
      В Ящике "Настройка сайтов", который вложен в "Настройка поиска", можно индивидуально для каждого конкретного сайта прописать большинство перечисленных выше параметров.
      Применяйте эту возможность в случае возникновения такой необходимости.


  • Дополнительные замечания
  • Рассмотренная технология достаточно проста в применение. В частности, она позволяет Пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через фильтры тонкой очистки - Пост-запросы. Мусор автоматически отсеивается Пост-запросом, Например, в нашем и в подавляющем большинстве случаев, изменения на сайтах времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы запросами и не попадут в выдачу.

  • Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

  • Важная информация.
      В Проекте можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Любая Рубрика - суть Пост-запрос, определяющий критерий попадания в Рубрику новых фрагментов информации. На второй картинке коричневая стрелка показывает где и как прописываются статические Рубрики, а серая - динамические.
      Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных Пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно применить дополнительно один Пост-запрос с вкладки +WebSpider.


  • Обсуждение SiteSputnik WebSpider
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & Site Sputnik (Сайт Спутник).
    Полный список публикаций о программе собран на странице.
    Скачать демоверсию программы можно здесь.
    Рекомендуется ознакомиться с введением в SiteSputnik Web Spider.

    Copyright © 2003-2024 ИП Мыльников Алексей Борисович. Все права защищены. E-mail: 1a@sitesputnik.ru, +7(8442) 73 71 23, +7(905) 3 92 97 92