?

Log in

No account? Create an account

Previous Entry | Next Entry

SiteSputnik WebSpider.
Мониторинг изменений на сайтах: отслеживание обновлений по запросу
Автор
Алексей Мыльников
Дата выхода публикации - 24.07.12г.     

Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы.


Назначение программы SiteSputnik WebSpider

Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц.

Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему.

Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса.
Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом.
Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах.

Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу.



Описание демонстрационной задачи

Возможности WebSpider(а) продемонстрируем на наглядном примере. Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе. Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация.

В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".



Решение демонстрационной задачи

Последовательность действий пользователя такова.
  1. Создайте Ящик (папку), например, с именем "О СайтСпутнике".

    Это простая, хорошо известная пользователям программы процедура.
    Она выполняется следующим образом:

    - выбираем ящик (папку) на вкладке "Поиск в Интернете",
    - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...",
    - в появившемся окне вводим его имя "О СайтСпутнике",
    - нажимаем на кнопку "Создать".


  2. Определите пост-запрос.

    Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider".
    В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.

    Мониторинг изменений

    Пояснения.
    Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом. Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.


  3. Составьте пакет - список интересующих Вас сайтов, страниц, RSS-потоков.

    Это делается один раз для каждой темы. При необходимости, список может быть отредактирован.

    Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже.

    Мониторинг изменений

    Пояснения.
    В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока.
    Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки.
    В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
    В 4-ом - можно ввести комментарии. Ознакомьтесь с ними.

    В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге.

    На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а). Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)). Наибольшее практическое значение имеют первые два варианта.


  4. Выполните мониторинг.

    Для этого нажмите на кнопку "Совместно".

    Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях. Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос.

    Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.

    Замечание.
    Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет.
    Для этого воспользуйтесь кнопкой "Сохранение".




Другие возможности WebSpider(а)
В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.

  • Накладывать фильтры на адреса ссылок, чтобы при глубоком проникновении паука анализировать только интересующие адреса.

  • Применять фильтры для контентов новых фрагментов, чтобы отбрасывать заведомо ненужные фрагменты, или верхнюю, или нижнюю часть фрагмента.

  • Важная информация.
    Собственно, описанные в этом абзаце действия должны применяться в реальных задачах. В пакете (на второй картинке) можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов. Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам. На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.

  • Результат применения каждого пост-запроса можно отправлять в клиентские папки. В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно: папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).

  • При глубине поиска больше нуля WebSpider (паук) будет обнаруживать новые страницы. При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.

  • Можно прописать максимальное количество ссылок, достигнув которое паук не будет проникать далее вширь и вглубь по ссылкам.

  • Если ссылки "позволяют", то можно применить к ним автоматическое выделение значимого контента, используемого при мониторинге. При необходимости можно использовать "Настройки сайтов" для этих целей.


  • Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации. Здесь отмечу только то, что на мой взгляд является главным.

  • Главная информация.
    Предложенная технология проста в применение от начала до конца. В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос). Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах. Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу.

    Не нужно применять требующий специальных навыков Мастер подключения новых источников. Достаточно просто вписать адреса интересующих источников в пакет.

    Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

  • В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета.


    Обсуждение SiteSputnik WebSpider
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik (СайтСпутник).
    Полный список публикаций о программе собран на странице.
    Скачать программу можно здесь.
    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2012г. Все права защищены.

    Latest Month

    November 2018
    S M T W T F S
        123
    45678910
    11121314151617
    18192021222324
    252627282930 

    Tags

    Powered by LiveJournal.com
    Designed by Tiffany Chow