?

Log in

SiteSputnik Comments. Отслеживание комментариев
к сообщениям и другим публикациям по ключевым фразам


Дата выхода публикации - 18.11.13г.     





Аннотация и благодарности

Новый вариант программы SiteSputnik Comments является расширением варианта SiteSputnik News.

Он предназначен для мониторинга комментариев к сообщениям, новостям и другим публикациям из открытых источников интернета.

Настоящая реализация от 18.11.13 под номером 8.6.1 является Бета-версией программы.

В ближайшем будущем и в дальнейшем программа SiteSputnik News+Comments будет совершенствоваться и развиваться.

Выражаю благодарность участнику форума СПКР под ником InfoPrior за полезные советы, данные при разработке этого варианта программы.

Принцип работы SiteSputnik News+Comments


  1. Задание, выполняемое программой SiteSputnik News, формирует поток новой информации с задействованных в нём источников.


    В терминалогии, принятой в программе SiteSputnik, он называется "Чистым потоком".
    Далее "Чистый поток" отправляется на рубрикацию.


    Если у Вас включены +Comments, то на рубрикацию также будут отправлены все комментарии к сообщениям, попавшим в "Чистый поток".




  2. Рубрицировать поток комментариев можно двумя способами:



    • направить его на те же самые рубрики, что и сообщения или новости из "Чистого потока",


    • направить его на свои собственные Рубрики, то есть, проанализировать его по своим правилам.



    Пояснение.

    • Первый способ рубрикации комментариев иногда бывает полезен.


    • Рубрикация по своим правилам необходима по той причине, что очень часто даже для солидных источников информации
    содержание комментариев резко отличается от содержания самих сообщений или новостей.
    Поэтому для извлечения нужных комментариев требуется задействовать другие ключевые фразы и слова.




Инструкция по применению SiteSputnik Comments


Существуют два способа "прописки" комментариев:

    • из Инструктора,



    • из пакета запросов.

Они проиллюстрированы на картинках:



Comments SiteSputnik




Комментарии СайтСпутник



Соответвественно, зеленые стрелки указывают на пункты меню, инициирующие прописку мониторинга комментариев в тех же самых Рубриках, что и сами сообщения или новости,
а красные стрелки - на мониторинг комментариев в своих собственных Рубриках. По красной стрелке инициируется диалог выбора Рубрики.
Можно обратиться к диалогу несколько раз и прописать несколько Рубрик, каждая из которых может иметь произвольное количество вложенных Рубрик.
Глубина вложенности тоже произвольная.

    • Третий способ прописки - прямо руками в тексте Проекта (пакета запросов) можно прописать один из операторов:


    ^^Комментарии;


    ^^Комментарии+Рубрики\...


    В последнем операторе вместо многоточия набирается путь к нужной Рубрике. Таких операторов может быть несколько.
    Третий способ не рекомендуется из-за того, что при ручном наборе можно допустить синтаксическую ошибку.



Простой демонстрационный пример


На ссылке выдача SiteSputnik Comments приведен чисто демонстрационный результат работы с комментариями по запросу к нескольким федеральным и региональным источникам информации.
Для рубрикации комментариев применялось следующее правило:

пиндосы | !распил* | вымогат* | коррупция | !вор* | взятки | !откат* | мерзав* | !твар* | !жул* | беспредел /2 чиновников | отмыв* | расстрел*

Весь поток комментариев (он большой и поэтому упакован) размещен на ссылке "Все комментарии".



Список литературы.

Полный список публикаций о программе собран на этой странице http://sitesputnik.ru/Public.htm.


Сайт о программе - http://sitesputnik.ru/.


Скачать программу можно отсюда.


Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2013г. Все права защищены.
SiteSputnik News. Внешние функции для Рубрик </font>
Дата выхода публикации - 18.02.13г.     



В версии 8.4.1 от 18.02.13 программы SiteSputnik реализованы новые возможности рубрикации материалов. Они получили название ВФ-технологии и доступны в вариантах SiteSputnik News, WebSpider и Station.

Назначение и суть ВФ-технологии "на пальцах"
Для того, чтобы выделить нужную информацию из потока, в программе SiteSputnik применяются Правила попадания в Рубрику. Упрощённо, с точки зрения Пользователя, Правило является последовательностью слов или фраз, которые должны присутствовать в контенте ссылки. С точки зрения математического обеспечения программы, Правило - это логическое выражение. Если оно принимает значение истина, то считается, что ссылка содержит нужную информацию и попадает в Рубрику.

В новой версии программы SiteSputnik в Правилах попадания в Рубрику можно прописывать обращения к внешним логическим функциям (сокращенно ВФ-функциям). Обращений может быть несколько, помещены они могут быть в разные части Правила, сами ВФ-функции могут быть тоже разные.

ВФ-функция
может быть написана на любом языке программирования. Она получает от программы SiteSputnik контент ссылки, производит свою работу и возвращает в Правило одно из двух значений: "Да" - критерий, который проверяет функция, выполнен или "Нет" - критерий не выполнен.

О главном.
Сообщение о результате работы ВФ-функции принимается в том и только в том месте Правила, из которого она была вызвана. Это важный момент технологии: ВФ-функции не просто "подвешены на ссылке" (такая технология применяется при реализации обычных плагинов), а "органически" встроены в Правила попадания в Рубрику, участвуют в его логической работе.

Что это дает.
  • Можно расширить Правила попадания в Рубрики своими Правилами, под свои потребности.
  • В этом процессе участие разработчика программы не является необходимым, достаточно обратиться к программисту.
  • При этом функциональное расширение может осуществлять сложную, произвольную работу: от анализа контента ссылки на негатив, до работы с базами данных и выхода в интернет за информацией.
  • При этом в синтакис Правил не вносится большое количество синтаксических конструкций. Достаточно только одной конструкции - синтаксического определения ВФ-функции.


  • Перечень ВФ-функций на момент публикации
    В данном разделе представлены двенадцать ВФ-функций, разработанных автором программы. На их примере продемонстрированы возможности ВФ-технологии. Функции осуществляют достаточно сложную символьную обработку, есть функции, которые выполняют сравнения чисел и дат, встречающихся внутри контента ссылок.

    1. Поиск 10-значного номера телефона - функция TelephoneNumber10

      Эта функция возвращает значение "Да", говоря на языке Пользователя, находит ссылки, в которых присутствует хотя бы один любой 10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном. Пример зашифрованного номера телефона: "9о7-1Ч4 два 8-семерка 6". В расшифрованном виде это - 9071442876.

      Прописав в Правиле: (Госзакупки | государственные /1 закупки) fun(TelephoneNumber10)

      мы получим ссылки, на которых упоминаются госзакупки и присутствует телефон (зашифрованный или незашифрованный). Это наглядная демонстрация упомянутой выше "встроенности" ВФ-функции в Правило: функция работает совместно с другими его конструкциями. Параметров у этой функции нет.

    2. Поиск конкретного номера телефона - функция TelephoneNumber10Search

      Находятся ссылки, в которых присутствует конкретный 10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном. Искомый номер телефона передается функции как параметр. Он прописывается как 10-значное число (в незашифрованном виде). Например:

      fun(TelephoneNumber10Search,9071442876)

    3. Любые символы вместо знака вопроса - AnyOfCharacters

      Например, если в качестве параметра этой функции прописать А???МР, то будут найдены ссылки, на которых упомянут хотя бы один VIP-номер автомобиля. Диапазон удовлетворяющих поиску номеров от A001MP до А999МР. Чтобы учесть и эту форму записи номера и другую с пробелами: A 001 MP, - нужно прописать два обращения к функции через логическое "ИЛИ":

      ( fun(AnyOfCharacters,А???МР) | fun(AnyOfCharacters,А?????МР) )

    4. Адрес федеральной почты России - PostAddress

      Находятся ссылки, в которых упомянут хотя бы один адрес федеральной почты России.
      Учитываются практически все варианты записи адресов.
      Например: "... происшествие произошло в г. Волгограде, на ул. Космонавтов рядом с домом 8 ..."

    5. Российский номер автомобиля - RussiaCarNumber

      Находятся ссылки, в которых упомянут хотя бы один российский номер автомобиля.
      Это следующие два варианта: БЦЦЦББ или Б ЦЦЦ ББ, где Б - буква: пересечение латинских и русских букв (учитываются их набор и на кириллице, и на латинице, и на верхнем, и на нижнем регистре), Ц - цифра любая из десяти.

    6. Слово с учетом регистра - SensitiveSearch

      Чувствительный к регистру поиск: РФ, ОРТ, КамАЗ, СайтСпутник. Искомое слово передается в качестве параметра.

    7. Число рядом со словом - NumberNearWord

      Реализована для маркетологов по заявке Игоря Нежданова.

      Рядом с "нужным" словом (первый параметр) расположено любое число на расстоянии не более фиксированного количества символов (второй параметр). Функция "реагирует" на нормальные числа, числа записанные прописью и жаргон: червонец, четвертак, лимон, ... .

    8. Сравнение с числом, размещенным рядом со словом - CompareWithNumber (!)

      Позволяет находить ссылки, внутри контентов которых есть числа, удовлетворяющие критериям.

      Например, если в Правиле есть обращение к этой функции со следующими параметрами: сумма, >, 8млн ,
      то критерию поиска удовлетворит ссылка, в контенте которой содержится, например, следующий текст:

      "... сумма долга - 10 миллионов рублей ...".

      Пояснение:
      в контенте ссылки есть слово "сумма" и стоящее рядом с ним число "10 миллионов", которое больше, чем 8 миллионов. По этой причине ссылка будет удовлетворять критерию поиска.

      Если в Правиле кроме этой функции прописано конкретное предприятие, то останутся только те ссылки, в которых оно упомянуто.

    9. Длина контента ссылки - LongOfNew

      Можно различать ссылки по длине их значимого контента (по количеству символов в контенте), например, отбрасывать очень длинные и/или очень короткие ссылки. Для того, чтобы указать диапазон значений, в Правиле следует прописать два обращения к этой функции через логическое "И". Длина и знак сравнения прописываются как параметры этой функции.

    10. Количество конкретных слов в контенте ссылки - CountOfWords

      Можно указать, что Пользователя интересуют только те ссылки, в которых, например, Путин упомянут более 7 раз, а Медведев не менее 5 раз. У функции три параметра: слово, знак сравнения и число. Прописав в Правиле оба условия:

      fun(CountOfWords,Путин,>,7) fun(CountOfWords,Медведев,>=,5)

      будем получать ссылки, на которых одновременно много и Путина, и Медведева.

    11. Сравнение дат - IncludesDate (!)

      Позволяет находить ссылки, внутри контентов которых есть даты, удовлетворяющие критериям.

      Например:
      >=14.02.13 (в контенте ссылки есть дата 14 февраля 2013г. или более поздняя),
      <22.01.2013 (ранее, чем 22 января 2013г), =26.03.13 (именно 26 марта 2013г),
      =сегодня (имеется ввиду не слово "сегодня", а присутствие в контенте текушей даты), =вчера,
      >=неделя (неделю назад и позднее), >месяц (позднее, чем месяц назад),
      =завтра, >завтра (послезавтра и позднее), >=-7 - через неделю и позднее (будущее время),
      >-365 - через год с лишним, =-14 ровно через 2 недели,
      <=14 - раньше, чем 2 недели назад (в прошлом), <год (ранее, чем год назад),
      =понедельник - в любой понедельник из прошлого или будущего,
      <=36525 - ранее, чем 100 лет назад.

      В контенте ссылки даты вида: "16 февраля 2013 года", - распознаются и анализируются.
      Если после месяца нет года, то подразумевается текущий год.
      Даты на английском и других языках в данной реализации функции не рассматриваются.
      Параметров два: знак сравнения и дата.

    12. Сравнение дат публикации - DateOfEvent

      Эта ВФ-функция во многом аналогична предыдущей. Отличие в том, что действия производятся над датами публикации ссылки, а не над всеми датами, употребляемыми внутри контента ссылок. Параметры те же: знак сравнения и дата.


    Создание и применение собственных ВФ-функций
    Инструкция программисту по разработке ВФ-функций - в стадии написания.

    Инструкция Пользователя по применению ВФ-функций.

  • Параметры прописываются через запятую сразу после имени ВФ-функции. Например: fun(IncludesDate,>,16.02.13)
  • Обновитесь до версии 8.4.1.
  • Скачайте архив ВФ-функций отсюда и перепишите хранящиеся в нем функции в папку Exe (буквы латинские).

    Далее, в зависимости от обратной связи от Пользователей, ВФ-функции будут включены в дистрибутив SiteSputnik News, WebSpider и Station, или Пользователи самостоятельно будут подгружать нужные ВФ-функции.

  • Обсуждение ВФ-технологии
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций о программе собран на странице.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2013г. Все права защищены.
    </blockquote>
    SiteSputnik WebSpider.
    Мониторинг изменений на сайтах: отслеживание обновлений по запросу
    Автор
    Алексей Мыльников
    Дата выхода публикации - 24.07.12г.     

    Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы.


    Назначение программы SiteSputnik WebSpider

    Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц.

    Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему.

    Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса.
    Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом.
    Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах.

    Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу.



    Описание демонстрационной задачи

    Возможности WebSpider(а) продемонстрируем на наглядном примере. Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе. Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация.

    В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".



    Решение демонстрационной задачи

    Последовательность действий пользователя такова.
    1. Создайте Ящик (папку), например, с именем "О СайтСпутнике".

      Это простая, хорошо известная пользователям программы процедура.
      Она выполняется следующим образом:

      - выбираем ящик (папку) на вкладке "Поиск в Интернете",
      - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...",
      - в появившемся окне вводим его имя "О СайтСпутнике",
      - нажимаем на кнопку "Создать".


    2. Определите пост-запрос.

      Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider".
      В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.

      Мониторинг изменений

      Пояснения.
      Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом. Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.


    3. Составьте пакет - список интересующих Вас сайтов, страниц, RSS-потоков.

      Это делается один раз для каждой темы. При необходимости, список может быть отредактирован.

      Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже.

      Мониторинг изменений

      Пояснения.
      В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока.
      Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки.
      В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
      В 4-ом - можно ввести комментарии. Ознакомьтесь с ними.

      В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге.

      На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а). Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)). Наибольшее практическое значение имеют первые два варианта.


    4. Выполните мониторинг.

      Для этого нажмите на кнопку "Совместно".

      Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях. Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос.

      Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.

      Замечание.
      Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет.
      Для этого воспользуйтесь кнопкой "Сохранение".




    Другие возможности WebSpider(а)
    В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.

  • Накладывать фильтры на адреса ссылок, чтобы при глубоком проникновении паука анализировать только интересующие адреса.

  • Применять фильтры для контентов новых фрагментов, чтобы отбрасывать заведомо ненужные фрагменты, или верхнюю, или нижнюю часть фрагмента.

  • Важная информация.
    Собственно, описанные в этом абзаце действия должны применяться в реальных задачах. В пакете (на второй картинке) можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов. Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам. На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.

  • Результат применения каждого пост-запроса можно отправлять в клиентские папки. В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно: папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).

  • При глубине поиска больше нуля WebSpider (паук) будет обнаруживать новые страницы. При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.

  • Можно прописать максимальное количество ссылок, достигнув которое паук не будет проникать далее вширь и вглубь по ссылкам.

  • Если ссылки "позволяют", то можно применить к ним автоматическое выделение значимого контента, используемого при мониторинге. При необходимости можно использовать "Настройки сайтов" для этих целей.


  • Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации. Здесь отмечу только то, что на мой взгляд является главным.

  • Главная информация.
    Предложенная технология проста в применение от начала до конца. В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос). Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах. Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу.

    Не нужно применять требующий специальных навыков Мастер подключения новых источников. Достаточно просто вписать адреса интересующих источников в пакет.

    Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

  • В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета.


    Обсуждение SiteSputnik WebSpider
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik (СайтСпутник).
    Полный список публикаций о программе собран на странице.
    Скачать программу можно здесь.
    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2012г. Все права защищены.
    SiteSputnik. Сбор информации об объекте: физическом или юридическом лице Алексей Мыльников
    Дата выхода публикации - 03.05.12г.     


    В версии 7.5.2 от 02.05.12 программы SiteSputnik появилась новая функция: "Сбор информации об объекте" - физическом или юридическом лице.

    Чтобы обратиться к ней, нажмите на кнопку программа Мониторинга (её можно сделать видимой на верхней панели инструментов из "Настройки - Параметры - вкладка Вид"). Затем в картинку:

    Мониторинг интернета

    внесите те данные, которые Вам известны об объекте (физическом или юридическом лице (можно ввести только один реквизит)).

    По одному щелчку мышки осуществится точный и полный поиск ссылок, содержащих заданную информацию.

    Поиск выполнится сразу на нескольких поисковиках, сразу по всем реквизитам, сразу по всем возможным комбинациям записи реквизитов (вспомните как по-разному можно записать номер телефона).

    В основном, используются пакеты Олега Петрова /кстати, эту картинку можно использовать для упрощенного обращения к его пакетам, например, телефон задается "единым" числом в одном окне/.

    Через небольшой промежуток времени Вы, не выполняя скучной рутинной работы, получите список ссылок, очищенный от повторов и, главное, упорядоченный по релевантности для искомого объекта. Релевантность (значимость) достигается за счет того, что первыми будут идти те ссылки, на которых находится большее количество заданных Вами реквизитов, а не те, которые продвинули вверх выдачи поисковиков Веб-мастера.

    Если требуется отслеживать появление новой информации по заданному объекту, то Вам достаточно периодически повторять данный поиск. Как и для простого запроса программа СайтСпутник создаст список "Новые", в который поместит только те ссылки, которые не были найдены ни в одном из предыдущих поисков.

    Эта операция удобна, например, при приеме нового сотрудника на работу или появлении нового контрагента, чтобы быстро, точно и полно посмотреть, что есть о нем в поисковиках.
    SiteSputnik. Поиск новых ссылок, содержащих информацию на заданную тему Автор
    Алексей Мыльников
    Дата выхода публикации - 01.03.12г.     



    Описание функции. В новой версии программы SiteSputnik появилась функция: "Поиск новых ссылок на заданную тему".

    Она прописывается в настройках (см. синюю стрелку на картинке ниже)



    Если этот параметр включён, то SiteSputnik будет для любого выполняемого запроса или пакета запросов дополнительно создавать список "Новые" (см. серую стрелочку). В этом списке будут собраны ссылки (сниппеты), которых не было ни в одном поиске, выполненном ранее в текущей папке. На нашем рисунке текущей папкой является папка "Тесты" (см. красную стрелочку).

    Такой способ эффективен, когда Вы разрабатываете конкретную тему и выполняете при этом разные запросы и пакеты запросов (в предыдущих версиях программы была и осталась похожая функция, которая создает список "Новые" для одноименных запросов и пакетов (см. зеленую стрелочку).

    Например, если Вы собираете информацию о физическом лице, то создайте в СайтСпутнике папку с подходящим именем и выполняйте самые разнообразные запросы и пакеты запросов:

      поиски по ФИО,
      по телефону,
      почтовому и е-майл адресу,
      по "никам" и так далее.

    Для каждого нового поиска будет дополнительно создаваться отдельный список "Новые" (см. серую стрелку), в котором будут только те ссылки, которых не было ни в одном предыдущем поиске, выполненном в данной папке (Ящике).

    Если Вы вернетесь к разрабатываемой теме через три дня или три месяца и выполните любой новый или "старый" запрос, то в списке "Новые" увидите ссылки, которые Вы еще не просматривали.

    На картинке Выше - демонстрационный пример поиска ссылок по теме "СайтСпутник". Колонка КНС - количество новых ссылок (обведена красной линией). Она показывает сколько новых ссылок нашел SiteSputnik по каждому запросу или пакету запросов.

    Очень удобно.
    Запускаешь поиски (новые или выполненные "вчера") и просматриваешь относительно небольшой список "Новые", зная, что имеешь дело со ссылками, которые ещё не просматривал.

    Обсуждение функции.

    Обсуждение данной функции открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.


    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2012г. Все права защищены.
    В версии 7.4.1.5 от 28.11.11 программы SiteSputnik можно получать "Статистику по пакету запросов", подобную той, что изображена на картинке ниже.

    СайтСпутник

    Строки Таблички - Рубрики, задействованные в пакете (в задании на мониторинг источников информации).
    Столбцы Таблички - даты выполнения мониторинга.

    В нашем случае, пакет выполнял мониторинг новостей по 50 источникам из сценария "ТВ и РАДИО станции", описанного на форуме СПКР - http://forum.razved.info/index.php?t=2292

    В Рубрики попадала информация об упоминании в источниках четырех парламентских партий: "Единая Россия", КПРФ, ЛДПР, "Справедливая Россия".

    Табличка показывает динамику упоминаний этих партий в задействованнах источниках в период с 18.11.11 по сегодняшнее число в фиксированные моменты времени.

    В общем случае, источники и Рубрики определяются пользователем, то есть, могут быть произвольными. Данная табличка носит чисто демонстрационный характер. Думаю, что этот инстумент будет полезен аналитику при решении своих исследовательских задач.

    Чтобы опробовать данную функцию в SiteSputnik News следует установить галочку в параметре "Собрать статистику по пакету в Рубриках" (см. тонкую красную стрелку на картинке из первого сообщения предыдущей теме)
    SiteSputnik Station. Круглосуточный мониторинг сайтов с применением нескольких компьютеров
    Дата выхода публикации - 14.11.11г.     



    В версии 7.4.1 от 14.11.11 программы SiteSputnik Station реализована новая функция, позволяющая огранизовать круглосоточный мониторинг появления новой информации на заданные темы с использованием нескольких компьютеров. Эта функция увеличивает производительность и надежность процесса обработки информации и практически обеспечивающает его неуязвимость при нападении и различных атаках.


    Описание новой функции.


    Для этого потребуется картинка, которую можно увидеть, открыв из главного меню программы: «Параметры – Настройки - вкладка Station».

    сеть, соцсеть, социальная сеть

    Новая функция реализуется при помощи двух операторов, применяемых в пакетах запросов (заданиях на выполнение мониторинга).

    1. Оператор ^^Экспорт;
      Он выполняет передачу (экспорт) чистых потоков, формируемых на конкретном компьютере, в папки локальной или глобальной сети интернета, прописанные в настройках. Толстая синяя стрелка на картинке указывает на окно, в котором прописываются экспортные папки. Третья и четвертая папки расположены в глобальной сети.

      Пояснение.
      Чистый поток - это полнотекстовая, очищенная от мусора новостная лента, сформированная из новой информации, появившейся на задействованных в пакете источниках (сайтах). Чистый поток становится доступным на других компьютерах. На его формирование уходит примерно 99% времени и других ресурсов.

      Демонстрационные примеры чистых потоков на различные темы приведены на ссылках: "Прогнозы аналитиков", новости с "ТВ и Радио" источников, "банки, финансы, кредиты", "Владимир Путин".
    2. Оператор ^^Импорт;
      Он выполняет на конкретном компьютере прием (импорт) и передачу на анализ чистых потоков, сформированных при помощи оператора ^^Экспорт; на других компьютерах. Импорт происходит из папок локальной сети или глобальной сети интернета, прописанных в настройках. Толстая зеленая стрелка указывает на окно, в котором прописываются папки для импорта.

      Результаты импорта и анализа (раскладывания по Рубрикам), приведенных выше потоков, представлены на ссылках: "Сколково", "Алексей Кудрин", "СургутНефтеГаз", "индексы Dow Jones и NASDAQ", "Альфа-Банк".

      Пояснение.
      Папки могут быть произвольные. Местоположение компьютеров не имеет значения.
    Приоритет
      Операторы ^^Экспорт; и ^^Импорт; "сильнее" переключателей "Включить экспорт потоков ..." (тонкая синяя стрелка) и "Выключить экспорт потоков ..." (тонкая зелёная стрелка). Это означает, что импорт и экспорт, прописанные в пакете, будут выполнены, независимо от того, установлена или не установлена в настройках галочка для этих параметров.
    Планы на будущее
      Реализация прописки папок для импорта и экспорта прямо в пакете, а не только в настройках программы. Это увеличит количество вариантов обмена информацией.

    Что дают эти операторы

    Примеры организации мониторинга.

      Вариант 1. Упрощённое применение: десять для одного.
      Предположим, что у Вас 11 СайтСпутников. Разобъём одну сложную задачу на 10 подзадач примерно одинаковых по времени выполнения. Пропишем для 10 СайтСпутников решение по 1 подзадаче, экспорт чистых потоков в одну папку "А" и старт в 03:00. 11-ому СайтСпутнику пропишем старт перед Вашим приходом на работу в 07:30 и импорт из папки "А".

      Вариант 2. Для группы по интересам: один для десяти.
      Возьмем сообщество СПКР. Предположим, что 10 членов сообщества имеют по одному СайтСпутнику. Выбирается папка на сайте сообщества. Она прописывается в настройках каждого СайтСпутника и в экспорте, и в импорте. В пакетах с "несекретным" мониторингом (источниками и запросами) прописываются операторы и ^^Экспорт; и ^^Импорт;. В "секретных" пакетах можно прописать только оператор ^^Импорт;. В результате такой организации работ каждый член сообщества будет практически "бесплатно" получать дополнительную информацию для мониторинга от своих коллег.

      Вариант 3. Общий случай: десять для десяти.
      Предположим, что Вам надо решать одну или несколько задач мониторинга появления новой информации, и в Вашем распоряжении имеется 10 компьютеров, оснащенных программой SiteSputnik Station. Применив Планировщик задач, Вы поручаете в течение недели каждому компьютеру в заданное время один или неколько раз в сутки выполнять один или несколько пакетов. В каждом пакете Вы прописываете экспорт, импорт или и экспорт и импорт чистых потоков в заданные в настройках папки. Количество папок - неограничено. Обмен информацией между компьютерами и пакетами прописан Вами. Организовав подобным образом работу компьютеров, можно обеспечить круглосуточный сбор, мониторинг и анализ информации для поставленных задач. Чтобы не заглядывать "внутрь" программ, результаты анализа информации (дайджесты) можно отправлять в клиентские папки, размещенные в локальной или глобальной сети интернета, или автоматически рассылать их по e-mail адресам.

      Образно говоря, каждый из 10 СайтСпутников будет вращаться по своей орбите и передавать на Землю (в клиентские папки) собранную информацию.

      Настоящая реализация программы SiteSputnik Station позволяет организовать указанные варианты работ.
    Перерубрикация.

      Экспортируя все чистые потоки в дополнительную архивную папку, можно в любое время проанализировать и разложить по любым Рубрикам новым и старым, собранную в сохранённых чистых потоках информацию. Рекомендуется сделать копию архивной папки, так как, параметр "Максимальный размер базы данных импортируемых потоков" (серая тонкая стрелка) "следит" за тем, чтобы базы данных потоков не разрастались ни в локальной, ни в глобальной сети и систематически удаляет устаревшую информацию.

      Пакет для перерубрикации будет иметь вид:

      ^^Новости;
      ^^Импорт;
      ^^Рубрики\Путь1
      ^^Рубрики\Путь2
      ... ... ...
      ^^Рубрики\ПутьN

      Прописывать источники не обязательно. Не забудьте перед запуском пакета указать в настройках в качестве импортируемой папки имя копии архивной папки. Большое значение в данном случае имеет способность программы СайтСпутник удалять дубли по контенту.

      Возможно, Вы придумаете свою "импровизацию", подобную перерубрикации, на тему применения SiteSputnik Station.

    Применение SiteSputnik Station.

    О применении программы достаточно подробно написано в предпоследнем разделе первой публикации о программе SiteSputnik Station.

    Подробнее о неуязвимости.
    При помощи программы SiteSputnik Station можно решать достаточно серьёзные и ответственные задачи информационного обеспечения предприятия или другого объекта. Неуязвимость функционирования построенного программно-технического комплекса обеспечивается тем, что нет цели для атаки. Цель "размыта", она не сконцентрирована на одном сайте, сервере или компьютере. Папок импорта-экспорта может быть несколько, их несложно перемещать в веб-пространстве.

    Обсуждение первых функций SiteSputnik Station.

    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2011г. Все права защищены.
    SiteSputnik Station. Создание сети коллективного сбора, мониторинга и анализа информации



    Предисловие.
    В версию 7.3.1 от 17.10.11 программы SiteSputnik News добавлены с целью предварительного ознакомления и опробации первые элементы нового варианта программы, рабочее название которого SiteSputnik Station.


    Функциональное назначение и организация работы SiteSputnik Station.
    SiteSputnik Station предназначен для следующего.
    • Создание корпоративной или профессиональной сети для коллективного сбора, мониторинга и анализа информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Далее участников будем называть клиентами.

    • Распараллеливание процессов сбора, мониторинга и анализа информации. Это увеличивает производительность и надежность, позволяет выполнить работу на одну заданную тему с нескольких компьютеров.
    Организация сети и параллельной работы.
    • Установка на нескольких компьютерах клиентов программы SiteSputnik Station.

    • Выделение в корпоративной сети или глобальной сети Интернета общедоступного пространства (папок, ресурсов или папок на сайте).

    • Настройка клиентских экземпляров программы SiteSputnik Station на обмен информацией через выделенное общедоступное пространство.
    Под сбором, мониторингом и анализом потоков информации понимается следующее.
    • Сбор (или синтез информационного потока, содержащего информацию на заданную тему) осуществляется посредством подключения нужных источников информации, а именно: а) встроенных в сайты поисков; б) RSS-потоков; в) произвольных страниц сайтов, на которых периодически появляется новая информация (эмуляция RSS-потоков). Это, своего рода, фильтр грубой очистки (термин Нежданова И.Ю.): из огромного информационного потока Интернета формируется составляющая, в которой содержится нужная информация.

    • Мониторинг: а) выделение новой информации из потока; б) выделение значимого контента ссылки (очистка её от окружающего мусора); в) удаление неоднократно повторяющегося контента из потока; г) удаление контента, который присутствовал в предыдущих потоках (уже был получен ранее в предыдущих поисках на заданную тему). Этот процесс можно рассматривать как процесс «промежуточной» очистки информационного потока от ненужной информации, а сам поток будем называть чистым потоком.

    • Анализ чистого потока – выделение из него нужной информации (фильтр тонкой очистки). На этом этапе сформированные чистые потоки раскладываются на тематические потоки (по Рубрикам согласно специальным Правилам попадания информации в Рубрику).

    • Обмен чистыми потоками между клиентами осуществляется через общедоступное пространство, анализ своих и чужих чистых потоков происходит на компьютере конкретного клиента.
    Цель данного способа обработки информации – совместить четыре трудносовместимые вещи, а именно: полноту, точность, оперативность и надёжность процесса сбора, мониторинга и анализа информации.

    Настройки программы SiteSputnik Station, способы обработки потоков.
    В настоящей реализации (пока или уже) имеются следующие возможности.
    Открыв из главного меню программы «Параметры – Настройки - Вкладку Station», можно увидеть приведенную ниже картинку.

    сетевые настройки

    Переключатель ”Включить экспорт потоков в прописанные ниже клиентские папки” – включает или отключает экспорт чистых потоков в клиентские папки (КП), которые прописываются в окне, размещённом сразу под этим переключателем. На картинке прописаны четыре КП: первая в локальной сети корпорации, вторая папка на Рабочем столе компьютера клиента, третья и четвертая – на корпоративном сайте sitesputnik.ru. Именно во все эти четыре папки будут экспортироваться все чистые потоки, формируемые на данном компьютере.

    Переключатель ”Включить импорт потоков из прописанных ниже клиентских папок” – включает или отключает импорт чистых потоков из КП, прописанных в окне, размещённом сразу под этим переключателем. На картинке прописаны три КП: две первые на корпоративном сайте sitesputnik.ru, третья в папке на Рабочем столе компьютера клиента. Именно из всех этих трёх папок будут импортироваться сформированные на чужих компьютерах и переданные в эти папки чистые потоки.

    Количество КП - теоретически не ограничено.
    Количество компьютеров - теоретически не ограничено.

    Важно.
    Обращаю Ваше внимание, что в КП экспортируются, а из КП импортируются не Рубрики, а чистые потоки. На формирование чистых потоков ориентировочно затрачивается около 99% времени и других потребляемых ресурсов. Чистые потоки, содержат больше информации, чем Рубрики.

    Следующий параметр – переключатель ”Раздельный учёт импортируемых потоков для каждого пакета и базы данных”. Если галочка установлена, то каждый импортируемый чистый поток будет использован по одному разу для каждого пакета и базы данных (задания). Отсутствие галочки означает, что каждый чистый поток на компьютере клиента будет использован только один раз. Опрос на наличие ещё не использованных чистых потоков происходит на заключительной стадии выполнения каждого пакета.

    Следующий параметр – ”Максимальный размер базы данных импортируемых потоков”. Он устанавливается в диапазоне от 10 до 1000 потоков. Это чисто технический параметр. Он предназначен для предотвращения неконтролируемого разрастания базы чистых потоков и автоматически удаляет самый старый поток из базы, если достигнут её максимальный размер.

    В настоящей реализации программы SiteSputnik Station экспортируются и импортируются потоки информации только в формате программы SiteSputnik. Экспорт и импорт в другие форматы – чисто техническая задача, которая будет решаться в процессе разработки и совершенствования программы SiteSputnik.

    Применение настоящей реализации SiteSputnik Station.
    Настоящая реализация программы уже сейчас может пригодиться в следующих случаях.
    1. Имея один экземпляр СайтСпутника, на одном компьютере можно «передавать» друг другу чистые потоки, сформированные разными пакетами (поисками на разные темы). Для этого достаточно экспорту и импорту потоков прописать одну и туже папку на локальном диске своего компьютера.

    2. Поиск с нескольких компьютеров на одну заданную тему. Это увеличит скорость обработки информации. Скорость в идеальном случае будет прямо пропорциональна количеству запущенных экземпляров программы СайтСпутник. Задание нужно разбить на N частей, выполнить части отдельно на N компьютерах и получить тот же результат, что и при выполнении одного большого задания на одном компьютере.

    3. Предположим, что на Вашем предприятии в разных подразделениях в корпоративной сети работают N экземпляров программы SiteSputnik. Каждый из них ориентирован на сбор, мониторинг и анализ информации на заданную тему для конкретной группы сотрудников. Для этого на конкретном рабочем месте СайтСпутник использует свои источники информации, свои обращения к ним, свои Рубрики, своё расписание работ. Но вероятность того, что в источниках группы А «проходит» информация, интересующая группу Б, и наоборот, и так далее, - больше нуля. Поэтому применение СайтСпутника позволит полнее собрать информацию. Точность практически не пострадает.

    4. Устойчивость и надежность обработки информации повышаются, потому что отказ одного СайтСпутника по техническим или другим причинам приводит к некоторому уменьшению количества собранной информации, а не к её полному отсутствию в случае применения одного экземпляра программы.

    5. Применив Планировщик задач, можно организовать работу таким образом, что в СайтСпутник придётся «заглядывать» только тогда, когда требуется сделать какое-либо усовершенствование процесса обработки информации, например, подключить новый источник или при сбое аппаратно-программного обеспечения.

    Обсуждение первых функций SiteSputnik Station.
    Обсуждение данной темы открыто форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.

    Программа SiteSputnik News как основа
    информационного обеспечения предприятия





    Предисловие.


    В настоящей публикации рассматриваются новые возможности программы SiteSputnik News, предназначенной для отслеживания появления новой информации в открытых источниках интернета. Выражаю благодарность члену СПКР (Сообщества Практиков Конкурентной Разведки)
    Игорю Нежданову, а также Дмитрию Петряшову и всему сообществу за полезные советы и замечания,
    высказанные на форуме и в личной переписке.



    Основные понятия и терминология.


    Новость - это содержание ссылки, очищенное от окружающей её ненужной информации. Ссылка не обязательно должна быть собственно новостью, она может иметь любое смысловое содержание, например, описание: коммерческого предложения, объекта недвижимости, состояния фондового рынка, технических характеристик изделия, вакансии или резюме кадрового агентства; это может быть научная статья, способ приготовления пищи, лекарства или стали, событие или информация с другим смысловым содержанием.

    Новостная лента - это совокупность новостей на заданную тему. Под новостными лентами понимаются только тематические новостные ленты.В программе SiteSputnik News новостные ленты формируются в списке «Всё по Рубрике».

    Клиент - сотрудник любого подразделения предприятия, по заказу которого формируются одна или несколько новостных лент.

    Важно.
    Если Вы не ознакомились с основными понятиями и терминологией, то Вам нет смысла читать изложенный ниже текст.






    Новые возможности.


    В версии № 7.2 программы SiteSputnik News появились следующие новые возможности.

    1. В настройках для всей Программы можно прописать несколько любых папок, в которые будут перенаправляться копии всех новостных лент, формируемых программой.
      Такие папки называются клиентскими папками для всех новостей.


    2. В настройках каждой новостной ленты можно прописать несколько любых папок, в которые будет перенаправляться копия этой конкретной новостной ленты.
      Такие папки называются клиентскими папками для конкретной новостной ленты.


    3. Клиентские папки могут быть размещены не только на том компьютере,
      где работает программа SiteSputnik News, но и на любом другом компьютере в локальной сети Предприятия.






    Организация информационного обеспечения Предприятия.


    Эти три простые возможности, добавленные к накопленному функционалу программы SiteSputnik News, позволяют по-новому организовать информационное обеспечения предприятия или его информационно-аналитического подразделения. Поручаемое Программе информационное обеспечение предприятия будет удовлетворять следующим условиям.

    1. Одна и та же новость может попасть в несколько новостных лент.


    2. Каждая новостная лента автоматически доставляется на «Рабочий стол» или другую папку компьютера тех и только тех Клиентов, которым она нужна.
      В случае, если новостная лента нужна нескольким Клиентам из одного или нескольких подразделений Предприятия,
      то она будет доставлена на компьютеры всех заинтересованных в ней клиентов.


    3. Принцип одной кнопки.
      Клиенту достаточно уметь работать и открывать файлы в Проводнике ОС Windows.
      Не требуются специальные знания ни программы SiteSputnik News, ни другого программного обеспечения: браузеров, RSS-потоков, программ-аггрегаторов и прочих инструментов.
      Всю специальную работу выполняет администратор программы SiteSputnik News.
      Клиенту достаточно сообщить администратору источники информации (сайты) и список ключевых фраз, хотя бы одну из которых должна содержать новость.


    4. Работа в реальном масштабе времени. Получение информации по факту её появления в Интернете.
      Единый для всего Предприятия информационный движок, работающий по расписанию.


    5. Полнота и точность отслеживания информации: «Найти всё и с гарантией».
      Полнота обеспечивается формированием общего потока информации из практически любых внешних источников:
      RSS-потоков, произвольных страниц сайтов (эмуляция RSS-потоков), встроенных в сайты поисков.
      Точность достигается за счёт выделения очищенного от мусора полнотекстового содержания новости и группы правил, по которым общий поток таких новостей разбивается на подпотоки: новостные ленты.
      Для каждой новостной ленты выполняется удаление новостей с одинаковым содержанием.







    Управление Клиентскими папками.


    Клиентские папки для всех новостных лент.



    На приведенной ниже картинке синей линией обведено окно ввода и редактирования таких папок.
    Обращение к папочной структуре локальной сети по двойному клику мышки.



    СайтСпутник мониторинг







    Клиентские папки для конкретной новостной ленты.




    На приведенной ниже картинке красная стрелка указывает на переключатель между Правилами попадания в новостную ленту "Лента о SiteSputnik"
    и списком клиентских папок для неё.



    SiteSputnik мониторинг




    Нажав на этот переключатель, получаем расположенную ниже картинку.
    На ней можно прописать несколько папок из локальной сети компьютера.
    Обращение к папочной структуре локальной сети по двойному клику мышки.



    СайтСпутник SiteSputnik






    Функции администратора программы.


    Администратор программы делает следующее.

    1. Подключает необходимые источники информации (сайты и поиски).


    2. Создает описание необходимых новостных лент: правила попадания в них новостей и клиентские папки, по которым они автоматически рассылаются.
      При необходимости прописывает клиентские папки для всех новостных лент.


    3. Создает пакеты, в которых прописывает: из пункта 1 - необходимые источники и глубину просмотра в них информации; из пункта 2 - названия новостных лент, принимающих новости.


    4. Прописывает Планировщику задач расписание выполнения одного или нескольких пакетов из пункта 3.



    Клиенты в заданное время, в заданном месте (клиентских папках на своём компьютере) получают только нужные новости со своих источников.




    Список литературы.


    Приложение FileForFiles & SiteSputnik хорошо документировано.

    Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.



    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2011г. Все права защищены.

    Купля-продажа бизнеса:
    мониторинг источников информации






    На видеоролике продемонстрировано как программу SiteSputnik News (СайтСпутник Новости) можно использовать для Мониторинга сайтов, на которых выкладываются предложения по продаже готового бизнеса. Все видеоролики собраны на отдельной странице.

    Для демонстрации возможностей мониторинга в ролике задействованы:
    - 6 источников информации (БизнесТорг, БизнесДляПродажи, БизнесЗона, из Рук в Руки, business.slando.ru, avito.ru),
    - 10 новых ссылок из каждого источника,
    - 4 Рубрики для сбора нужной бизнес-информации (Автосервис, Интернет-магазины, Салоны красоты, Турарентства).

    В реальной работе можно задействовать произвольное количество источников, ссылок и рубрик. Рубрики могут быть вложенными.

    Для тех, кто профессионально занимается куплей-продажей бизнеса, целесообразно подключить эти же источники для мониторинга запросов на покупку бизнеса. В этом случае в одну рубрику можно будет сводить и предложения по продаже, и запросы по покупке одного и того же вида бизнеса.

    Latest Month

    November 2013
    S M T W T F S
         12
    3456789
    10111213141516
    17181920212223
    24252627282930

    Syndicate

    RSS Atom
    Powered by LiveJournal.com
    Designed by Tiffany Chow