?

Log in

No account? Create an account
Журнал ошибок и предупреждений создается для каждого выполнения Проекта, если есть о чем сообщить по этому поводу.

Ранее об этом сообщалось только в выдаче по месту возникновения ошибки или предупреждения.

Теперь дополнительно такие сведения собираются в одном месте.

Доступно, начиная с SiteSputnik (СайтСпутник) версии 9.5.3 от 12.12.2017г.
Назначение модуля


Во всех современных поисковиках, включая Яндекс и Google, и во всех встроенных в сайты поисках в настоящее время:

• в запросах нельзя определить для ключевых слов максимальное допустимое расстоя-ние между ними, их нахождение в одном предложении или абзаце;

• нигде не поддерживается скобочная структура запроса;

• перестают поддерживаться некоторые другие возможности языков запросов.

В настоящей публикации описан способ, применяя который можно частично преодолеть или сгладить перечисленные выше недостатки.


Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.


§1. Запрос + Пост-запрос


Сначала несколько демонстрационных примеров.

ПРИМЕР 1. Открываем пункт меню (смотрите по красной стрелочке):



и вводим запрос: Алексей /1 Мыльников /3 программист

Его назначение: найти те и только те ссылки, в содержании которых есть стоящие на расстоянии 1 пробела (то есть рядом) словоформы от слов Алексей и Мыльников и есть ещё словоформа от слова программист, стоящая на расстоянии не более 3 пробелов от первых двух словоформ.



На картинке выше кроме запроса мы ещё указали источник, на котором он будет выполнен (это поисковик Google) и глубину поиска, равную 7-ми поисковым страницам.

Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

1) выполнит в Google запрос: Алексей Мыльников программист, - на глубину 7 страниц
(обратите внимание, что символы “/1”и “/3” отсутствуют в запросе (они Гуглю ни о чём не говорят));

2) скачает все найденные по этому запросу ссылки;

3) проанализирует их содержание (контент) и поместит в специально созданный список “Пост-запрос+” ссылки, содержание которых удовлетворяет указанным выше целям.

Ниже список “Пост-запрос+” будем называть выдачей.

Фрагмент из выдачи по этому запросу таков:



Красные стрелочки указывают на элементарные правила, которым удовлетворяет содержание найденных ссылок (именно содержание ссылок, а не содержание сниппетов, которые Вы видите сейчас на картинке справа).



ПРИМЕР 2. Открываем окно для ввода запроса и вводим следующий запрос:

Алексей /1 Мыльников & ( СайтСпутник | Sitesputnik | Борисович)

Его назначение: найти те и только те страницы, в содержании которых есть стоящие рядом словоформы от слов Алексей и Мыльников и ещё, чтобы в одном предложении с ними была хотя бы одна словоформа из следующих трёх: СайтСпутник, Sitesputnik или Борисович.



Здесь мы прописали поиск на Яндексе на глубину 10 страниц.

Нажимаем на кнопку «Поиск+». СайтСпутник сделает следующее:

1) Выполнит в Яндексе поиск по трём запросам:

a. Алексей Мыльников СайтСпутник, - на глубину 10 страниц
b. Алексей Мыльников SiteSputnik, - на глубину 10 страниц
c. Алексей Мыльников Борисович, - на глубину 10 страниц

(обратите внимание, что символы “/1” и “&” отсутствуют (они Яндексу уже ни о чем не говорят), а скобки раскрыты (Яндекс уже их не воспримимает));

2) Объединит три результата поиска, отбросив дубли ссылок и оставив только уникальные ссылки;

3) Скачает все уникальные ссылки;

4) Проанализирует их содержание (контент) и поместит в выдачу ссылки, содержание которых удовлетворяет указанным выше целям.

Фрагмент из выдачи по этому запросу таков:



Красные стрелочки указывают на элементарные правила, которым удовлетворяют содержания найденных ссылок (именно ссылок, а не сниппетов, как уже подчеркивалось выше).




ПРИМЕР 3. Ещё один чисто демонстрационный запрос посложнее.



Выше на картинке показано как по запросу, отправленному на источник, называемый Метапоиск, можно получить ссылки, содержащие информацию о чемпионате мира по футболу, проводимому в России. Причем на этих ссылках не должно быть словоформы от слова Мутко или стоящих рядом словоформ от слов Строительство и Стадион (не должно быть ни одной из этих двух конструкций).

Действия СайтСпутника подобны его действиям, выполненным в предыдущем примере. Он выполнит упрощенные запросы на источниках, скачает найденные уникальные ссылки, проверит и оставит в выдаче те и только те из них, содержание которых удовлетворяет сложному запросу (Пост-запросу).





§2. Пакет + Пост-запрос

Можно задать не только один запрос, но и Пакет запросов.

Обращение к Пакету - из меню (смотрите на самой первой картинке по зеленой стрелочке).

ПРИМЕР 4. На картинке ниже показан простой, чисто демонстрационный, пакет запросов:



После выполнения поиска по каждому запросу и скачивания всех найденных уникальных ссылок для их содержания будет выполнен следующий Пост-запрос:

(Олег /2 Табаков) | (Табакерка /5 (Театр | Студия))

Соответственно, в выдачу попадут те и только те ссылки, в содержании которых есть стоящие не далее, чем на расстоянии 2-х пробелов друг от друга словоформы от слов Олег и Табаков или Табакерка, на расстоянии не более 5 пробелов от которой стоит Театр или Студия.

В данном Пакете одним из источников является поиск в Твиттере.




Заключительные замечания

• Язык Пост-запросов СайтСпутника практически эквивалентен Языку Рубрик СайтСпутника:
o примеры простых запросов - на ссылке (смотрите абзац «Элементарные правила),
o подробнее – на ссылке Рубрики в Сайт Спутнике;
o обсуждение - на форуме СПКР.

• если Вы повторите любой запрос или пакет запросов через какой-то промежуток времени, то увидите в выдаче те и только те ссылки, которые Вы ранее не находили и не просматривали ни разу, независимо от того, когда Вы до этого выполняли поиск: сегодня или год назад, - естественно, что Вы сможете ознакомиться и со всеми найденными ссылками;

• в качестве Источников могут быть использованы самые разные поисковики, встроенные в сайты поиски, RSS-потоки и другие подключенные источники информации, начиная от Яндекса, в котором описанные возможности уже не поддерживаются, включая Google, в котором их никогда не было, заканчивая самым обычным встроенным в сайт поиском или потоком;

• если использованы несколько источников, то дубли ссылок, найденные ими, будут отбрасываться.


Доступно, начиная с Site Sputnik версии 9.5.2 от 21.11.2017 г.

Подробнее - на ссылке SiteSputnik: Запрос + Пост-запрос.
Данный инструмент может быть применен в финансовой сфере и в таких областях как развитие бизнеса, маркетинг, PR, науке и технике, безопасности, информационных войнах, конкурентной разведке, в управлении репутацией и любой другой деятельности, сопровождаемой информационными потоками и событиями.

Подробнo - на ссылке Статистика текущая и Проект "Финансы".


Чтобы прописать сбор текущей статистики в программе SiteSputnik, следует в Настройках на вкладке +News установить галочку и указать папку, в которой она будет собираться (см. зелёную стрелочку на картинке ниже):



Пример файла со статистикой приведен на ссылке Статистика текущая.

Этот файл имеет расширение xlsx и содержит 5 листов статистических данных:

• по Рубрикам сокращенная,
• по Рубрикам+Источники+их домены,
• по Рубрикам+Домены ссылки,
• по Источникам - Поиск+Рубрики,
• Рубрики и Источники расширенная.


В настоящей реализации на этих листах размещена, следующая информация:

• номер выполнения проекта, его название и папка, в которой он выполнялся,
• дата, время его выполнения,
• заголовок сообщения (новости или комментария), его дата и время выхода,
• рубрики, в которые оно попало,
• источник, его нашедший,
• элементарное правило, по которому оно попало в Рубрику,
• домен источника, домен сообщения,
• количество попаданий в Рубрики,
• количество найденных ссылок источником,
• количество новых из них,
• количество попавших в Рубрики из новых,
• соответственно, КПД новизны и КПД Рубрикации для источника,
• другие количественные, процентные и собственные значения.


Доступно, начиная с Site Sputnik версии 9.5.1 от 07.11.2017 г.


Проект "Финансы" - поиск, сбор и анализ информации, её графическое представление

Проект выполнен и описан Дмитрием Владимировым из Владивостока. Выражаю ему благодарность за сам Проект, а также за полезные советы и предложения, сделанные в личной переписке при разработке данного Проекта и некоторых других функций СайтСпутника.

Описание Проекта на момент выхода версии программы 9.5.1 от 07.11.2017 г на ссылках - Проект "Финансы" и Статистика (отчет по рынкам).

Описание, файлы, обновления Проекта, как работать с Инфографикой на ссылке - Все материалы.

Инфографика Проекта (8 страниц) на ссылке - Проект «Финансы»: Инфографика.

Начальная страница из Инфографики выглядит так:

SiteSputnik Comments. Отслеживание комментариев
к сообщениям и другим публикациям по ключевым фразам


Дата выхода публикации - 18.11.13г.     





Аннотация и благодарности

Новый вариант программы SiteSputnik Comments является расширением варианта SiteSputnik News.

Он предназначен для мониторинга комментариев к сообщениям, новостям и другим публикациям из открытых источников интернета.

Настоящая реализация от 18.11.13 под номером 8.6.1 является Бета-версией программы.

В ближайшем будущем и в дальнейшем программа SiteSputnik News+Comments будет совершенствоваться и развиваться.

Выражаю благодарность участнику форума СПКР под ником InfoPrior за полезные советы, данные при разработке этого варианта программы.

Принцип работы SiteSputnik News+Comments


  1. Задание, выполняемое программой SiteSputnik News, формирует поток новой информации с задействованных в нём источников.


    В терминалогии, принятой в программе SiteSputnik, он называется "Чистым потоком".
    Далее "Чистый поток" отправляется на рубрикацию.


    Если у Вас включены +Comments, то на рубрикацию также будут отправлены все комментарии к сообщениям, попавшим в "Чистый поток".




  2. Рубрицировать поток комментариев можно двумя способами:



    • направить его на те же самые рубрики, что и сообщения или новости из "Чистого потока",


    • направить его на свои собственные Рубрики, то есть, проанализировать его по своим правилам.



    Пояснение.

    • Первый способ рубрикации комментариев иногда бывает полезен.


    • Рубрикация по своим правилам необходима по той причине, что очень часто даже для солидных источников информации
    содержание комментариев резко отличается от содержания самих сообщений или новостей.
    Поэтому для извлечения нужных комментариев требуется задействовать другие ключевые фразы и слова.




Инструкция по применению SiteSputnik Comments


Существуют два способа "прописки" комментариев:

    • из Инструктора,



    • из пакета запросов.

Они проиллюстрированы на картинках:



Comments SiteSputnik




Комментарии СайтСпутник



Соответвественно, зеленые стрелки указывают на пункты меню, инициирующие прописку мониторинга комментариев в тех же самых Рубриках, что и сами сообщения или новости,
а красные стрелки - на мониторинг комментариев в своих собственных Рубриках. По красной стрелке инициируется диалог выбора Рубрики.
Можно обратиться к диалогу несколько раз и прописать несколько Рубрик, каждая из которых может иметь произвольное количество вложенных Рубрик.
Глубина вложенности тоже произвольная.

    • Третий способ прописки - прямо руками в тексте Проекта (пакета запросов) можно прописать один из операторов:


    ^^Комментарии;


    ^^Комментарии+Рубрики\...


    В последнем операторе вместо многоточия набирается путь к нужной Рубрике. Таких операторов может быть несколько.
    Третий способ не рекомендуется из-за того, что при ручном наборе можно допустить синтаксическую ошибку.



Простой демонстрационный пример


На ссылке выдача SiteSputnik Comments приведен чисто демонстрационный результат работы с комментариями по запросу к нескольким федеральным и региональным источникам информации.
Для рубрикации комментариев применялось следующее правило:

пиндосы | !распил* | вымогат* | коррупция | !вор* | взятки | !откат* | мерзав* | !твар* | !жул* | беспредел /2 чиновников | отмыв* | расстрел*

Весь поток комментариев (он большой и поэтому упакован) размещен на ссылке "Все комментарии".



Список литературы.

Полный список публикаций о программе собран на этой странице http://sitesputnik.ru/Public.htm.


Сайт о программе - http://sitesputnik.ru/.


Скачать программу можно отсюда.


Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2013г. Все права защищены.
SiteSputnik News. Внешние функции для Рубрик </font>
Дата выхода публикации - 18.02.13г.     



В версии 8.4.1 от 18.02.13 программы SiteSputnik реализованы новые возможности рубрикации материалов. Они получили название ВФ-технологии и доступны в вариантах SiteSputnik News, WebSpider и Station.

Назначение и суть ВФ-технологии "на пальцах"
Для того, чтобы выделить нужную информацию из потока, в программе SiteSputnik применяются Правила попадания в Рубрику. Упрощённо, с точки зрения Пользователя, Правило является последовательностью слов или фраз, которые должны присутствовать в контенте ссылки. С точки зрения математического обеспечения программы, Правило - это логическое выражение. Если оно принимает значение истина, то считается, что ссылка содержит нужную информацию и попадает в Рубрику.

В новой версии программы SiteSputnik в Правилах попадания в Рубрику можно прописывать обращения к внешним логическим функциям (сокращенно ВФ-функциям). Обращений может быть несколько, помещены они могут быть в разные части Правила, сами ВФ-функции могут быть тоже разные.

ВФ-функция
может быть написана на любом языке программирования. Она получает от программы SiteSputnik контент ссылки, производит свою работу и возвращает в Правило одно из двух значений: "Да" - критерий, который проверяет функция, выполнен или "Нет" - критерий не выполнен.

О главном.
Сообщение о результате работы ВФ-функции принимается в том и только в том месте Правила, из которого она была вызвана. Это важный момент технологии: ВФ-функции не просто "подвешены на ссылке" (такая технология применяется при реализации обычных плагинов), а "органически" встроены в Правила попадания в Рубрику, участвуют в его логической работе.

Что это дает.
  • Можно расширить Правила попадания в Рубрики своими Правилами, под свои потребности.
  • В этом процессе участие разработчика программы не является необходимым, достаточно обратиться к программисту.
  • При этом функциональное расширение может осуществлять сложную, произвольную работу: от анализа контента ссылки на негатив, до работы с базами данных и выхода в интернет за информацией.
  • При этом в синтакис Правил не вносится большое количество синтаксических конструкций. Достаточно только одной конструкции - синтаксического определения ВФ-функции.


  • Перечень ВФ-функций на момент публикации
    В данном разделе представлены двенадцать ВФ-функций, разработанных автором программы. На их примере продемонстрированы возможности ВФ-технологии. Функции осуществляют достаточно сложную символьную обработку, есть функции, которые выполняют сравнения чисел и дат, встречающихся внутри контента ссылок.

    1. Поиск 10-значного номера телефона - функция TelephoneNumber10

      Эта функция возвращает значение "Да", говоря на языке Пользователя, находит ссылки, в которых присутствует хотя бы один любой 10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном. Пример зашифрованного номера телефона: "9о7-1Ч4 два 8-семерка 6". В расшифрованном виде это - 9071442876.

      Прописав в Правиле: (Госзакупки | государственные /1 закупки) fun(TelephoneNumber10)

      мы получим ссылки, на которых упоминаются госзакупки и присутствует телефон (зашифрованный или незашифрованный). Это наглядная демонстрация упомянутой выше "встроенности" ВФ-функции в Правило: функция работает совместно с другими его конструкциями. Параметров у этой функции нет.

    2. Поиск конкретного номера телефона - функция TelephoneNumber10Search

      Находятся ссылки, в которых присутствует конкретный 10-значный номер телефона, в том числе не только в стандартном виде, но и в зашифрованном. Искомый номер телефона передается функции как параметр. Он прописывается как 10-значное число (в незашифрованном виде). Например:

      fun(TelephoneNumber10Search,9071442876)

    3. Любые символы вместо знака вопроса - AnyOfCharacters

      Например, если в качестве параметра этой функции прописать А???МР, то будут найдены ссылки, на которых упомянут хотя бы один VIP-номер автомобиля. Диапазон удовлетворяющих поиску номеров от A001MP до А999МР. Чтобы учесть и эту форму записи номера и другую с пробелами: A 001 MP, - нужно прописать два обращения к функции через логическое "ИЛИ":

      ( fun(AnyOfCharacters,А???МР) | fun(AnyOfCharacters,А?????МР) )

    4. Адрес федеральной почты России - PostAddress

      Находятся ссылки, в которых упомянут хотя бы один адрес федеральной почты России.
      Учитываются практически все варианты записи адресов.
      Например: "... происшествие произошло в г. Волгограде, на ул. Космонавтов рядом с домом 8 ..."

    5. Российский номер автомобиля - RussiaCarNumber

      Находятся ссылки, в которых упомянут хотя бы один российский номер автомобиля.
      Это следующие два варианта: БЦЦЦББ или Б ЦЦЦ ББ, где Б - буква: пересечение латинских и русских букв (учитываются их набор и на кириллице, и на латинице, и на верхнем, и на нижнем регистре), Ц - цифра любая из десяти.

    6. Слово с учетом регистра - SensitiveSearch

      Чувствительный к регистру поиск: РФ, ОРТ, КамАЗ, СайтСпутник. Искомое слово передается в качестве параметра.

    7. Число рядом со словом - NumberNearWord

      Реализована для маркетологов по заявке Игоря Нежданова.

      Рядом с "нужным" словом (первый параметр) расположено любое число на расстоянии не более фиксированного количества символов (второй параметр). Функция "реагирует" на нормальные числа, числа записанные прописью и жаргон: червонец, четвертак, лимон, ... .

    8. Сравнение с числом, размещенным рядом со словом - CompareWithNumber (!)

      Позволяет находить ссылки, внутри контентов которых есть числа, удовлетворяющие критериям.

      Например, если в Правиле есть обращение к этой функции со следующими параметрами: сумма, >, 8млн ,
      то критерию поиска удовлетворит ссылка, в контенте которой содержится, например, следующий текст:

      "... сумма долга - 10 миллионов рублей ...".

      Пояснение:
      в контенте ссылки есть слово "сумма" и стоящее рядом с ним число "10 миллионов", которое больше, чем 8 миллионов. По этой причине ссылка будет удовлетворять критерию поиска.

      Если в Правиле кроме этой функции прописано конкретное предприятие, то останутся только те ссылки, в которых оно упомянуто.

    9. Длина контента ссылки - LongOfNew

      Можно различать ссылки по длине их значимого контента (по количеству символов в контенте), например, отбрасывать очень длинные и/или очень короткие ссылки. Для того, чтобы указать диапазон значений, в Правиле следует прописать два обращения к этой функции через логическое "И". Длина и знак сравнения прописываются как параметры этой функции.

    10. Количество конкретных слов в контенте ссылки - CountOfWords

      Можно указать, что Пользователя интересуют только те ссылки, в которых, например, Путин упомянут более 7 раз, а Медведев не менее 5 раз. У функции три параметра: слово, знак сравнения и число. Прописав в Правиле оба условия:

      fun(CountOfWords,Путин,>,7) fun(CountOfWords,Медведев,>=,5)

      будем получать ссылки, на которых одновременно много и Путина, и Медведева.

    11. Сравнение дат - IncludesDate (!)

      Позволяет находить ссылки, внутри контентов которых есть даты, удовлетворяющие критериям.

      Например:
      >=14.02.13 (в контенте ссылки есть дата 14 февраля 2013г. или более поздняя),
      <22.01.2013 (ранее, чем 22 января 2013г), =26.03.13 (именно 26 марта 2013г),
      =сегодня (имеется ввиду не слово "сегодня", а присутствие в контенте текушей даты), =вчера,
      >=неделя (неделю назад и позднее), >месяц (позднее, чем месяц назад),
      =завтра, >завтра (послезавтра и позднее), >=-7 - через неделю и позднее (будущее время),
      >-365 - через год с лишним, =-14 ровно через 2 недели,
      <=14 - раньше, чем 2 недели назад (в прошлом), <год (ранее, чем год назад),
      =понедельник - в любой понедельник из прошлого или будущего,
      <=36525 - ранее, чем 100 лет назад.

      В контенте ссылки даты вида: "16 февраля 2013 года", - распознаются и анализируются.
      Если после месяца нет года, то подразумевается текущий год.
      Даты на английском и других языках в данной реализации функции не рассматриваются.
      Параметров два: знак сравнения и дата.

    12. Сравнение дат публикации - DateOfEvent

      Эта ВФ-функция во многом аналогична предыдущей. Отличие в том, что действия производятся над датами публикации ссылки, а не над всеми датами, употребляемыми внутри контента ссылок. Параметры те же: знак сравнения и дата.


    Создание и применение собственных ВФ-функций
    Инструкция программисту по разработке ВФ-функций - в стадии написания.

    Инструкция Пользователя по применению ВФ-функций.

  • Параметры прописываются через запятую сразу после имени ВФ-функции. Например: fun(IncludesDate,>,16.02.13)
  • Обновитесь до версии 8.4.1.
  • Скачайте архив ВФ-функций отсюда и перепишите хранящиеся в нем функции в папку Exe (буквы латинские).

    Далее, в зависимости от обратной связи от Пользователей, ВФ-функции будут включены в дистрибутив SiteSputnik News, WebSpider и Station, или Пользователи самостоятельно будут подгружать нужные ВФ-функции.

  • Обсуждение ВФ-технологии
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций о программе собран на странице.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2013г. Все права защищены.
    </blockquote>
    SiteSputnik WebSpider.
    Мониторинг изменений на сайтах: отслеживание обновлений по запросу
    Автор
    Алексей Мыльников
    Дата выхода публикации - 24.07.12г.     

    Данная публикация является вводной инструкцией по применению нового варианта программы SiteSputnik, получившего название SiteSputnik WebSpider. В ней достаточно просто описывается назначение и способ применения этого варианта программы.


    Назначение программы SiteSputnik WebSpider

    Программа SiteSputnik WebSpider следит за обновлениями уже существующих страниц, а именно, за появлением на них новой информации, удовлетворяющей запросу, заданному пользователем. В этом ее отличие от варианта SiteSputnik News, предназначенного для мониторинга потока новых страниц.

    Программы дополняют друг друга. Вместе они обеспечивают мониторинг открытых источников интернета на заданную тему.

    Язык, на котором формируется запрос, которому должны удовлетворять изменения на страницах, похож на язык запросов Яндекса.
    Поскольку запрос выполняется после скачивания и сравнения нового контента страницы со старым, будем называть его пост-запросом.
    Пост-запрос - это критерий, которому должны удовлетворять контенты обновлений на страницах.

    Под мониторингом ниже будем понимать весь процесс обработки информации, а именно: скачивание и сохранение веб-страниц, сравнение их контента с предыдущим состоянием, выделение фрагментов новой информации и проверка удовлетворения их контентов пост-запросу.



    Описание демонстрационной задачи

    Возможности WebSpider(а) продемонстрируем на наглядном примере. Покажем как можно организовать отслеживание появления новой информации в интернете о самой программе SiteSputnik (СайтСпутник) и её авторе. Для этого пост-запросу поручим проверять наличие словоформ от слов "СайтСпутник", "SiteSputnuk" и стоящих рядом слов "Алексей" и "Мыльников" в обновлениях страниц из нескольких открытых источников, в которых может появиться интересующая нас информация.

    В качестве таких источников возьмем сайты, живые журналы, RSS-потоки или поисковые страницы с ресурсов Бориса Воронцова, Александра Кузина, Елены Лариной, Алексея Мыльникова, Игоря Нежданова, Дмитрия Петряшова, Романа Ромачёва, Евгения Ющука, а также обновившиеся темы форума СПКР и первую поисковую страницу Яндекса по запросу "SiteSputnik".



    Решение демонстрационной задачи

    Последовательность действий пользователя такова.
    1. Создайте Ящик (папку), например, с именем "О СайтСпутнике".

      Это простая, хорошо известная пользователям программы процедура.
      Она выполняется следующим образом:

      - выбираем ящик (папку) на вкладке "Поиск в Интернете",
      - выбираем в главном меню пункт "Ящик - Создать новый подобный Ящик...",
      - в появившемся окне вводим его имя "О СайтСпутнике",
      - нажимаем на кнопку "Создать".


    2. Определите пост-запрос.

      Выбираем в главном меню пункт: "Настройки - Параметры - вкладка WebSpider".
      В графе "Пост-запрос" (смотрите синюю стрелку на картинке ниже) определяем критерий, которому должны удовлетворять изменения на сайтах.

      Мониторинг изменений

      Пояснения.
      Заданный на картинке Пост-запрос буквально означает следующее. Нас будут интересовать изменения на сайтах, в которых упомянуты словоформы от слов "СайтСпутник", или "SiteSputnik", или двух слов "Алексей" и "Мыльников", стоящих рядом. Пост-запрос выполняется над новыми фрагментами страниц сайтов. То есть, WebSpider находит изменения контента каждой страницы относительно предыдущего её состояния и выполняет пост-запрос только над изменениями, а не над всей страницей.


    3. Составьте пакет - список интересующих Вас сайтов, страниц, RSS-потоков.

      Это делается один раз для каждой темы. При необходимости, список может быть отредактирован.

      Нажмите на иконку "Золотой ключик", затем на кнопку "Пакет" и в открывшемся окне введите адреса ресурсов и глубину проникновения WebSpider(а) для каждого из них. Окно показано на картинке ниже.

      Мониторинг изменений

      Пояснения.
      В 1-ом столбце прописывается адрес сайта, ресурса, страницы или RSS-потока.
      Во 2-ом - WebSpider (паук), который собственно выполняет скачивание и проверки.
      В 3-ем - глубина поиска (глубина проникновения WebSpider(а)).
      В 4-ом - можно ввести комментарии. Ознакомьтесь с ними.

      В качестве адреса страницы можно, в частности, указать обращение к поисковой странице. Смотрите последний адрес. Для него глубину проникновения паука мы установили равной 1. Это означает, что мониторинг будет проводиться не только над самой поисковой страницей, но и над ссылками размещенными на ней. Чтобы не мониторить ненужные ссылки, которые присутствуют на поисковой странице, применим фильтр. На первой картинке на него указывает серая стрелка. Фильтр содержит две лексемы. Адреса ссылок, содержащие эти лексемы, не будут учитываться при мониторинге.

      На картинке выше зеленая стрелка указывает на момент выбора одного из трех стандартных вариантов WebSpider(а). Затем, при необходимости, в колонке Стр. пользователь самостоятельно может прописать любую глубину поиска (проникновения WebSpider(а)). Наибольшее практическое значение имеют первые два варианта.


    4. Выполните мониторинг.

      Для этого нажмите на кнопку "Совместно".

      Первое выполнение пакета - это практически просто создание базы страниц, относительно которой будет проводиться мониторинг при следующих выполнениях. Хотя, как написано ниже, в качестве нового фрагмента такой страницы берется весь её контент, над которым и выполняется пост-запрос.

      Если ссылка исчезнет, а потом вновь появится, то мониторинг будет проводиться относительно её последнего состояния.

      Замечание.
      Перед первым выполнением мониторинга рекомендуется предварительно сохранить сформированный пакет.
      Для этого воспользуйтесь кнопкой "Сохранение".




    Другие возможности WebSpider(а)
    В настоящей реализации программы SiteSputnik WebSpider от 23.07.12 уже можно делать следующее.

  • Накладывать фильтры на адреса ссылок, чтобы при глубоком проникновении паука анализировать только интересующие адреса.

  • Применять фильтры для контентов новых фрагментов, чтобы отбрасывать заведомо ненужные фрагменты, или верхнюю, или нижнюю часть фрагмента.

  • Важная информация.
    Собственно, описанные в этом абзаце действия должны применяться в реальных задачах. В пакете (на второй картинке) можно прописать одну или несколько Рубрик. Каждая Рубрика может содержать вложенные Рубрики. Каждая Рубрика - суть Пост-запрос, определяющий условия попадания в Рубрику новых фрагментов. Рубрики из SiteSputnik WebSpider и SiteSputnik News абсолютно эквивалентны: в обоих вариантах программы могут быть применены одни и те же Рубрики. Соответственно, в SiteSputnik WebSpider можно задействовать несколько сложных древовидных структур Рубрик (задать очень много разнообразных пост-запросов к нескольким источникам), а в SiteSputnik News теперь можно дополнительно применить один пост-запрос, не обращаясь к Рубрикам. На второй картинке коричневая стрелка показывает где и как прописываются Рубрики.

  • Результат применения каждого пост-запроса можно отправлять в клиентские папки. В качестве них могут выступать папки Вашего компьютера, папки локальной сети и папки глобальной сети, а именно: папки корпоративного сайта или е-майл-адреса (отправка по электронной почте).

  • При глубине поиска больше нуля WebSpider (паук) будет обнаруживать новые страницы. При первом обнаружении новой страницы, её контент рассматривается как один "большой" новый фрагмент, который также отправляется на пост-запрос и/или на рубрикацию.

  • Можно прописать максимальное количество ссылок, достигнув которое паук не будет проникать далее вширь и вглубь по ссылкам.

  • Если ссылки "позволяют", то можно применить к ним автоматическое выделение значимого контента, используемого при мониторинге. При необходимости можно использовать "Настройки сайтов" для этих целей.


  • Подробнее о технических деталях, о перечисленных и некоторых других возможностях программы - в следующей публикации. Здесь отмечу только то, что на мой взгляд является главным.

  • Главная информация.
    Предложенная технология проста в применение от начала до конца. В частности, она позволяет пользователю, не прибегая к анализу html-кода ссылки, получать хорошие результаты, практически без мусора, за счет прохождения найденных фрагментов новой информации через дополнительный фильтр (пост-запрос). Мусор автоматически отсеивается пост-запросом, а не вручную пользователем посредством указания от каких HTML-тегов до каких HTML-тегов находятся интересующие его изменения на страницах. Например, в нашем и в подавляющем большинстве случаев, изменения времени, дат, счетчиков, обновления рекламы будут автоматически отфильтрованы пост-запросом и не попадут в выдачу.

    Не нужно применять требующий специальных навыков Мастер подключения новых источников. Достаточно просто вписать адреса интересующих источников в пакет.

    Также автоматически находятся и ставятся на мониторинг новые ссылки, которые появляются в исследуемых источниках.

  • В настоящее время проводятся работы по интеграции SiteSputnik WebSpider, SiteSputnik News и SiteSputnik Station, что так же является составной частью разрабатываемой технологии мониторинга открытых источников интернета.


    Обсуждение SiteSputnik WebSpider
    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik (СайтСпутник).
    Полный список публикаций о программе собран на странице.
    Скачать программу можно здесь.
    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2012г. Все права защищены.
    SiteSputnik. Сбор информации об объекте: физическом или юридическом лице Алексей Мыльников
    Дата выхода публикации - 03.05.12г.     


    В версии 7.5.2 от 02.05.12 программы SiteSputnik появилась новая функция: "Сбор информации об объекте" - физическом или юридическом лице.

    Чтобы обратиться к ней, нажмите на кнопку программа Мониторинга (её можно сделать видимой на верхней панели инструментов из "Настройки - Параметры - вкладка Вид"). Затем в картинку:

    Мониторинг интернета

    внесите те данные, которые Вам известны об объекте (физическом или юридическом лице (можно ввести только один реквизит)).

    По одному щелчку мышки осуществится точный и полный поиск ссылок, содержащих заданную информацию.

    Поиск выполнится сразу на нескольких поисковиках, сразу по всем реквизитам, сразу по всем возможным комбинациям записи реквизитов (вспомните как по-разному можно записать номер телефона).

    В основном, используются пакеты Олега Петрова /кстати, эту картинку можно использовать для упрощенного обращения к его пакетам, например, телефон задается "единым" числом в одном окне/.

    Через небольшой промежуток времени Вы, не выполняя скучной рутинной работы, получите список ссылок, очищенный от повторов и, главное, упорядоченный по релевантности для искомого объекта. Релевантность (значимость) достигается за счет того, что первыми будут идти те ссылки, на которых находится большее количество заданных Вами реквизитов, а не те, которые продвинули вверх выдачи поисковиков Веб-мастера.

    Если требуется отслеживать появление новой информации по заданному объекту, то Вам достаточно периодически повторять данный поиск. Как и для простого запроса программа СайтСпутник создаст список "Новые", в который поместит только те ссылки, которые не были найдены ни в одном из предыдущих поисков.

    Эта операция удобна, например, при приеме нового сотрудника на работу или появлении нового контрагента, чтобы быстро, точно и полно посмотреть, что есть о нем в поисковиках.
    SiteSputnik. Поиск новых ссылок, содержащих информацию на заданную тему Автор
    Алексей Мыльников
    Дата выхода публикации - 01.03.12г.     



    Описание функции. В новой версии программы SiteSputnik появилась функция: "Поиск новых ссылок на заданную тему".

    Она прописывается в настройках (см. синюю стрелку на картинке ниже)



    Если этот параметр включён, то SiteSputnik будет для любого выполняемого запроса или пакета запросов дополнительно создавать список "Новые" (см. серую стрелочку). В этом списке будут собраны ссылки (сниппеты), которых не было ни в одном поиске, выполненном ранее в текущей папке. На нашем рисунке текущей папкой является папка "Тесты" (см. красную стрелочку).

    Такой способ эффективен, когда Вы разрабатываете конкретную тему и выполняете при этом разные запросы и пакеты запросов (в предыдущих версиях программы была и осталась похожая функция, которая создает список "Новые" для одноименных запросов и пакетов (см. зеленую стрелочку).

    Например, если Вы собираете информацию о физическом лице, то создайте в СайтСпутнике папку с подходящим именем и выполняйте самые разнообразные запросы и пакеты запросов:

      поиски по ФИО,
      по телефону,
      почтовому и е-майл адресу,
      по "никам" и так далее.

    Для каждого нового поиска будет дополнительно создаваться отдельный список "Новые" (см. серую стрелку), в котором будут только те ссылки, которых не было ни в одном предыдущем поиске, выполненном в данной папке (Ящике).

    Если Вы вернетесь к разрабатываемой теме через три дня или три месяца и выполните любой новый или "старый" запрос, то в списке "Новые" увидите ссылки, которые Вы еще не просматривали.

    На картинке Выше - демонстрационный пример поиска ссылок по теме "СайтСпутник". Колонка КНС - количество новых ссылок (обведена красной линией). Она показывает сколько новых ссылок нашел SiteSputnik по каждому запросу или пакету запросов.

    Очень удобно.
    Запускаешь поиски (новые или выполненные "вчера") и просматриваешь относительно небольшой список "Новые", зная, что имеешь дело со ссылками, которые ещё не просматривал.

    Обсуждение функции.

    Обсуждение данной функции открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.


    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2012г. Все права защищены.
    В версии 7.4.1.5 от 28.11.11 программы SiteSputnik можно получать "Статистику по пакету запросов", подобную той, что изображена на картинке ниже.

    СайтСпутник

    Строки Таблички - Рубрики, задействованные в пакете (в задании на мониторинг источников информации).
    Столбцы Таблички - даты выполнения мониторинга.

    В нашем случае, пакет выполнял мониторинг новостей по 50 источникам из сценария "ТВ и РАДИО станции", описанного на форуме СПКР - http://forum.razved.info/index.php?t=2292

    В Рубрики попадала информация об упоминании в источниках четырех парламентских партий: "Единая Россия", КПРФ, ЛДПР, "Справедливая Россия".

    Табличка показывает динамику упоминаний этих партий в задействованнах источниках в период с 18.11.11 по сегодняшнее число в фиксированные моменты времени.

    В общем случае, источники и Рубрики определяются пользователем, то есть, могут быть произвольными. Данная табличка носит чисто демонстрационный характер. Думаю, что этот инстумент будет полезен аналитику при решении своих исследовательских задач.

    Чтобы опробовать данную функцию в SiteSputnik News следует установить галочку в параметре "Собрать статистику по пакету в Рубриках" (см. тонкую красную стрелку на картинке из первого сообщения предыдущей теме)
    SiteSputnik Station. Круглосуточный мониторинг сайтов с применением нескольких компьютеров
    Дата выхода публикации - 14.11.11г.     



    В версии 7.4.1 от 14.11.11 программы SiteSputnik Station реализована новая функция, позволяющая огранизовать круглосоточный мониторинг появления новой информации на заданные темы с использованием нескольких компьютеров. Эта функция увеличивает производительность и надежность процесса обработки информации и практически обеспечивающает его неуязвимость при нападении и различных атаках.


    Описание новой функции.


    Для этого потребуется картинка, которую можно увидеть, открыв из главного меню программы: «Параметры – Настройки - вкладка Station».

    сеть, соцсеть, социальная сеть

    Новая функция реализуется при помощи двух операторов, применяемых в пакетах запросов (заданиях на выполнение мониторинга).

    1. Оператор ^^Экспорт;
      Он выполняет передачу (экспорт) чистых потоков, формируемых на конкретном компьютере, в папки локальной или глобальной сети интернета, прописанные в настройках. Толстая синяя стрелка на картинке указывает на окно, в котором прописываются экспортные папки. Третья и четвертая папки расположены в глобальной сети.

      Пояснение.
      Чистый поток - это полнотекстовая, очищенная от мусора новостная лента, сформированная из новой информации, появившейся на задействованных в пакете источниках (сайтах). Чистый поток становится доступным на других компьютерах. На его формирование уходит примерно 99% времени и других ресурсов.

      Демонстрационные примеры чистых потоков на различные темы приведены на ссылках: "Прогнозы аналитиков", новости с "ТВ и Радио" источников, "банки, финансы, кредиты", "Владимир Путин".
    2. Оператор ^^Импорт;
      Он выполняет на конкретном компьютере прием (импорт) и передачу на анализ чистых потоков, сформированных при помощи оператора ^^Экспорт; на других компьютерах. Импорт происходит из папок локальной сети или глобальной сети интернета, прописанных в настройках. Толстая зеленая стрелка указывает на окно, в котором прописываются папки для импорта.

      Результаты импорта и анализа (раскладывания по Рубрикам), приведенных выше потоков, представлены на ссылках: "Сколково", "Алексей Кудрин", "СургутНефтеГаз", "индексы Dow Jones и NASDAQ", "Альфа-Банк".

      Пояснение.
      Папки могут быть произвольные. Местоположение компьютеров не имеет значения.
    Приоритет
      Операторы ^^Экспорт; и ^^Импорт; "сильнее" переключателей "Включить экспорт потоков ..." (тонкая синяя стрелка) и "Выключить экспорт потоков ..." (тонкая зелёная стрелка). Это означает, что импорт и экспорт, прописанные в пакете, будут выполнены, независимо от того, установлена или не установлена в настройках галочка для этих параметров.
    Планы на будущее
      Реализация прописки папок для импорта и экспорта прямо в пакете, а не только в настройках программы. Это увеличит количество вариантов обмена информацией.

    Что дают эти операторы

    Примеры организации мониторинга.

      Вариант 1. Упрощённое применение: десять для одного.
      Предположим, что у Вас 11 СайтСпутников. Разобъём одну сложную задачу на 10 подзадач примерно одинаковых по времени выполнения. Пропишем для 10 СайтСпутников решение по 1 подзадаче, экспорт чистых потоков в одну папку "А" и старт в 03:00. 11-ому СайтСпутнику пропишем старт перед Вашим приходом на работу в 07:30 и импорт из папки "А".

      Вариант 2. Для группы по интересам: один для десяти.
      Возьмем сообщество СПКР. Предположим, что 10 членов сообщества имеют по одному СайтСпутнику. Выбирается папка на сайте сообщества. Она прописывается в настройках каждого СайтСпутника и в экспорте, и в импорте. В пакетах с "несекретным" мониторингом (источниками и запросами) прописываются операторы и ^^Экспорт; и ^^Импорт;. В "секретных" пакетах можно прописать только оператор ^^Импорт;. В результате такой организации работ каждый член сообщества будет практически "бесплатно" получать дополнительную информацию для мониторинга от своих коллег.

      Вариант 3. Общий случай: десять для десяти.
      Предположим, что Вам надо решать одну или несколько задач мониторинга появления новой информации, и в Вашем распоряжении имеется 10 компьютеров, оснащенных программой SiteSputnik Station. Применив Планировщик задач, Вы поручаете в течение недели каждому компьютеру в заданное время один или неколько раз в сутки выполнять один или несколько пакетов. В каждом пакете Вы прописываете экспорт, импорт или и экспорт и импорт чистых потоков в заданные в настройках папки. Количество папок - неограничено. Обмен информацией между компьютерами и пакетами прописан Вами. Организовав подобным образом работу компьютеров, можно обеспечить круглосуточный сбор, мониторинг и анализ информации для поставленных задач. Чтобы не заглядывать "внутрь" программ, результаты анализа информации (дайджесты) можно отправлять в клиентские папки, размещенные в локальной или глобальной сети интернета, или автоматически рассылать их по e-mail адресам.

      Образно говоря, каждый из 10 СайтСпутников будет вращаться по своей орбите и передавать на Землю (в клиентские папки) собранную информацию.

      Настоящая реализация программы SiteSputnik Station позволяет организовать указанные варианты работ.
    Перерубрикация.

      Экспортируя все чистые потоки в дополнительную архивную папку, можно в любое время проанализировать и разложить по любым Рубрикам новым и старым, собранную в сохранённых чистых потоках информацию. Рекомендуется сделать копию архивной папки, так как, параметр "Максимальный размер базы данных импортируемых потоков" (серая тонкая стрелка) "следит" за тем, чтобы базы данных потоков не разрастались ни в локальной, ни в глобальной сети и систематически удаляет устаревшую информацию.

      Пакет для перерубрикации будет иметь вид:

      ^^Новости;
      ^^Импорт;
      ^^Рубрики\Путь1
      ^^Рубрики\Путь2
      ... ... ...
      ^^Рубрики\ПутьN

      Прописывать источники не обязательно. Не забудьте перед запуском пакета указать в настройках в качестве импортируемой папки имя копии архивной папки. Большое значение в данном случае имеет способность программы СайтСпутник удалять дубли по контенту.

      Возможно, Вы придумаете свою "импровизацию", подобную перерубрикации, на тему применения SiteSputnik Station.

    Применение SiteSputnik Station.

    О применении программы достаточно подробно написано в предпоследнем разделе первой публикации о программе SiteSputnik Station.

    Подробнее о неуязвимости.
    При помощи программы SiteSputnik Station можно решать достаточно серьёзные и ответственные задачи информационного обеспечения предприятия или другого объекта. Неуязвимость функционирования построенного программно-технического комплекса обеспечивается тем, что нет цели для атаки. Цель "размыта", она не сконцентрирована на одном сайте, сервере или компьютере. Папок импорта-экспорта может быть несколько, их несложно перемещать в веб-пространстве.

    Обсуждение первых функций SiteSputnik Station.

    Обсуждение данной темы открыто на форуме СПКР.

    Подробнее о программе FileForFiles & SiteSputnik.
    Полный список публикаций собран на странице.
    Скачать программу можно здесь.

    Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2011г. Все права защищены.

    Latest Month

    December 2017
    S M T W T F S
         12
    3456789
    10111213141516
    17181920212223
    24252627282930
    31      

    Syndicate

    RSS Atom
    Powered by LiveJournal.com
    Designed by Tiffany Chow