?

Log in

No account? Create an account
SiteSputnik Station. Создание сети коллективного сбора, мониторинга и анализа информации



Предисловие.
В версию 7.3.1 от 17.10.11 программы SiteSputnik News добавлены с целью предварительного ознакомления и опробации первые элементы нового варианта программы, рабочее название которого SiteSputnik Station.


Функциональное назначение и организация работы SiteSputnik Station.
SiteSputnik Station предназначен для следующего.
  • Создание корпоративной или профессиональной сети для коллективного сбора, мониторинга и анализа информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Далее участников будем называть клиентами.

  • Распараллеливание процессов сбора, мониторинга и анализа информации. Это увеличивает производительность и надежность, позволяет выполнить работу на одну заданную тему с нескольких компьютеров.
Организация сети и параллельной работы.
  • Установка на нескольких компьютерах клиентов программы SiteSputnik Station.

  • Выделение в корпоративной сети или глобальной сети Интернета общедоступного пространства (папок, ресурсов или папок на сайте).

  • Настройка клиентских экземпляров программы SiteSputnik Station на обмен информацией через выделенное общедоступное пространство.
Под сбором, мониторингом и анализом потоков информации понимается следующее.
  • Сбор (или синтез информационного потока, содержащего информацию на заданную тему) осуществляется посредством подключения нужных источников информации, а именно: а) встроенных в сайты поисков; б) RSS-потоков; в) произвольных страниц сайтов, на которых периодически появляется новая информация (эмуляция RSS-потоков). Это, своего рода, фильтр грубой очистки (термин Нежданова И.Ю.): из огромного информационного потока Интернета формируется составляющая, в которой содержится нужная информация.

  • Мониторинг: а) выделение новой информации из потока; б) выделение значимого контента ссылки (очистка её от окружающего мусора); в) удаление неоднократно повторяющегося контента из потока; г) удаление контента, который присутствовал в предыдущих потоках (уже был получен ранее в предыдущих поисках на заданную тему). Этот процесс можно рассматривать как процесс «промежуточной» очистки информационного потока от ненужной информации, а сам поток будем называть чистым потоком.

  • Анализ чистого потока – выделение из него нужной информации (фильтр тонкой очистки). На этом этапе сформированные чистые потоки раскладываются на тематические потоки (по Рубрикам согласно специальным Правилам попадания информации в Рубрику).

  • Обмен чистыми потоками между клиентами осуществляется через общедоступное пространство, анализ своих и чужих чистых потоков происходит на компьютере конкретного клиента.
Цель данного способа обработки информации – совместить четыре трудносовместимые вещи, а именно: полноту, точность, оперативность и надёжность процесса сбора, мониторинга и анализа информации.

Настройки программы SiteSputnik Station, способы обработки потоков.
В настоящей реализации (пока или уже) имеются следующие возможности.
Открыв из главного меню программы «Параметры – Настройки - Вкладку Station», можно увидеть приведенную ниже картинку.

сетевые настройки

Переключатель ”Включить экспорт потоков в прописанные ниже клиентские папки” – включает или отключает экспорт чистых потоков в клиентские папки (КП), которые прописываются в окне, размещённом сразу под этим переключателем. На картинке прописаны четыре КП: первая в локальной сети корпорации, вторая папка на Рабочем столе компьютера клиента, третья и четвертая – на корпоративном сайте sitesputnik.ru. Именно во все эти четыре папки будут экспортироваться все чистые потоки, формируемые на данном компьютере.

Переключатель ”Включить импорт потоков из прописанных ниже клиентских папок” – включает или отключает импорт чистых потоков из КП, прописанных в окне, размещённом сразу под этим переключателем. На картинке прописаны три КП: две первые на корпоративном сайте sitesputnik.ru, третья в папке на Рабочем столе компьютера клиента. Именно из всех этих трёх папок будут импортироваться сформированные на чужих компьютерах и переданные в эти папки чистые потоки.

Количество КП - теоретически не ограничено.
Количество компьютеров - теоретически не ограничено.

Важно.
Обращаю Ваше внимание, что в КП экспортируются, а из КП импортируются не Рубрики, а чистые потоки. На формирование чистых потоков ориентировочно затрачивается около 99% времени и других потребляемых ресурсов. Чистые потоки, содержат больше информации, чем Рубрики.

Следующий параметр – переключатель ”Раздельный учёт импортируемых потоков для каждого пакета и базы данных”. Если галочка установлена, то каждый импортируемый чистый поток будет использован по одному разу для каждого пакета и базы данных (задания). Отсутствие галочки означает, что каждый чистый поток на компьютере клиента будет использован только один раз. Опрос на наличие ещё не использованных чистых потоков происходит на заключительной стадии выполнения каждого пакета.

Следующий параметр – ”Максимальный размер базы данных импортируемых потоков”. Он устанавливается в диапазоне от 10 до 1000 потоков. Это чисто технический параметр. Он предназначен для предотвращения неконтролируемого разрастания базы чистых потоков и автоматически удаляет самый старый поток из базы, если достигнут её максимальный размер.

В настоящей реализации программы SiteSputnik Station экспортируются и импортируются потоки информации только в формате программы SiteSputnik. Экспорт и импорт в другие форматы – чисто техническая задача, которая будет решаться в процессе разработки и совершенствования программы SiteSputnik.

Применение настоящей реализации SiteSputnik Station.
Настоящая реализация программы уже сейчас может пригодиться в следующих случаях.
  1. Имея один экземпляр СайтСпутника, на одном компьютере можно «передавать» друг другу чистые потоки, сформированные разными пакетами (поисками на разные темы). Для этого достаточно экспорту и импорту потоков прописать одну и туже папку на локальном диске своего компьютера.

  2. Поиск с нескольких компьютеров на одну заданную тему. Это увеличит скорость обработки информации. Скорость в идеальном случае будет прямо пропорциональна количеству запущенных экземпляров программы СайтСпутник. Задание нужно разбить на N частей, выполнить части отдельно на N компьютерах и получить тот же результат, что и при выполнении одного большого задания на одном компьютере.

  3. Предположим, что на Вашем предприятии в разных подразделениях в корпоративной сети работают N экземпляров программы SiteSputnik. Каждый из них ориентирован на сбор, мониторинг и анализ информации на заданную тему для конкретной группы сотрудников. Для этого на конкретном рабочем месте СайтСпутник использует свои источники информации, свои обращения к ним, свои Рубрики, своё расписание работ. Но вероятность того, что в источниках группы А «проходит» информация, интересующая группу Б, и наоборот, и так далее, - больше нуля. Поэтому применение СайтСпутника позволит полнее собрать информацию. Точность практически не пострадает.

  4. Устойчивость и надежность обработки информации повышаются, потому что отказ одного СайтСпутника по техническим или другим причинам приводит к некоторому уменьшению количества собранной информации, а не к её полному отсутствию в случае применения одного экземпляра программы.

  5. Применив Планировщик задач, можно организовать работу таким образом, что в СайтСпутник придётся «заглядывать» только тогда, когда требуется сделать какое-либо усовершенствование процесса обработки информации, например, подключить новый источник или при сбое аппаратно-программного обеспечения.

Обсуждение первых функций SiteSputnik Station.
Обсуждение данной темы открыто форуме СПКР.

Подробнее о программе FileForFiles & SiteSputnik.
Полный список публикаций собран на странице.
Скачать программу можно здесь.

Программа SiteSputnik News как основа
информационного обеспечения предприятия





Предисловие.


В настоящей публикации рассматриваются новые возможности программы SiteSputnik News, предназначенной для отслеживания появления новой информации в открытых источниках интернета. Выражаю благодарность члену СПКР (Сообщества Практиков Конкурентной Разведки)
Игорю Нежданову, а также Дмитрию Петряшову и всему сообществу за полезные советы и замечания,
высказанные на форуме и в личной переписке.



Основные понятия и терминология.


Новость - это содержание ссылки, очищенное от окружающей её ненужной информации. Ссылка не обязательно должна быть собственно новостью, она может иметь любое смысловое содержание, например, описание: коммерческого предложения, объекта недвижимости, состояния фондового рынка, технических характеристик изделия, вакансии или резюме кадрового агентства; это может быть научная статья, способ приготовления пищи, лекарства или стали, событие или информация с другим смысловым содержанием.

Новостная лента - это совокупность новостей на заданную тему. Под новостными лентами понимаются только тематические новостные ленты.В программе SiteSputnik News новостные ленты формируются в списке «Всё по Рубрике».

Клиент - сотрудник любого подразделения предприятия, по заказу которого формируются одна или несколько новостных лент.

Важно.
Если Вы не ознакомились с основными понятиями и терминологией, то Вам нет смысла читать изложенный ниже текст.






Новые возможности.


В версии № 7.2 программы SiteSputnik News появились следующие новые возможности.

  1. В настройках для всей Программы можно прописать несколько любых папок, в которые будут перенаправляться копии всех новостных лент, формируемых программой.
    Такие папки называются клиентскими папками для всех новостей.


  2. В настройках каждой новостной ленты можно прописать несколько любых папок, в которые будет перенаправляться копия этой конкретной новостной ленты.
    Такие папки называются клиентскими папками для конкретной новостной ленты.


  3. Клиентские папки могут быть размещены не только на том компьютере,
    где работает программа SiteSputnik News, но и на любом другом компьютере в локальной сети Предприятия.






Организация информационного обеспечения Предприятия.


Эти три простые возможности, добавленные к накопленному функционалу программы SiteSputnik News, позволяют по-новому организовать информационное обеспечения предприятия или его информационно-аналитического подразделения. Поручаемое Программе информационное обеспечение предприятия будет удовлетворять следующим условиям.

  1. Одна и та же новость может попасть в несколько новостных лент.


  2. Каждая новостная лента автоматически доставляется на «Рабочий стол» или другую папку компьютера тех и только тех Клиентов, которым она нужна.
    В случае, если новостная лента нужна нескольким Клиентам из одного или нескольких подразделений Предприятия,
    то она будет доставлена на компьютеры всех заинтересованных в ней клиентов.


  3. Принцип одной кнопки.
    Клиенту достаточно уметь работать и открывать файлы в Проводнике ОС Windows.
    Не требуются специальные знания ни программы SiteSputnik News, ни другого программного обеспечения: браузеров, RSS-потоков, программ-аггрегаторов и прочих инструментов.
    Всю специальную работу выполняет администратор программы SiteSputnik News.
    Клиенту достаточно сообщить администратору источники информации (сайты) и список ключевых фраз, хотя бы одну из которых должна содержать новость.


  4. Работа в реальном масштабе времени. Получение информации по факту её появления в Интернете.
    Единый для всего Предприятия информационный движок, работающий по расписанию.


  5. Полнота и точность отслеживания информации: «Найти всё и с гарантией».
    Полнота обеспечивается формированием общего потока информации из практически любых внешних источников:
    RSS-потоков, произвольных страниц сайтов (эмуляция RSS-потоков), встроенных в сайты поисков.
    Точность достигается за счёт выделения очищенного от мусора полнотекстового содержания новости и группы правил, по которым общий поток таких новостей разбивается на подпотоки: новостные ленты.
    Для каждой новостной ленты выполняется удаление новостей с одинаковым содержанием.







Управление Клиентскими папками.


Клиентские папки для всех новостных лент.



На приведенной ниже картинке синей линией обведено окно ввода и редактирования таких папок.
Обращение к папочной структуре локальной сети по двойному клику мышки.



СайтСпутник мониторинг







Клиентские папки для конкретной новостной ленты.




На приведенной ниже картинке красная стрелка указывает на переключатель между Правилами попадания в новостную ленту "Лента о SiteSputnik"
и списком клиентских папок для неё.



SiteSputnik мониторинг




Нажав на этот переключатель, получаем расположенную ниже картинку.
На ней можно прописать несколько папок из локальной сети компьютера.
Обращение к папочной структуре локальной сети по двойному клику мышки.



СайтСпутник SiteSputnik






Функции администратора программы.


Администратор программы делает следующее.

  1. Подключает необходимые источники информации (сайты и поиски).


  2. Создает описание необходимых новостных лент: правила попадания в них новостей и клиентские папки, по которым они автоматически рассылаются.
    При необходимости прописывает клиентские папки для всех новостных лент.


  3. Создает пакеты, в которых прописывает: из пункта 1 - необходимые источники и глубину просмотра в них информации; из пункта 2 - названия новостных лент, принимающих новости.


  4. Прописывает Планировщику задач расписание выполнения одного или нескольких пакетов из пункта 3.



Клиенты в заданное время, в заданном месте (клиентских папках на своём компьютере) получают только нужные новости со своих источников.




Список литературы.


Приложение FileForFiles & SiteSputnik хорошо документировано.

Полный список публикаций по программе: инструкции, очерки, статьи, отзывы, пресс-релизы, обсуждения на нескольких форумах, полевые испытания, - собран на этой странице.



Copyright © Автор ИП Мыльников Алексей Борисович, г. Волгоград, 2011г. Все права защищены.

Купля-продажа бизнеса:
мониторинг источников информации






На видеоролике продемонстрировано как программу SiteSputnik News (СайтСпутник Новости) можно использовать для Мониторинга сайтов, на которых выкладываются предложения по продаже готового бизнеса. Все видеоролики собраны на отдельной странице.

Для демонстрации возможностей мониторинга в ролике задействованы:
- 6 источников информации (БизнесТорг, БизнесДляПродажи, БизнесЗона, из Рук в Руки, business.slando.ru, avito.ru),
- 10 новых ссылок из каждого источника,
- 4 Рубрики для сбора нужной бизнес-информации (Автосервис, Интернет-магазины, Салоны красоты, Турарентства).

В реальной работе можно задействовать произвольное количество источников, ссылок и рубрик. Рубрики могут быть вложенными.

Для тех, кто профессионально занимается куплей-продажей бизнеса, целесообразно подключить эти же источники для мониторинга запросов на покупку бизнеса. В этом случае в одну рубрику можно будет сводить и предложения по продаже, и запросы по покупке одного и того же вида бизнеса.

Мониторинг региональных СМИ
на примере Челябинской области


На видеоролике продемонстрировано как программу SiteSputnik News можно использовать для Мониторинга региональных СМИ.

В качестве региона выбрана Челябинская область.

В качестве объектов мониторинга выбраны четыре парламентские партии: "Единая Россия", КПРФ, ЛДПР, "Справедливая Россия".

Для демонстрации возможностей мониторинга в ролике задействованы:
- 8 челябинских источников информации,
- по 10 новых ссылок из каждого источника,
- 4 Рубрики для сбора нужной информации.

В реальной работе можно задействовать сотни источников, тысячи ссылок, сотни рубрик, в каждой из которых десятки и сотни правил.

В общем случае, в качестве источников могут быть выбранны не только сайты СМИ, но и другие сайты.

При подготовке видеоролика использовались материалы Андрея Осипова из Челябинской области, применяющего SiteSputnik News для нужд своей организации.

Обсуждение на форуме.

SiteSputnik News - создание собственных новостных лент,
мониторинг СМИ и новостных источников


На первом видеоролике продемонстрировано как в программе SiteSputnik News (СайтСпутник Новости) можно мониторить СМИ и новостные источники. Тема мониторинга - "Прогнозы аналитиков". Мониторинг осуществляется сразу по восьми источникам: Яндекс.Новости, Google.News, CNews, Вести.ру, News2, Smi2, Газета.Ру, Novoteka.ru. Программа СайтСпутник опрашивает перечисленные источники, определяет адреса страниц, на которых появилась новая информация на заданную тему, скачивает эти страницы, автоматически выделяет контенты новостей, отсекая окружающий их "мусор", оформляет новости в виде собственной новостной ленты и раскладывает их по заранее определенным Рубрикам.

На втором видеоролике продемонстрировано как в программе SiteSputnik News можно отслеживать (мониторить) появление новых резюме претендентов на вакантные должности сразу на пяти рекрутинговых сайтах: e-prof.ru, finstaff.ru, it-rabota.ru, rabota.mail.ru, job.qip.ru. Программа СайтСпутник опрашивает перечисленные сайты, находит и скачивает страницы, на которых появились новые резюме, автоматически выделяет только принадлежащую резюме информацию, оформляет ее в виде собственной новостной ленты и раскладывает резюме по Рубрикам (в ролике задействована только одна Рубрика для принципиальной демонстрации процесса работы).

На данных роликах показано как при помощи программы SiteSputnik News можно создавать собственные новостные ленты, ориентированные на решение конкретных задач пользователя.

Обсуждение этой темы - на форуме.

Программа SiteSputnik:
итоги развития за 2010 год.



Автор
Алексей Мыльников



    В 2010 году программа SiteSputnik (полное название FileForFiles & SiteSputnik, русская аббревиатура СайтСпутник) продолжала развиваться и совершенствоваться в заданном направлении: поиск, сбор, анализ и мониторинг информации, размещенной в открытых источниках Интернета. Её слоган: «Найти всё и с гарантией», - предложенный аналитиком из Самары Дмитрием Петряшовым, очень точно соответствует настоящему состоянию и выбранным на будущее планам развития программы.

    Лицензированными пользователями программы в 2010 году стали физические лица, небольшие и средние предприятия, а также корпоративные клиенты, к числу которых относятся Аналитический центр при Правительстве Российской Федерации, Управляющая компания Сколково менеджмент, Российская корпорация нанотехнологий (Роснано), компания «ОСМП», некоторые областные и краевые УВД и УФСБ, региональные энергетические системы, крупные нефтехимические предприятия, банки и IT-компании.

    Перечислю и кратко поясню новые функции, появившиеся в программе в течение 2010 года. Практически все эти функции не имеют аналогов в отечественных и зарубежных разработках.

A. Поиск и сбор информации из открытых источников.

  1. Табличная форма пакета запросов. Напомню, что пакет – это несколько запросов, которые могут быть выполнены совместно как одно задание, работающее на один результат, или раздельно. Обратившись к табличной форме, пользователь увидит следующую картинку:

    СайтСпутник

    В верхнем окошке присваивается имя пакету, в таблице формируется его функциональная часть.
    • В первом столбце таблицы вводятся тексты запросов на языке источника информации.
    • Во втором - указываются сами источники информации: поисковик, подключенный поиск по сайту или сценарий поиска.
    • В третьем столбце для каждого источника прописывается максимальная глубина поиска в страницах.
    • Четвертый столбец содержит комментарии или любые другие заметки пользователя.


    На следующей картинке приведен пример заполненной таблицы, в частности, для последнего запроса, зафиксирован момент выбора Яндекса в качестве источника информации:

    СайтСпутник

    Нажатие на кнопку «Совместно» или «Раздельно» отправляет на выполнение сразу все пять запросов, которые осуществляют поиск на прописанных им источниках. Полнота поиска обеспечивается множеством неоднородных запросов и множеством встроенных или подключенных источников информации, точность достигается тем, что каждый запрос выполняется на том и только на том источнике, на языке которого он написан: хороший пример тому - последний запрос.

  2. Пакеты запросов с параметрами (реализовано в 2009г). Если периодически требуется собирать информацию не только о Василии Макаровиче Шукшине, но и о других известных личностях, то рационально преобразовать приведенный пакет запросов в пакет с параметрами и использовать его в дальнейшем по назначению. На следующей картинке приведен пример того, что увидит пользователь в нашем случае:

    СайтСпутник

    По умолчанию параметры имеют значения, относящиеся к Василию Шукшину. Остается ввести новое имя пакета и параметры для другого человека, например, «О Кудрине», «Кудрин», «Алексей», «Леонидович», «Kudrin», «Alexei», нажать на кнопку «Совместно» и дождаться окончания поиска. Для пользователя важна только левая часть картинки, правая перечеркнутая часть используется разработчиком пакета.

    Олег Петров из Санкт-Петербурга разрабатывает и поддерживает библиотеку пакетов с параметрами. В этой библиотеке имеются профессионально подготовленные пакеты для сбора информации о человеке по ФИО, по адресу электронной почты, по номеру телефона и ICQ, разработанные Игорем Неждановым из Москвы поиски в социальных сетях и на рекрутинговых сайтах, а также много других пакетов, включая, «народные».

    Используя технику работы с пакетами, можно создавать достаточно сложные и функционально ёмкие собственные расширенные формы поиска с использованием не одного, а нескольких поисковиков, встроенных и подключенных. В формах можно использовать любые методы поиска: метапоиск, глубокий поиск, поиск по конкретному поисковику или сайту. В запросах по конкретному поисковику можно применять любые операторы языка запросов этого поисковика: site:, url=, inurl:, date: и прочие. Расположенная выше картинка представляет из себя простой пример собственной формы. Любая форма может быть отредактирована налету перед выполнением прописанного в ней поискового задания.

  3. Ассемблеры. Все запросы, пакеты запросов, пакеты с параметрами сохраняются в базах данных программы СайтСпутник. Ассемблер (в переводе с английского – сборщик) позволяет собрать из готовых запросов, пакетов запросов и пакетов с параметрами сложное поисковое задание. Таким образом, если имеются в наличии «заготовки» по сбору информации по ФИО человека, по номеру телефона, электронному адресу и прочим критериям поиска, то можно при помощи Ассемблера собрать из них одно поисковое задание и выполнить его по одному клику мышки. Собранное таким способом задание оформляется программой СайтСпутник как пакет и, соответственно, может быть использовано не только самостоятельно, но и при следующем применении Ассемблера как один из элементов сборки. Вживую увидеть работу Ассемблера можно на видеоролике.

  4. Мастер подключения поисковиков (реализован в 2009г). Большое значение для полноты сбора информации имеет возможность подключать нужные для решения поставленной задачи источники информации, чем и занимается Мастер и функция импорта-экспорта поисковиков и сценариев поиска.

  5. Планировщик задач позволяет составлять и выполнять согласно составленному расписанию конкретные задания из различных баз данных (папок).


Б. Анализ и мониторинг информации.

    Программа СайтСпутник – это не только поиск и сбор информации, но и её аналитическая обработка и мониторинг. В 2009 и 2010 годах программа научилась выполнять следующие функции.

  1. Вычисление связей объектов. В качестве объектов могут выступать люди, организации, другие одушевленные или неодушевленные предметы. СайтСпутник умеет находить страницы и ресурсы, на которых они одновременно упоминаются. Операция выполняется над любым количеством объектов или потоков. Для сбора информации о каждом объекте используется вся рассмотренная в разделе А "собирательная" мощность программы, что делает поиск связей объектов достаточно продуктивным.
    Операция «Взятие разности» между множествами ссылок из запросов, выполненных сегодня и вчера, покажет список новых ссылок, и, наоборот, разность между вчерашним и сегодняшним запросом, определит список отсутствующих в сегодняшней выдаче ссылок.

  2. Фактическая релевантность и вычисление максимума информации достигаются следующим образом. При сборе информации на заданную тему для каждой ссылки вычисляется ее вес. Вес ссылки равен количеству запросов, которыми она была найдена. Упорядочивание ссылок по весу приводит к тому, что в первых рядах выдачи программы СайтСпутник размещаются ссылки, содержащие максимальное количество "единиц" искомой информации, другими словами, наиболее релевантные для решаемой задачи ссылки. В качестве «единицы» информации берётся критерий поиска из отдельного запроса.
    Выдача программы СайтСпутник не содержит повторяющихся ссылок - вместо этого в ней каждая ссылка будет сопровождаться ее весом.

  3. Мониторинг поиска. То, что Вы «спросили» у Интернета в разделе А (поиск максимальной сложности), в программе СайтСпутник можно целиком «поставить» на мониторинг. Основной результат мониторинга поиска - это создание списка "Новые", в который попадают только новые ссылки, точнее только те ссылки, которые отсутствовали в нескольких точно таких же предыдущих поисках. Количество таких поисков можно указать в «Настройке». Оно изменяется в диапазоне от 1 до 99.
    Если быть абсолютно точным, то СайтСпутник поместит в список "Новые" не только новые ссылки, но и те ссылки, которые Вы еще не находили.

  4. Сопоставление информационных потоков. Списки "Новые", полученные в разных информационных потоках, могут быть объединены в один список. Это позволяет собрать в одном месте информацию, найденую в интервале времени между двумя последними обновлениями "неоднородных" потоков.


Другие функции.

    За последний год также реализованы следующие функции.

    • Специальные метапоиски: по сайту, только в офисных документах, кеш-копий ссылки.
    • Глубокий поиск для Яндекса, Google и Рамблера, который позволяет собрать не только ссылки из обычного поиска, но и все ссылки, спрятанные в списках «Ещё», «Дополнительные результаты…» и «(Всего …)».
    • Определение белого и черного списка слов и фраз, в основном применяемого для имен сайтов, которые присутствуют в каждом сниппете.
    • Поиск в невидимом Интернете (2009г.). Реализованы четыре базовые функции для поиска информации, непопавшей в поле зрения поисковиков.
    • Построение несуществующей на сайте, но видимой из Интернета, карты сайта.
    • Специальная процедура поиска контактной информации для списка предприятий.
    • Специальная процедура для работы с новостными источниками, включая раскладывание новостей по рубрикам.
    • Структурирование проектов и решаемых задач по темам или другим критериям.
    • Список «Все сниппеты», содержащий для каждой ссылки html-тексты сниппетов из всех источников, в которых она была найдена.

Публикации и обсуждение.

    Подробнее на сайте, посвященном программе - http://sitesputnik.ru.

    Список публикаций, пресс-релизов, статей, очерков, полевые испытания,
    проведенные Евгением Ющуком из Екатеринбурга, собраны на странице -
    http://sitesputnik.ru/Public.htm.

    Подробное обсуждение на форуме СПКР - http://forum.razved.info/index.php?ct=7&f=0.
    . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Программа SiteSputnik (СайтСпутник).
Сравнительный анализ поисковиков.


Автор
Алексей Мыльников




Основные понятия, терминология и сокращения.

ОП - основные поисковики, а именно: Яндекс, Google, Yahoo, Рамблер и MSN (Live Search).

Ссылка - веб-страница любого формата, размещенная в интернете, точнее ее адрес (URL).

Список уникальных ссылок не содержит двух одинаковых ссылок.

КПД - коэффициент полезного действия поисковика. Это отношение количества ссылок, найденных поисковиком, к количеству
уникальных ссылок, найденных всеми ОП, выраженное в процентах.

Эквивалентные запросы - запросы, имеющие одинаковое смысл (семантику).
На языках запросов ОП они не всегда имеют одинаковый "внешний" вид (синтаксис).
КПД и другие числа рассчитываются именно на эквивалентных запросах.

Цель.

Сравнить результаты работы поисковиков и получить ответы на следующие вопросы.

  1. Чему равен КПД каждого поисковика.

  2. Насколько результаты работы поисковиков отличаются друг от друга.
  3. Насколько эффективнее применение нескольких поисковиков при сборе информации.

  4. Какое количество одинаковой информации (одинаковых ссылок) собирают ОП.


Эксперимент.


Выполним несколько эквивалентных запросов отдельно на каждом поисковике и сравним полученные результаты. Эксперимент проведем при помощи программы SiteSputnik (СайтСпутник).
Все результаты скопированы прямо из протоколов работы этой программы.
Дата проведения эксперимента - 29-30 октября 2008 года.



Запрос 1.
Текст первого запроса: +"Новая Спартановка". "Новая Спартановка" -
это небольшая ЖД станция ПВЖД на окраине Волгограда. Данный запрос будет иметь один и тотже "внешний" вид на языках запросов всех ОП. Результаты его выполнения на "табло".



Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 7 62 0:00:24 35% 0
Google 100 8 71 0:00:20 40% 0
Yahoo 100 6 60 0:00:20 34% 0
MSN 100 4 33 0:00:07 19% 0
Rambler 67 4 50 0:00:10 28% 0
Итого: 467 29 276 0:01:21 —  0


 Количество уникальных ссылок - 177, повторяющихся ссылок - 36%.


Пояснения.
1. Как видно из таблицы, запрос выполнен на полную глубину поиска (до последней ссылки) на всех поисковиках. То есть, для каждого поисковика собрана вся информация, имеющаяся у него по тестируемому запросу на момент эксперимента.

2. КПД поисковика вычислялся как отношение найденных им ссылок по запросу к количеству уникальных ссылок, найденных всеми ОП, переведенное в проценты.
3. Доля повторяющихся ссылок рассчитывалась как отношение разности количества ссылок, найденных всеми поисковиками, и количества уникальных ссылок к количеству уникальных ссылок, переведенное в проценты.

4. При подсчете количества уникальных ссылок учитывались приведенные ниже "Технические замечания".


Запрос 2.
Выполним второй запрос: "Калининградская генерирующая компания" | "Янтарьэнергосбыт". В указанном виде он отправляется на Яндекс, Google и Рамблер. На Yahoo его эквивалентный вид - "Калининградская генерирующая компания" OR "Янтарьэнергосбыт",
а на MSN - +"Калининградская генерирующая компания" | +"Янтарьэнергосбыт". Этот запрос позволяет найти документы, в которых упоминается хотя бы одно их двух дочерних предприятий ОАО "Янтарьэнерго" из г. Калининграда.




Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 9 90 0:00:35 34% 0
Google 100 8 80 0:00:20 30% 0
Yahoo 100 6 60 0:00:20 22% 0
MSN 100 6 58 0:00:14 22% 0
Rambler 67 4 62 0:00:22 23% 0
Итого: 467 33 350 0:01:51 —  0


 Количество уникальных ссылок - 268, повторяющихся ссылок - 31%.


Пояснения.
Для этого и всех последующих запросов пояснения те же, что и для "Запроса 1".




Запрос 3.
Выполним третий запрос: "схемы оптимизации налогообложения" +ЕСН -черные. В указанном виде он отправляется на Google и Yahoo. Для MSN первым символом добавим знак +. На Яндексе его эквивалентный вид содержит вместо знака - двойную тильду ~~, а на Рамблере выглядит следующим образом - "схемы оптимизации налогообложения" +ЕСН NOT черные. Этот запрос предназначен для поиска документов, речь в которых идет о легальных схемах оптимизации налогообложения при выплате зарплат.


Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 18 178 0:01:06 23% 0
Google 100 21 202 0:00:50 26% 0
Yahoo 100 31 310 0:01:40 40% 0
MSN 100 13 124 0:00:21 16% 0
Rambler 67 18 271 0:01:09 35% 0
Итого: 467 101 1085 0:05:06 —  0


 Количество уникальных ссылок - 798, повторяющихся ссылок - 36%.




Запрос 4.
Выполним следующий запрос: +"Средняя Ахтуба" && +недвижимость, сформированный для Яндекса и Рамблера. В Google, Yahoo и MSN для получения эквивалентного вида запроса следует опустить двойной амперсанд - &&. Средняя Ахтуба - это небольшой районный центр в 20 км от Волгограда, недвижимость в котором может представлять интерес для некоторых слоев населения.


Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 40 396 0:01:57 26% 0
Google 100 30 297 0:01:19 20% 0
Yahoo 100 52 520 0:02:20 34% 0
MSN 100 27 265 0:00:44 17% 0
Rambler 67 28 418 0:01:59 27% 0
Итого: 467 177 1896 0:08:19 —  0


 Количество уникальных ссылок - 1521, повторяющихся ссылок - 20%.




Запрос 5.
Выполним следующий запрос: "Камышинский стеклотарный завод". На всех ОП он будет выглядеть одинаково, единственно, что для MSN перед запросом рекомендуется добавить знак +.


Имя
поисковика
Заказано
страниц
Скачано
страниц
Найдено
ссылок
Время
поиска
КПД
поисковика
Отмечено
ссылок
Yandex 100 54 538 0:02:32 27% 0
Google 100 27 265 0:01:17 13% 0
Yahoo 100 84 840 0:02:47 42% 0
MSN 100 33 325 0:00:40 16% 0
Rambler 67 60 877 0:02:17 44% 0
Итого: 467 258 2845 0:09:33 —  0


 Количество уникальных ссылок - 2002, повторяющихся ссылок - 42%.





Выводы из результатов эксперимента.


  1. Средний КПД Яндекса, Google, Рамблера около 25%, Yahoo примерно 30%, MSN - 20%.

  2. Средний КПД поисковика - 25%, то есть результат работы одного поисковика примерно на 75% отличается от результата их совместного использования.

  3. Если Вы собираете информацию о каком-то объекте и применили при этом только один поисковик и задали только один запрос, то упустили около 75% информации. Здесь и везде в данной публикации за единицу информации взята одна уникальная ссылка, точнее ее адрес (URL). Если Вы зададите несколько запросов на одну тему, то, скорее всего, незначительно измените процент упущенной информации, но встанет проблема фильтрации очень большого количества одинаковых ссылок, приносимых по одной теме несколькими запросами.
  4. Количество одинаковой информации, приносимой поисковиками, - около 30%.


Дополнительная информация.
Подобные цифры автор этих строк наблюдает регулярно, практически ежедневно в течение почти 4 лет в процессе разработки и тестирования SiteSputnik`а и его применения для решения своих производственных задач. За это время было выполнено и сохранено в базе данных СайтСпутник`а более 4000 запросов.
Тестирование проводилось только на рунете.



Продолжение эксперимента.
1. Вычисление количества ссылок с уникальным контентом в SiteSputnik`e реально, но требует больших ресурсов, и в данной публикации не рассматривается.
2. Вы можете повторить этот эксперимент или поставить свой, скачав SiteSputnikотсюда. При публикации или другом использовании результатов эксперимента ссылка на SiteSputnik обязательна.

Технические замечания.
При сравнении все ссылки приводились к стандартному виду: к одной кодировке, единой форме, отбрасывались или преобразовывались "служебные префиксы" и прочие вспомогательные конструкции.
    Примеры нескоторых ссылок, рассматриваемых как одинаковые.
  1. http://www.domen1.ru/Resource1/... и
    http://domen1.ru/Resource1/...
  2. http://it2b-forum.ru/index.php?showtopic=5359&st=90 и
    http%3a//it2b-forum.ru/index.php%3fshowtopic=5359%26st=90
  3. http://it2b-forum.ru/index.php?showtopic=5359&st=90 и http://rds.yahoo.com/_ylt=A0geu5buVwtJ8NkAQoBXNyoA;_ylu=X3oDMTEzZXZoM2V2BHNlYwNzcgRwb3MDMjAEY29sbwNhYzIEdnRpZANNMDAxXzk1/SIG=12bt43d0g/EXP=1225566574/**http%3a//it2b-forum.ru/index.php%3fshowtopic=5359%26st=90

Пункт 1 может внести очень маленькую, менее 1%, погрешность в вычисления: рассматриваемые в нем ссылки иногда приносят различную информацию.

Неформальное замечание.
Создается впечатление, что поисковики живут далеко друг от друга, на разных пяти материках, и мало знают о взаимном существовании.



Возможности SiteSputnik`a при сборе информации.

К месту будет сказано, что одной из функцией SiteSputnik`а является обеспечение работы пользователя с семью поисковиками (к упомянутым пяти ОП еще следует добавать Апорт и Mail, подключенные в настоящее время).

    SiteSputnik поддерживает следующие возможности сбора информации.

  1. Метапоиск - за один шаг для отдельного запроса осуществляется поиск одновременно по семи поисковикам: Яндекс, Рамблер, Google, Yahoo, MSN (Live), Mail и Апорт на "глубину" прописанного в настройках количества страниц для каждого из них.
    Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком.
    Повторно найденные ссылки удаляются.
    Подробнее здесь в шаге 1.

  2. Универсальный язык запросов для Яндекса, Рамблера, Google, Yahoo, MSN (Live), Mail и Апорта.
    Алгоритмическая мощность универсального языка сопоставима с возможностями расширенного поиска этих поисковиков.
    Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком.
    Повторно найденные ссылки удаляются.
    Подробнее здесь.

  3. Процедурный поиск позволяет на 100% использовать алгоритмическую мощность языков запросов каждого поисковика, при этом обеспечивает возможность выполнения запроса, написанного на языке запросов конкретного поисковика, на том и только на том поисковике, на языке которого он написан. Объединенные в пакет несколько таких запросов позволяют максимально полно и точно "запрограммировать" и выполнить задачу поиска и сбора информации по искомому объекту.
    Повторно найденные ссылки удаляются.
    Подробнее здесь.



Таким уникальным набором возможностей поиска и сбора информации не обладает ни одна отечественная и зарубежная программа. В настоящее время разрабатываются новые инструментальные средства поиска и сбора информации.
Подробнее о всех возможностях SiteSputnik здесь.



Люботытное следствие из эксперимента.

Выполнив операцию "Аналитическое объединение" в программе СайтСпутник
над пятью упомянутыми выше абсолютно случайными искомыми объектами, бравшимися исключительно с целью проведения экспермента с поисковиками, получим следующий результат. Здесь понятия искомый объект и запрос эквивалентны.

1. Не обнаружено присутствие (пересечение) даже двух объектов ни на одной ссылке, что вполне объяснимо - искомые объекты разные, непринадлежащие к одной теме.

2. На пяти ресурсах (площадках) обнаружено присутствие по четыре объекта, и это уже интересно и объяснимо -
ресурсы или достаточно известны или относятся к Волгограду, к которому имеют отношение три объекта из пяти.

Ресурс (площадка) Запрос
1 rambler.ru   4295   4300   4348   4349
2 regnum.ru   4295   4300   4348   4349
3 subscribe.ru   4300   4348   4349   4365
4 content.mail.ru   4300   4348   4349   4365
5 kommersant.ru   4300   4348   4349   4365
6 volgograd.ru   4295   4300   4349
7 rzd.ru   4295   4300   4349


3. Обнаружено присутствие всех пяти объектов на трех доменах, и это не является неожиданностью -
домены "com.ru", "rambler.ru" и "narod.ru" являются информационноемкими и на них есть почти все.



Домен Запрос
1 com.ru   4295   4300   4348   4349   4365
2 rambler.ru   4295   4300   4348   4349   4365
3 narod.ru   4295   4300   4348   4349   4365
4 org.ru   4295   4300   4349   4365
5 net.ru   4295   4300   4349   4365


Пояснения.
1. Наведите мышку на четырехзначное число и Вы увидите, какой искомый объект (запрос) присутствует на ресурсе или домене.

2. Четырехзначное число - это порядковый номер запроса, заданного в SiteSputnik`е, то есть на момент эксперимента уже было выполнено и хранилось в базе данных 4365 запросов.

3. Объекты 4295, 4300 и 4349 имеют отношение к Волгограду и Волгоградской области.


Ссылки на другие online-инструкции.

1. "SiteSputnik - инструкция по применению. Часть 1. Простой запрос, пакет запросов, аналитическое объединение" >>> .
2. "SiteSputnik - инструкция по применению. Часть 2. Универсальный поиск" >>> .
3. "SiteSputnik - инструкция по применению. Часть 3. Работа с найденными ссылками (веб-страницами)." >>> .
4. "SiteSputnik - инструкция по применению. Часть 4. Инструменты, сервис, опции, настройки." >>> .
5. "SiteSputnik - инструкция по применению. Мониторинг интернет-ресурсов." >>> .
6. "SiteSputnik. Процедурный поиск в интернете" >>> .
7. "Швейцарский ножик Алексея Мыльникова". Автор Дмитрий Борисович "MOS" >>> .
8. "Полевые испытания программы СайтСпутник (SiteSputnik)". Автор Евгений Леонидович Ющук >>> .
9. "FragmentsFromFiles - инструкция по применению. Работа с файлами и фрагментами из файлов" >>> .
10. Страница, посвященная приложению FileForFiles & SiteSputnik
>>> .
11. Список всех публикаций о FileForFiles & SiteSputnik
>>> .



О сотрудничестве.
Ваши предложения по развитию программы можно обсудить с автором. Пишите по
этому электронному адресу. Все материалы данной публикации могут быть использованы только с согласия автора.



Copyright © Автор Мыльников Алексей Борисович, г. Волгоград, 2010г. Все права защищены.

Latest Month

December 2017
S M T W T F S
     12
3456789
10111213141516
17181920212223
24252627282930
31      

Syndicate

RSS Atom
Powered by LiveJournal.com
Designed by Tiffany Chow