?

Log in

No account? Create an account

Previous Entry | Next Entry


Программа SiteSputnik:
итоги развития за 2010 год.



Автор
Алексей Мыльников



    В 2010 году программа SiteSputnik (полное название FileForFiles & SiteSputnik, русская аббревиатура СайтСпутник) продолжала развиваться и совершенствоваться в заданном направлении: поиск, сбор, анализ и мониторинг информации, размещенной в открытых источниках Интернета. Её слоган: «Найти всё и с гарантией», - предложенный аналитиком из Самары Дмитрием Петряшовым, очень точно соответствует настоящему состоянию и выбранным на будущее планам развития программы.

    Лицензированными пользователями программы в 2010 году стали физические лица, небольшие и средние предприятия, а также корпоративные клиенты, к числу которых относятся Аналитический центр при Правительстве Российской Федерации, Управляющая компания Сколково менеджмент, Российская корпорация нанотехнологий (Роснано), компания «ОСМП», некоторые областные и краевые УВД и УФСБ, региональные энергетические системы, крупные нефтехимические предприятия, банки и IT-компании.

    Перечислю и кратко поясню новые функции, появившиеся в программе в течение 2010 года. Практически все эти функции не имеют аналогов в отечественных и зарубежных разработках.

A. Поиск и сбор информации из открытых источников.

  1. Табличная форма пакета запросов. Напомню, что пакет – это несколько запросов, которые могут быть выполнены совместно как одно задание, работающее на один результат, или раздельно. Обратившись к табличной форме, пользователь увидит следующую картинку:

    СайтСпутник

    В верхнем окошке присваивается имя пакету, в таблице формируется его функциональная часть.
    • В первом столбце таблицы вводятся тексты запросов на языке источника информации.
    • Во втором - указываются сами источники информации: поисковик, подключенный поиск по сайту или сценарий поиска.
    • В третьем столбце для каждого источника прописывается максимальная глубина поиска в страницах.
    • Четвертый столбец содержит комментарии или любые другие заметки пользователя.


    На следующей картинке приведен пример заполненной таблицы, в частности, для последнего запроса, зафиксирован момент выбора Яндекса в качестве источника информации:

    СайтСпутник

    Нажатие на кнопку «Совместно» или «Раздельно» отправляет на выполнение сразу все пять запросов, которые осуществляют поиск на прописанных им источниках. Полнота поиска обеспечивается множеством неоднородных запросов и множеством встроенных или подключенных источников информации, точность достигается тем, что каждый запрос выполняется на том и только на том источнике, на языке которого он написан: хороший пример тому - последний запрос.

  2. Пакеты запросов с параметрами (реализовано в 2009г). Если периодически требуется собирать информацию не только о Василии Макаровиче Шукшине, но и о других известных личностях, то рационально преобразовать приведенный пакет запросов в пакет с параметрами и использовать его в дальнейшем по назначению. На следующей картинке приведен пример того, что увидит пользователь в нашем случае:

    СайтСпутник

    По умолчанию параметры имеют значения, относящиеся к Василию Шукшину. Остается ввести новое имя пакета и параметры для другого человека, например, «О Кудрине», «Кудрин», «Алексей», «Леонидович», «Kudrin», «Alexei», нажать на кнопку «Совместно» и дождаться окончания поиска. Для пользователя важна только левая часть картинки, правая перечеркнутая часть используется разработчиком пакета.

    Олег Петров из Санкт-Петербурга разрабатывает и поддерживает библиотеку пакетов с параметрами. В этой библиотеке имеются профессионально подготовленные пакеты для сбора информации о человеке по ФИО, по адресу электронной почты, по номеру телефона и ICQ, разработанные Игорем Неждановым из Москвы поиски в социальных сетях и на рекрутинговых сайтах, а также много других пакетов, включая, «народные».

    Используя технику работы с пакетами, можно создавать достаточно сложные и функционально ёмкие собственные расширенные формы поиска с использованием не одного, а нескольких поисковиков, встроенных и подключенных. В формах можно использовать любые методы поиска: метапоиск, глубокий поиск, поиск по конкретному поисковику или сайту. В запросах по конкретному поисковику можно применять любые операторы языка запросов этого поисковика: site:, url=, inurl:, date: и прочие. Расположенная выше картинка представляет из себя простой пример собственной формы. Любая форма может быть отредактирована налету перед выполнением прописанного в ней поискового задания.

  3. Ассемблеры. Все запросы, пакеты запросов, пакеты с параметрами сохраняются в базах данных программы СайтСпутник. Ассемблер (в переводе с английского – сборщик) позволяет собрать из готовых запросов, пакетов запросов и пакетов с параметрами сложное поисковое задание. Таким образом, если имеются в наличии «заготовки» по сбору информации по ФИО человека, по номеру телефона, электронному адресу и прочим критериям поиска, то можно при помощи Ассемблера собрать из них одно поисковое задание и выполнить его по одному клику мышки. Собранное таким способом задание оформляется программой СайтСпутник как пакет и, соответственно, может быть использовано не только самостоятельно, но и при следующем применении Ассемблера как один из элементов сборки. Вживую увидеть работу Ассемблера можно на видеоролике.

  4. Мастер подключения поисковиков (реализован в 2009г). Большое значение для полноты сбора информации имеет возможность подключать нужные для решения поставленной задачи источники информации, чем и занимается Мастер и функция импорта-экспорта поисковиков и сценариев поиска.

  5. Планировщик задач позволяет составлять и выполнять согласно составленному расписанию конкретные задания из различных баз данных (папок).


Б. Анализ и мониторинг информации.

    Программа СайтСпутник – это не только поиск и сбор информации, но и её аналитическая обработка и мониторинг. В 2009 и 2010 годах программа научилась выполнять следующие функции.

  1. Вычисление связей объектов. В качестве объектов могут выступать люди, организации, другие одушевленные или неодушевленные предметы. СайтСпутник умеет находить страницы и ресурсы, на которых они одновременно упоминаются. Операция выполняется над любым количеством объектов или потоков. Для сбора информации о каждом объекте используется вся рассмотренная в разделе А "собирательная" мощность программы, что делает поиск связей объектов достаточно продуктивным.
    Операция «Взятие разности» между множествами ссылок из запросов, выполненных сегодня и вчера, покажет список новых ссылок, и, наоборот, разность между вчерашним и сегодняшним запросом, определит список отсутствующих в сегодняшней выдаче ссылок.

  2. Фактическая релевантность и вычисление максимума информации достигаются следующим образом. При сборе информации на заданную тему для каждой ссылки вычисляется ее вес. Вес ссылки равен количеству запросов, которыми она была найдена. Упорядочивание ссылок по весу приводит к тому, что в первых рядах выдачи программы СайтСпутник размещаются ссылки, содержащие максимальное количество "единиц" искомой информации, другими словами, наиболее релевантные для решаемой задачи ссылки. В качестве «единицы» информации берётся критерий поиска из отдельного запроса.
    Выдача программы СайтСпутник не содержит повторяющихся ссылок - вместо этого в ней каждая ссылка будет сопровождаться ее весом.

  3. Мониторинг поиска. То, что Вы «спросили» у Интернета в разделе А (поиск максимальной сложности), в программе СайтСпутник можно целиком «поставить» на мониторинг. Основной результат мониторинга поиска - это создание списка "Новые", в который попадают только новые ссылки, точнее только те ссылки, которые отсутствовали в нескольких точно таких же предыдущих поисках. Количество таких поисков можно указать в «Настройке». Оно изменяется в диапазоне от 1 до 99.
    Если быть абсолютно точным, то СайтСпутник поместит в список "Новые" не только новые ссылки, но и те ссылки, которые Вы еще не находили.

  4. Сопоставление информационных потоков. Списки "Новые", полученные в разных информационных потоках, могут быть объединены в один список. Это позволяет собрать в одном месте информацию, найденую в интервале времени между двумя последними обновлениями "неоднородных" потоков.


Другие функции.

    За последний год также реализованы следующие функции.

    • Специальные метапоиски: по сайту, только в офисных документах, кеш-копий ссылки.
    • Глубокий поиск для Яндекса, Google и Рамблера, который позволяет собрать не только ссылки из обычного поиска, но и все ссылки, спрятанные в списках «Ещё», «Дополнительные результаты…» и «(Всего …)».
    • Определение белого и черного списка слов и фраз, в основном применяемого для имен сайтов, которые присутствуют в каждом сниппете.
    • Поиск в невидимом Интернете (2009г.). Реализованы четыре базовые функции для поиска информации, непопавшей в поле зрения поисковиков.
    • Построение несуществующей на сайте, но видимой из Интернета, карты сайта.
    • Специальная процедура поиска контактной информации для списка предприятий.
    • Специальная процедура для работы с новостными источниками, включая раскладывание новостей по рубрикам.
    • Структурирование проектов и решаемых задач по темам или другим критериям.
    • Список «Все сниппеты», содержащий для каждой ссылки html-тексты сниппетов из всех источников, в которых она была найдена.

Публикации и обсуждение.

    Подробнее на сайте, посвященном программе - http://sitesputnik.ru.

    Список публикаций, пресс-релизов, статей, очерков, полевые испытания,
    проведенные Евгением Ющуком из Екатеринбурга, собраны на странице -
    http://sitesputnik.ru/Public.htm.

    Подробное обсуждение на форуме СПКР - http://forum.razved.info/index.php?ct=7&f=0.
    . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Comments

Latest Month

December 2017
S M T W T F S
     12
3456789
10111213141516
17181920212223
24252627282930
31      
Powered by LiveJournal.com
Designed by Tiffany Chow