?

Log in

No account? Create an account

Previous Entry | Next Entry

SiteSputnik Station. Создание сети коллективного сбора, мониторинга и анализа информации



Предисловие.
В версию 7.3.1 от 17.10.11 программы SiteSputnik News добавлены с целью предварительного ознакомления и опробации первые элементы нового варианта программы, рабочее название которого SiteSputnik Station.


Функциональное назначение и организация работы SiteSputnik Station.
SiteSputnik Station предназначен для следующего.
  • Создание корпоративной или профессиональной сети для коллективного сбора, мониторинга и анализа информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Далее участников будем называть клиентами.

  • Распараллеливание процессов сбора, мониторинга и анализа информации. Это увеличивает производительность и надежность, позволяет выполнить работу на одну заданную тему с нескольких компьютеров.
Организация сети и параллельной работы.
  • Установка на нескольких компьютерах клиентов программы SiteSputnik Station.

  • Выделение в корпоративной сети или глобальной сети Интернета общедоступного пространства (папок, ресурсов или папок на сайте).

  • Настройка клиентских экземпляров программы SiteSputnik Station на обмен информацией через выделенное общедоступное пространство.
Под сбором, мониторингом и анализом потоков информации понимается следующее.
  • Сбор (или синтез информационного потока, содержащего информацию на заданную тему) осуществляется посредством подключения нужных источников информации, а именно: а) встроенных в сайты поисков; б) RSS-потоков; в) произвольных страниц сайтов, на которых периодически появляется новая информация (эмуляция RSS-потоков). Это, своего рода, фильтр грубой очистки (термин Нежданова И.Ю.): из огромного информационного потока Интернета формируется составляющая, в которой содержится нужная информация.

  • Мониторинг: а) выделение новой информации из потока; б) выделение значимого контента ссылки (очистка её от окружающего мусора); в) удаление неоднократно повторяющегося контента из потока; г) удаление контента, который присутствовал в предыдущих потоках (уже был получен ранее в предыдущих поисках на заданную тему). Этот процесс можно рассматривать как процесс «промежуточной» очистки информационного потока от ненужной информации, а сам поток будем называть чистым потоком.

  • Анализ чистого потока – выделение из него нужной информации (фильтр тонкой очистки). На этом этапе сформированные чистые потоки раскладываются на тематические потоки (по Рубрикам согласно специальным Правилам попадания информации в Рубрику).

  • Обмен чистыми потоками между клиентами осуществляется через общедоступное пространство, анализ своих и чужих чистых потоков происходит на компьютере конкретного клиента.
Цель данного способа обработки информации – совместить четыре трудносовместимые вещи, а именно: полноту, точность, оперативность и надёжность процесса сбора, мониторинга и анализа информации.

Настройки программы SiteSputnik Station, способы обработки потоков.
В настоящей реализации (пока или уже) имеются следующие возможности.
Открыв из главного меню программы «Параметры – Настройки - Вкладку Station», можно увидеть приведенную ниже картинку.

сетевые настройки

Переключатель ”Включить экспорт потоков в прописанные ниже клиентские папки” – включает или отключает экспорт чистых потоков в клиентские папки (КП), которые прописываются в окне, размещённом сразу под этим переключателем. На картинке прописаны четыре КП: первая в локальной сети корпорации, вторая папка на Рабочем столе компьютера клиента, третья и четвертая – на корпоративном сайте sitesputnik.ru. Именно во все эти четыре папки будут экспортироваться все чистые потоки, формируемые на данном компьютере.

Переключатель ”Включить импорт потоков из прописанных ниже клиентских папок” – включает или отключает импорт чистых потоков из КП, прописанных в окне, размещённом сразу под этим переключателем. На картинке прописаны три КП: две первые на корпоративном сайте sitesputnik.ru, третья в папке на Рабочем столе компьютера клиента. Именно из всех этих трёх папок будут импортироваться сформированные на чужих компьютерах и переданные в эти папки чистые потоки.

Количество КП - теоретически не ограничено.
Количество компьютеров - теоретически не ограничено.

Важно.
Обращаю Ваше внимание, что в КП экспортируются, а из КП импортируются не Рубрики, а чистые потоки. На формирование чистых потоков ориентировочно затрачивается около 99% времени и других потребляемых ресурсов. Чистые потоки, содержат больше информации, чем Рубрики.

Следующий параметр – переключатель ”Раздельный учёт импортируемых потоков для каждого пакета и базы данных”. Если галочка установлена, то каждый импортируемый чистый поток будет использован по одному разу для каждого пакета и базы данных (задания). Отсутствие галочки означает, что каждый чистый поток на компьютере клиента будет использован только один раз. Опрос на наличие ещё не использованных чистых потоков происходит на заключительной стадии выполнения каждого пакета.

Следующий параметр – ”Максимальный размер базы данных импортируемых потоков”. Он устанавливается в диапазоне от 10 до 1000 потоков. Это чисто технический параметр. Он предназначен для предотвращения неконтролируемого разрастания базы чистых потоков и автоматически удаляет самый старый поток из базы, если достигнут её максимальный размер.

В настоящей реализации программы SiteSputnik Station экспортируются и импортируются потоки информации только в формате программы SiteSputnik. Экспорт и импорт в другие форматы – чисто техническая задача, которая будет решаться в процессе разработки и совершенствования программы SiteSputnik.

Применение настоящей реализации SiteSputnik Station.
Настоящая реализация программы уже сейчас может пригодиться в следующих случаях.
  1. Имея один экземпляр СайтСпутника, на одном компьютере можно «передавать» друг другу чистые потоки, сформированные разными пакетами (поисками на разные темы). Для этого достаточно экспорту и импорту потоков прописать одну и туже папку на локальном диске своего компьютера.

  2. Поиск с нескольких компьютеров на одну заданную тему. Это увеличит скорость обработки информации. Скорость в идеальном случае будет прямо пропорциональна количеству запущенных экземпляров программы СайтСпутник. Задание нужно разбить на N частей, выполнить части отдельно на N компьютерах и получить тот же результат, что и при выполнении одного большого задания на одном компьютере.

  3. Предположим, что на Вашем предприятии в разных подразделениях в корпоративной сети работают N экземпляров программы SiteSputnik. Каждый из них ориентирован на сбор, мониторинг и анализ информации на заданную тему для конкретной группы сотрудников. Для этого на конкретном рабочем месте СайтСпутник использует свои источники информации, свои обращения к ним, свои Рубрики, своё расписание работ. Но вероятность того, что в источниках группы А «проходит» информация, интересующая группу Б, и наоборот, и так далее, - больше нуля. Поэтому применение СайтСпутника позволит полнее собрать информацию. Точность практически не пострадает.

  4. Устойчивость и надежность обработки информации повышаются, потому что отказ одного СайтСпутника по техническим или другим причинам приводит к некоторому уменьшению количества собранной информации, а не к её полному отсутствию в случае применения одного экземпляра программы.

  5. Применив Планировщик задач, можно организовать работу таким образом, что в СайтСпутник придётся «заглядывать» только тогда, когда требуется сделать какое-либо усовершенствование процесса обработки информации, например, подключить новый источник или при сбое аппаратно-программного обеспечения.

Обсуждение первых функций SiteSputnik Station.
Обсуждение данной темы открыто форуме СПКР.

Подробнее о программе FileForFiles & SiteSputnik.
Полный список публикаций собран на странице.
Скачать программу можно здесь.

Latest Month

May 2019
S M T W T F S
   1234
567891011
12131415161718
19202122232425
262728293031 

Tags

Powered by LiveJournal.com
Designed by Tiffany Chow