• Вадим Куракин, Директор по ИТ и телекоммуникациям, Генподрядная компания STEP: « Поисковик для корпорации»
09.03.2011

Вадим Куракин, Директор по ИТ и телекоммуникациям, Генподрядная компания STEP: « Поисковик для корпорации»

Итак, поисковик. Какие ассоциации рождает у вас это слово? Какие мысленные образы начинают мелькать перед внутренним взором? Стоп. Поисковик — это не обязательно строка в вашем интернет-обозревателе!

Задумайтесь на минуту и попробуйте представить, возможна ли жизнь IT-директора, да и любого современного человека, без этой привычной и невероятно удобной полоски с кнопочкой «Найти» или «Мне повезет!». Что первым появляется на мониторе, когда чуть медленнее чем наш компьютер, включаемся с утра мы сами за чашкой кофе, сидя в своем рабочем кабинете? С чего начинается любой наш новый проект? Мы настолько привыкли к этому инструменту, что вряд ли мыслим успешную деятельность нас самих и наших подчиненных, не будь в нашем распоряжении «Яндекса» или Google.

Можно только пофантазировать, как некто очень злой изъял строчку поиска из арсенала наших сослуживцев, и стал наблюдать, как те будут себя вести. А именно — при любом удобном случае требовать с начальства, то есть с нас, то мануал по новенькой, только что приехавшей «циске», то драйвер под нужную ОС, которым поставщик почему-то не снабдил свежую модель ноутбука. Или в случае затора с конфигурированием кластера на VMWare и SUSE Linux непременно бежать к старшему по званию гуру — то есть опять к нам, получившим не обязательно бизнес-, но обязательно высшее техническое (для России) образование (по результатам исследования HeadHunter), и заваливать вопросами. И невозможно было бы отмахнуться, в силу своей занятости осмыслением бизнес-процессов, отправив своего верного помощника прямиком к Googl’у, ответы у которого есть на все, если не на русском, то уж точно на каком-нибудь из англоязычных форумов. Какая уж тут успешная деятельность…

Но хвала Сергею Брину и Ларри Пейджу (Google), а также их российским коллегам Аркадию Волож и Илье Сегалович («Яндекс»), найти информацию в Интернете в наши дни не проблема. Даже для школьника или старушки, не говоря уж об ИТ-специалисте или продвинутом «продажнике», это как «дважды два».

Однако, вернемся к началу, к нашим ассоциациям. Разве поисковик — это только Интернет? Кто когда-либо задумывался о том, что делается в его собственной серверной, в которой еще чуть-чуть, и дисковые полки начнут поджимать вроде бы недавно купленный, уже третий по счету, шкаф. Или может быть даже в его собственном корпоративном дата-центре, строительство или аренду которого проинвестировало наше замечательное руководство.

Ведь чего там только нет! Как выразился недавно в случайном разговоре мой мудрый шеф: «Все следы жизнедеятельности сотрудников хранятся там, на нашем сервере! Контакты, письма, договора, звонки, презентации …» все это многообразие информационных ресурсов, у нас – за этой железной дверью!

А можем ли мы воспользоваться этой ценной для любой компании информацией так же просто, как это предлагают всем известные сервисы Google или «Яндекс»? Боюсь, немногие из нас могут похвастать, что давно забыли, что такое в агонии искать нужный «экселовский» файл, который вроде бы сохранял у себя, а может быть — в папке учредителей... А может, отправлял из дома почтой или сохранял на рабочий стол в Терминале через VPN... Черт! Где же та самая презентация, с которой ты через 5 мин выступаешь на совете директоров?!

Наверное, вот для этого и придумали корпоративный поиск. А Google даже изобрел целое устройство, похожее на головку швейцарского сыра и призванное облегчить жизнь нам и нашим коллегам (http://google.softline.ru/gsa.php).
Поговорим сначала о технологии. Каким образом можно найти то, что нам нужно в многообразии файлов и записей в таблицах баз данных?

Прямой поиск

Относительно недавно, когда файлов в локальных сетях предприятий было не так много, любой поиск осуществлялся простым перебором доступных файлов и последовательной проверкой их названий и содержимого. Такой поиск называется прямым, и программы, использующие эту технологию, традиционно присутствуют во всех операционных системах. Но сегодня мощности даже самых современных компьютеров уже не хватит для быстрого и адекватного поиска в гигантских объемах данных. Поэтому программы прямого поиска сегодня уходят на второй план, и в корпоративном секторе уже не востребованы, хотя все еще присутствуют на рынке.

Индекс, запрос, релевантность

В основе современных технологий лежат два основополагающих процесса. Во-первых, это индексация доступной информации, во-вторых, обработка запроса с последующим приоритетным выводом результатов.

Что касается первого, то любая программа (будь то настольный поисковик, корпоративная информационная система или поисковый движок для Интернет) создает свою область поиска. То есть обрабатывает документы и формирует индекс этих документов — организованную структуру, в которой содержится информация об обработанных данных. В дальнейшем именно созданный индекс используется для работы — быстрого получения списка нужных документов согласно запросу.

Что касается приоритета вывода — он задается в соответствии с релевантностью. А релевантность определяется степенью соответствия результата информационному запросу. Одним из наиболее распространенных методов оценки степени соответствия, то есть релевантности, является TF-IDF, по которому вес некоторого слова прямо пропорционален количеству употреблений этого слова в документе и обратно пропорционален частоте употребления слова в других документах выборки.

Программы поиска

С технологиями разобрались,  а какие же программы существуют на рынке, чтобы мы могли с удобством находить нужную нам информацию?

Проанализировав рынок программных решений для ведения поиска в ограниченном объеме данных (замкнутом массиве), к которому не относится Интернет, можно разделить все продукты на две категории: программы для персонального использования и системы поиска уровня предприятия:

Персональные поисковики (Desktop). Выполняют поиск на локальных жестких дисках вашего компьютера. К ним относятся бесплатные утилиты таких известных монстров веб-поиска, упомянутых выше, как Google и Yandex, а также ряд менее известных, но превосходящих по функционалу, скорости и другим параметрам, платных программ. Не буду подробно останавливаться на каждой из них, поскольку нам больше интересен корпоративный поиск, но общие выводы сделаю. Подробная информация вы найдете в таблице 1.

Корпоративные поисковики (Enterprise). Осуществляют поиск по всем корпоративным данным и серверам – файлы, почта, базы данных. Подробности в таблице 2.

 Название  Комментарии

 Google Desktop

Сервисно и круто, но бесцеремонно индексируя все содержимое вашего компьютера незамедлительно отправляет все эти данные на сервера Google. Конечно, можно запретить ему ходить в Интернет, и тогда после небольшой головной боли с настройками файрволла он будет работать, периодически втихаря пытаясь выползти наружу и ругаясь… Но стоит ли рисковать конфиденциальностью, учитывая, что Google даже не скрывает своего взаимодействия с американскими спецслужбами?

 Яндекс Desktop

 Вполне удобно. Минимум головной боли и русскоязычный интерфейс. Но пока реализованы не все функции, и периодически наблюдаются баги.

 Copernic Desktop

 Простой удобный интерфейс. Подсветка слов. Отсутствие багов. Работает стабильно и быстро. Сетевой активности нет, никуда не лезет, никаких портов не открывает. Но на английском языке и платный.

 Softinform Search Desktop

 Главным достоинством этой программы является широкий диапазон форматов файлов, подвергаемых полнотекстовому индексированию (умеет работать даже с *.djvu). Просто и интуитивно настраивается поиск, а его скорость, после того как индекс создан, приятно удивляет.

 ISYS Desktop

 Очень мощная программа. Интерфейс весьма симпатичный, но разобраться, где и что находится, куда нажимать, и где наконец-то осуществить поиск, новичку будет непросто: запросы для поиска вводятся при помощи запуска одной программы, а управление индексами — при помощи другой. Поисковые запросы вводятся также в отдельных появляющихся окошках. Не поддерживается русский язык. Возможности по созданию индексов включают в себя несколько готовых шаблонов (по папке «Мои документы», «Почта»).

 «Ищейка Проф» Deluxe

 Интерфейс необычен, но весьма привлекателен. И все же многооконное решение — не самый удачный вариант (например, запрос вводится в одном окне, а результат отображается в другом). Индексирование проходит гораздо медленнее, нежели у конкурентов. Окно результатов не слишком информативно: прочитать весь найденный файл можно, только открыв его: встроенного просмотрщика нет.

 dtSearch Desktop 

 Довольно простой интерфейс, но некоторые окна или вкладки перегружены элементами, из-за чего создается впечатление сложности использования. Русскоязычного интерфейса нет, хотя искать документы программа может на нескольких языках. Имеется морфологический поиск (слово во всех морфологических формах), поиск с коррекцией ошибок (с опечатками) и поиск с использованием синонимов.

Таблица 1. Персональные поисковики

 Название  Комментарии
 Google Search Appliance

Дорогостоящее решение, предлагаемое вместе с аппаратной частью (сетевое устройство + софт). В основном, используется среди западных заказчиков, преимущественно в США (American Express, Apple Computer, Morgan Stanley, Университет штата Флорида, Всемирный банк, Xerox). В России услуги по внедрению Google Search Appliance предоставляет компания Softline. Она же является пионером внедрения этой разработки на российском рынке (внедрили у себя, после чего стали вендором). Компания Softline.ru — один из самых крупных интернет-магазинов ПО.Достоинства: во-первых, персонализация параметров поиска: администраторы могут легко настраивать параметры поисковых механизмов для различных групп пользователей, к примеру, с учетом принадлежности сотрудника к тому или иному подразделению организации или в зависимости от его служебных обязанностей. Во-вторых, оповещения: сотрудники могут подписаться на рассылки по интересующим темам и документам, чтобы получать уведомления о новых поступлениях по электронной почте раз в час, раз в день или раз в неделю.

 Microsoft SharePoint Server 2010

Корпоративный поиск от Майкрософт. В последней версии 2010 реализован механизм индексации приватной почты на Exchange (до этого мог искать только по ящику владельца). Есть функция объединения дублей в результатах, интегрируется со всеми возможными источниками данных (в том числе с базами данных – например вашей CRM или ERP).

 IBM WebSphere Information Integrator

Тяжелый, дорогостоящий продукт для крупных корпораций с «айбиэмовской» инфраструктурой (Lotus Notes, IBM WebSphere и др.). Безусловно, подойдет тем, кто привержен корпоративным решениям компании IBM. Но, наверное, не стоит внедрять его отдельно.

 Russian Oracle Secure Enterprise Search (ROSES)

 Созданный компанией «ФОРС–Центр разработки» поисковый аппаратно-программный комплекс для корпоративного пользования с широкими возможностями, основанный на технологиях Oracle Secure Enterprise Search и Russian Context Optimizer ROSES умеет выделять из текста самые разные объекты: специальные (даты, адреса, номера паспортов и кредитных карт), именованные (персоны, организации, географические названия), термины (включая и многословные), а кроме того, выявлять темы, события и их участников, факты, связи между объектами.Поскольку общепринятые в глобальных поисковых системах механизмы ранжирования результатов поиска по релевантности в корпоративных системах не применимы, ROSES использует для решения этой задачи специальные алгоритмы. Весьма полезна также фильтрация дубликатов: если, к примеру, в почтовых ящиках нескольких пользователей в результате массовой рассылки окажется одна и та же презентация, то в итоговом списке, предлагаемом поисковой машиной, такая презентация будет присутствовать в единственном числе.

 Autonomy IDOL Enterprise Search

 Одна из крупнейших в мире систем обработки неструктурированной, текстовой и аудиоинформации из разных источников с последующей ее обработкой, анализом и управлением. Компания охватывает свыше 20 тыс. клиентов, среди которых British Telecom, France Telecom, General Motors, Reuters, BBC, British Airways, но пока плохо представлена в России (информации о ее успешных внедрениях в нашей стране нет).

 FAST Enterprise Search Platform (Microsoft FAST Search Server 2010 for SharePoint)

 Бывшая Fast Search & Transfer — норвежская компания, специализировавшаяся на поиске информации, — разработала уникальные механизмы и заняла лидирующее место на рынке. Эта система является наиболее мощной, быстрой и гибкой. С 24 апреля 2008 г. компания вошла в состав Microsoft, анонимно приняв предложение о поглощении стоимостью $1,2 биллиона долларов (97,37% акций).

 Softinform Search Server

 Разработка компании «СофтИнформ», ведущего российского разработчика поисковых решений. Наиболее значительным усовершенствованием в SoftInform Search Server 4.6 является поддержка распознавания текста, содержащегося в графических файлах. Позволяет искать нужную информацию не только среди документов, изначально находившихся в электронном формате, но и среди отсканированных печатных документов. Система больше ориентирована на информационную безопасность и противодействие утечке данных. Развилась в программный продукт, который позволяет выявлять утечки конфиденциальной информации через е-mail, ICQ, голосовые и текстовые сообщения Skype, посты на форумах или комментарии в блогах, внешние устройства (USB/CD), документы, отправляемые на печать, а также появление конфиденциальной информации на компьютерах пользователей. Ответственные сотрудники оперативно оповещаются о нарушениях политики безопасности. Хорошо может подойти тем, кого напрямую коснулся ФЗ № 152 «О персональных данных».

 MBD Search Engine Server

Российская разработка. Больше подходит для библиотек и ВУЗов в качестве поисковика по электронным хранилищам и архивам прессы. Сервер интегрирует корпоративные документы, библиотеки и базы в единое поисковое пространство и предоставляет доступ в соответствии с правами пользователей. Очень легок в управлении. Требуется всего несколько шагов, чтобы установить его на серверный компьютер. Для подключения пользователей нужно установить клиентские приложения на их компьютеры и указать имя сервера.

MBD Search Engine server использует технологии «Сохранение источников» и «Прецизионное индексирование». PI («Прецизионное индексирование») — это технология индексирования и поиска, разработанная MBD Soft и используемая во всех вариантах программы MBD Search Engine. В процессе индексирования все текстовые источники делятся программой на страницы размером около 3 кбайт, и точные позиции всех слов на странице и в базе сохраняются в индексе. Это позволяет точно устанавливать расстояния между словами запроса, что значительно повышает релевантность поиска. В результате поиска MBD Search Engine выдает список документов и все найденные страницы с выделенными словами запроса вместо одного только списка документов.

Таблица 2. Корпоративные поисковики (Enterprise)

Возможные риски

О чем стоит как следует подумать перед внедрением корпоративного поиска, так это о рисках. Их здесь, помимо успешного «приживания» в компании, достаточно много. И если вы планируете интегрировать в поисковик данные CRM, ERP, почтовых серверов, файловых дисков и т.д., то как быть с правами на такой поиск? Кому вы доверите доступ к подобным результатам поиска и в каком объеме?

В ходе исследования «Безопасность поисковых систем в корпоративной среде» экспертами компании InfoWatch было опрошено более 1,5 тыс. респондентов. Выявились весьма неожиданные результаты: оказалось, что практически половина (48,9%) уверена, что использование корпоративных поисковых систем несет в себе угрозу утечки коммерческих секретов. Этот риск оказался значительно выше, чем два других — угроза проникновения вредоносных кодов (39,8%) и угроза несанкционированного доступа (35,3%).

По мнению аналитиков из InfoWatch, обеспокоенность респондентов риском утечки конфиденциальной информации вполне оправдана. Дело в том, что поисковые системы значительно облегчают доступ к коммерческим данным со стороны персонала. И в подавляющем большинстве случаев этот доступ является полностью авторизованным и санкционированным со стороны ИТ-служб. Таким образом, если инсайдер пытается «слить» торговые или технологические секреты работодателя на сторону, то ему нет нужды выведывать, где и в каком виде хранится вся эта информация. Ведь в распоряжении злоумышленника есть мощный инструмент, который позволяет отыскать нужный документ за считанные секунды.

Мы, как руководители, отвечающие в том числе и за безопасность, должны ясно отдавать себе отчет в том, что если конфиденциальные документы попадают в общий индекс поисковой системы, то единственное, что может предотвратить их утечку, так это система активного мониторинга всех коммуникационных каналов. Если же компания не контролирует электронную почту, Интернет, USB-носители, принтеры и другие каналы, то коммерческие тайны утекут из такой организации быстрее, чем начальник успеет моргнуть глазом. Более того, чтобы утечка состоялась, достаточно не контролировать хотя бы один из указанных выше каналов. Таким образом, если система защиты от утечек и инсайдеров в организации реализована, то можно смело внедрять инструменты поиска и не опасаться человеческого фактора и так называемых оборотней в белых воротничках. Если же системы защиты нет, средства поиска лишь ускорят утечку секретов компании.

Выводы

В целом, идея корпоративного поисковика — актуальная технология. Многие компании в России задумываются об этом, а крупные уже используют некоторые решения. Нужен ли поисковик вашей компании? Стоит подумать. И прежде всего ответить на вопрос себе и руководству, как вы планируете его использовать, и что он может дать в разрезе роста прибыли и оборота. Насколько полезен и в чем он может быть для «топов»?

Если смотреть на результаты аналитического агентства IDC (http://www.idc.com), среднестатистический работник, использующий компьютер, тратит в среднем от 15 до 30% рабочего времени на поиск необходимой информации. Соответственно, это вполне можно воспринимать как недополученный доход для многих компаний. В ближайшее время на международном рынке ожидается резкое повышение спроса на продукты класса Enterprise Search. По оценкам того же IDC, объем рынка составит порядка $400 млн.
Также можно добавить, что на сегодняшний день корпоративный поиск — новое поле битвы между Google и Microsoft в общемировом масштабе. На рынке корпоративного поиска эти гиганты занимают принципиально разные позиции. Google считает, что домашние и корпоративные пользователи — это одни и те же люди, которые могут использовать один и тот же продукт. Компания Microsoft уточняет: да, это те же люди, однако дома и на работе у них разные нужды, поэтому им требуются разные инструменты.

Если говорить о нашей компании, то для нас наиболее логичным и правильным решением стала реализация поиска на платформе SharePoint 2010.