Забыли пароль?

Зарегистрироваться на сайте

Отменить

МИНОА. Часть 6

Сергей Голубицкий, Журнал D` (Д-штрих) №8 (116), 25 апреля 2011 года

О том, где можно грамотно «складировать» собранную ранее информацию

Сегодня знаменательное событие, почти что путевка в жизнь — дата-майнинг. Мы завершили изучение технологий сбора данных и переходим к ответственному моменту — накоплению плодов наших изысканий. Не будет преувеличением сказать, что этот — второй — этап алгоритма МИНОА является едва ли не самым важным в методологическом отношении. Стоит неправильно выбрать «контейнер» для наших информационных наработок, как все последующие усилия по превращению чужого контента в собственный оригинальный материал пойдут коту под хвост.

Открыл, прочитал и забыл…

Призываю читателей отнестись к сказанному со всей серьезностью. Всем, кому кажется, что я преувеличиваю формальный аспект дата-майнинг, предлагаю для осмысления следующий пример. Предположим, мы собрали солидный информационный массив по некой обширной теме, по которой нам предстоит подготовить аналитический отчет для правления компании. Мы складировали его в неправильном месте: скажем, просто покидали на жесткий диск в какую-то директорию файлы самого разнообразного формата — .pdf, .html, .doc, .txt, .rtf (перечисляю наиболее часто встречающиеся в интернете).

Будем считать, что на этом этап накопления данных завершился. Что делать дальше? Очевидно — изучать материалы. Здесь накладок быть не должно: документ — он и есть документ, независимо от формата — открыл, прочитал, запомнил…

Ой ли? Так уж прямо и запомнил? Поверьте умудренному в данном вопросе человеку, которому приходится ежедневно перемалывать тонны самой разнообразной информации: ничего вы никогда не запомните! Даже если обладаете феноменальной памятью. Потому что дело тут не в памяти, а в технологии дата-майнинг. В частности, в интенсивности процесса. Одно дело — читать детективный роман на протяжении недели, а потом с легкостью пересказывать захватывающий сюжет приятелю. Совсем другое — постоянно, на потоке перелопачивать никак между собой не связанные килобиты информационного шлака. Сегодня — одна тема, через три дня — другая, через неделю — третья. Можно не сомневаться, что через месяц весь этот селевый поток превратится в аморфную бессодержательную массу.

Самое неприятное — данные мало переварить, еще нужно каким-то образом извлечь из информационного мусора ценные зерна, которые затем будут использоваться в работе. Как это сделать? В ситуации, когда вы просто свалили собранный материал в кучу на жестком диске (пусть даже в отдельную директорию), фиаско гарантировано. Потому что вы никогда:

1) не вспомните, где и в каком файле вы наткнулись глазами на те самые ценные зерна;

2) не вспомните частности, нюансы и детали, особенно если они связаны с именами собственными — населенными пунктами, фамилиями, названиями компаний и т. п.

Предвижу возражение: «В чем проблема-то? По ходу изучения сведений мы просто делаем заметки, выписываем нужные имена, фиксируем собственные оригинальные мысли и идеи». Все перечисленное, безусловно, входит в джентльменский набор дата-майнера: без заметок никуда, и об этом у нас еще будет возможность поговорить. Однако любая из них предполагает и обратное движение — к факту для уточнения деталей.

Пример: вы изучали компанию Mattel, крупнейшего в мире производителя детских игрушек, и в процессе чтения материалов сделали пометку: «Скандалы с использованием детского труда на китайских фабриках компании!» Через какое-то время вы садитесь за составление отчета и пытаетесь найти документ, в котором содержались подробности «маттеловского рабства». Как вы собираетесь выуживать это из 150 различных файлов, собранных по теме и сваленных в кучу на жестком диске? А теперь усложним ситуацию: через три года после работы над информацией о компании вы изучаете феномен «китайского экономического чуда» и решаете, что было бы неплохо использовать столь фактурный материал, как рабский труд на производстве. Вы смутно помните, что нечто подобное проскальзывало в контексте Mattel. Только как эту фактуру извлечь на свет божий через… когда вообще все давно забылось?

Фавориты и аутсайдеры

Короче говоря, вы уже догадались, что решение проблем, связанных со структурированием собранной информации, упирается в правильный «контейнер» для ее хранения. Файлы на диске — это худший способ. Так какой вариант будет лучшим?

В этом случае необходимо использовать компьютерную программу, которая умеет:

1) структурировать данные;

2) создавать информационную базу данных;

3) индексировать созданную базу данных.

Как вы понимаете, выдвинутые требования предполагают превращение пассивного хранилища («контейнера») сведений в активный информационный архив. Забегая вперед, скажу, что все существующие сегодня решения для платформ Windows и Mac OS X выглядят неудовлетворительными, поскольку дают крен в сторону как раз пассивного хранилища со скудными поисковыми возможностями. По этой причине в работе нам постоянно придется дополнять подобные любительские «контейнеры» профессиональными программами для создания реляционных баз данных и их индексации.

О базах и индексах мы поговорим в следующих статьях, пока же остановимся на лучших решениях для непосредственного хранения материалов.

Как я уже сказал, информационных «контейнеров» много — особенно для Windows — один другого хуже: WebPicker, NetNotes, CyberArticle, NetCollector, Inquery, WebResearch, Evernote. Mac OS X тоже не отстает: Together, EagleFiler, тот же самый Evernote. Хочу предупредить читателей о вреде последней: конек Evernote — именно кросс-платформность. Программу можно использовать как на декстопе (Windows, Mac OS X), так и для мобильных решений — iOS (iPhone), Android. Проблема, однако, в том, что по достижению определенной критической массы — у меня цифра составила 4 тыс. документов, собранных в информационном архиве, — она становится практически неуправляемой. Изначально ущербная архитектура базы данных заставляет относительно большие архивы в прямом смысле слова еле ползать и тормозить даже на сверхбыстром современном компьютере.

Особо печально то обстоятельство, что об этом концептуальном изъяне на сайте разработчика нет ни слова, а мне бы не хотелось, чтобы читатели повторили мой горький опыт: пришлось ликвидировать базу Evernote и мучительно переносить все, крупицу за крупицей, в альтернативный архив, после того как за год скопилось изрядное количество материала. Лучше уж сразу делать правильный выбор.

Практически все программы из категории информационных архивов я тестировал в разное время, а затем делился впечатлениями с читателями на страницах «Компьютерры» в своей регулярной колонке «Голубятня». Достаточно «погуглить», чтобы найти нужную ссылку на интересующий вас вариант, поэтому не будем тратить времени на копание в аутсайдерах. Сразу перейдем к фаворитам.

Таковых два, причем оба идут со значительным отрывом от конкурентов:

1) лучший информационный контейнер для Windows — программа WebResearch (бывший ContentSaver) немца Мартина Коппманна;

2)  лучший информационный контейнер для Mac OS X — EagleFiler американской компании C-Command Software.

EagleFiler

О WebResearch я писал очень много в «Компьютерре», поэтому за деталями функциональности программы отсылаю читателей к серии статей на эту тему. Универсальные же преимущества хорошего информационного архива мы разберем сегодня на примере EagleFiler, который последний год служит мне верой и правдой после счастливой эмиграции на Mac OS X.

Внешний вид любого информационного архива стандартен. В левой части главного окна вы видите древовидную структуру собранных документов, которая полностью настраивается пользователем под личные нужды: любое число папок, подпапок и т. п. В верхнем правом окне — список документов, хранящихся в выбранном разделе архива, в нижнем правом — содержание документа. Как правило, хороший информационный архив понимает все популярные текстовые форматы — .doc, .rtf, .html и .pdf. В качестве премии можно рассматривать специальные форматы для чтения (.epub, .fb2, .pdb) и почтовые — .mbox, .eml. С ними работают и EagleFiler, и WebResearch.

Обилие форматов, однако, не столь важная фича, как правильная структура базы данных, в которой информационный архив содержит собранные документы. От нее зависят два ключевых момента: удобство доступа и скорость поиска. Скажем, EagleFiler использует универсальную базу SQL (в варианте Core Data из Cocoa API), позволяющую хранить материалы в самостоятельных файлах и папках на жестком диске, зеркально отражающих их распределение в вашем иерархическом дереве. Удобство такого решения трудно переоценить — особенно при миграции на другую программу или даже платформу. Вопросы безопасности не должны беспокоить пользователя: несмотря на открытую структуру баз данных в EagleFiler, они при желании легко шифруются с использованием надежных алгоритмов AES-128 либо AES-256.

Такая прозрачная структура идеально решает и вторую главную задачу информационных архивов — поиск. Поскольку встроенная в программу поисковая система полностью индексирует собранную базу, он осуществляется молниеносно. Маленькая и приятная мелочь — подсветка полученных результатов, которая в разы повышает эффективность работы, однако по непонятной причине очень часто игнорируется создателями софта.

Каков алгоритм использования информационных архивов? Все очень просто: в самом процессе сбора материалов мы сохраняем документы не непосредственно на жесткий диск (в ту или иную директорию), а в архив WebResearch или EagleFiler. Делается это просто: работая в браузере, мы используем либо специальную комбинацию клавиш, либо плагин программы для этого браузера (поддерживаются MSIE, Firefox и Safari), либо самостоятельное окошко-приемник (так называемый Drop Pad), в который мышкой перетаскиваем всю страницу или только выделенную ее часть.

Практическая рекомендация: заполняя входные данные пересылаемых документов, обязательно прописывайте смысловые и тематические теги, а также короткие сопроводительные заметки, которые впоследствии окажут неоценимую помощь при поиске.

Вот, собственно, и вся наука грамотного «складирования» информации в дата-майнинг. В дальнейшем мы научимся использовать поисковые возможности информационных архивов и более продвинутых программ — глобальных индексных поисковых систем — для эффективного перевода собранных данных из пассивного состояния в творческий актив.


Мои портфели

Индикаторы
Индексы
MICEXINDEXCF2 047,42–0,4606.03
RTSI1 110,46+0,2006.03
Акции
GAZP134,60–0,1506.03
GMKN9 324–0,1306.03
LKOH3 079–0,2106.03
ROSN332,0–1,3406.03
SBER162,00–1,4606.03
VTBR0,06600,0006.03
Курсы валют
EUR75,32–0,3320.10
USD65,81+0,4120.10
EUR/USD1,09–0,5331.12
GBP/USD1,47–0,4331.12
USD/JPY120,17–0,2831.12
EURUSD_TOM1,060,0006.03
EUR_TODTOM0,02–0,0406.03
USD_TODTOM0,02–0,0306.03
Мировые рынки
Dow17 473,32–0,7431.12
FTSE6 242,32–0,5131.12
Nikkei 22519 033,71+0,2730.12
S&P 5002 049,94–0,6531.12
Золото1 059,98–0,1231.12
Нефть Brent37,6+3,1331.12