Забыли пароль?

Зарегистрироваться на сайте

Отменить

МИНОА-3

Сергей Голубицкий, Журнал D` (Д-штрих) №2 (110), 31 января 2011 года

Поиск эксклюзива с помощью Google

Продолжая рассказ о технике МИНОА (акроним для методов изыскания, накопления, обработки и анализа информации), разберем сегодня по винтикам поисковую систему Google, которую большинство обитателей Сети использует процентов на 10 потенциальных возможностей.

В качестве примера мы снова возьмем исследование материалов, связанных с Wikileaks и личностью Джулиана Ассанжа. Допустим, мы хотим собрать факты, относящиеся непосредственно к биографии загадочного борца за неограниченную свободу виртуального пространства. Как поступит пользователь, незнакомый с секретами Google? Очень просто: наберет в поисковой строке Julian Assange biography и получит в ответ совершенно бессмысленное нечто (см. рисунок 1).

Почему бессмысленное? По двум причинам. Во-первых, получившееся количество в 752 тыс. ссылок обессмысливает поиск в принципе, ибо невозможно осилить даже сотую, да что там — тысячную часть всей информации. Во-вторых, в самом начале списка практически всегда располагаются малоинформативные линки.

Судите сами: британская «Википедия», русская «Википедия», собрание биографий публичных личностей. Это самые раскрученные ресурсы с высоким рейтингом посещаемости и цитирования, поэтому они находятся вверху, однако их содержание годится разве что для ликбеза в средней школе. Ни о каком информационном эксклюзиве даже мечтать не приходится. Но ведь мы занялись поиском биографических данных Ассанжа ради этого самого эксклюзива, не правда ли? Однако ни один уважающий себя работодатель не станет платить за перепечатку статей из «Википедии».

Выходит, Google бесполезен для серьезного поиска? Наивнейшее предположение! Google — неисчерпаемый источник эксклюзива. Единственная сложность в том, чтобы этот эксклюзив из Google выудить! Из какого-нибудь 324 189-го линка…

Как это сделать? Освоить хотя бы азы поискового языка, задействовать специальные поисковые надстройки, подключить комбинаторный анализ ключевых слов. Всем этим мы сейчас и займемся.

Знаковые инструменты

Начнем с элементарного: на странице «Настройки поиска» Google изменим три поисковых опции, заданные по умолчанию и не подходящие для серьезной исследовательской работы.

Во-первых, увеличим количество выводимых на одну страницу результатов с 10 до 100. Во-вторых, с целью устранения путаницы установим галочку на опции «Показывать результаты поиска в новом окне». В-третьих, поменяем умеренную фильтрацию в разделе безопасного поиска на опцию «Не применять фильтр к результатам поиска». Иначе непонятно, как разбираться в биографии Ассанжа, громогласно обвиняемого в «изнасиловании по-шведски», то есть в половом акте хоть и по взаимному согласию, но без презерватива.

Рассмотрим теперь ключевые правила поискового языка Google, которые всегда нужно держать в памяти.

1. Google не учитывает регистр букв. То есть можно задать запрос ASSANGE, а можно assange — никакой разницы в результатах не будет.

2. Google ищет только первые 10 слов в запросе (не учитывая «групповые символы», о которых чуть ниже).

3. Google индексирует только 101 Кб информации с одной страницы.

4. Удвоение слова в поиске увеличивает его вес (значимость). Сравните запрос с одним словом childhood (с англ. «детство») с запросом, в котором есть повтор ключевого слова (см. рисунки 2 и 3). В первом случае мы получили во главе списка результатов бессмысленные ссылки на сайты AOL.com и Publicfigurebiography.com, во втором всплыли более информативные линки на TNT Magazine и Uaddit.com.

5. Общая рекомендация к запросам — предпочитайте использовать в поиске редкие слова. В нашем примере вместо Assange biography childhood набейте что-нибудь вроде Assange biography childhood geek («ботаник») и получите прямо сверху целых три линка на блоги в Zdnet.com.

6. Запрос точной фразы требует использования кавычек. Скажем «Assange was born in» гарантированно выведет нас к месту рождения героя — Таунсвилл. Всего в списке будет 18 тыс. линков, тогда как та же фраза без кавычек выдаст очередной хаотичный поток из 3 млн ссылок. С запросами точных фраз, однако, нужно быть осторожными, поскольку велика вероятность, что мы не угадаем с формулировкой и не найдем ничего путного (или вообще ничего не найдем).

7. Иногда бывает полезно уточнить поиск, используя Booleans — логические операторы. Скажем, OR означает «любой», AND — «все». Например, при наборе Assange OR Australia получим информацию как по Ассанжу, так и по Австралии (можно только догадаться, сколько результатов мы увидим по этому безумному запросу!). Запрос Assange AND Australia будет пытаться связать контексты нашего героя с его родиной. Assange AND Wikileaks позволит отбросить всех Ассанжей (однофамильцев), не связанных с разоблачительным порталом.

8. Исключение какого-то понятия в поисковом языке Google передается знаком «–» (минус). Например, запрос Assange –Sweden –Wikileaks –Britain предположительно позволит нам сосредоточиться на биографии Ассанжа за пределами его профессиональной деятельности в Wikileaks, шведского маразма и британской отсидки. Важное примечание: в запросе между знаком минуса и исключаемым словом не должно быть пробела!

9. Предлоги, междометия, глаголы-связки и артикли Google по умолчанию не ищет, поэтому, если мы хотим их акцентировать в запросе, нужно ставить оператор «+» (плюс). Скажем, запрос Assange was born in будет искать только Assange и причастие born («рожденный»), тогда как Assange +was born +in будет искать и глагол-связку was, и предлог in. Другой способ учесть все слова в запросе вам уже знаком: нужно поместить всю фразу в кавычки.

10. В поисковом языке Google есть очень полезный оператор для использования синонимов «~» (тильда). Мы что-то слышали про угрозу тюремного срока, грозившего Ассанжу в 1990-е годы, и теперь хотим найти материалы именно по этой теме. Эффективнее всего это делается следующим образом: Assange AND Australia AND ~jail. В данном запросе применяется тильда, поскольку у jail в английском языке есть равноценный стилистически нейтральный синоним prison либо производные от arrest. Такой запрос выведет результаты по всем синонимам и сократит время поиска (см. рисунок 4).

11. Очень полезный поисковый оператор Google «..» (две точки), который задает цифровые ряды. Так запрос Assange biography 1989..1994 будет искать события, происходившие в жизни Ассанжа в период с 1989-го по 1994 год, запрос 1994.. обращается к любой дате после 1994 года, запрос ..1989 пытается отловить в индексированном веб-пространстве даты, предшествующие этому году. Примечание: обязательно указывайте единицы измерения (знак валюты, вес, расстояние и пр.).

12. Групповой символ в Google задается оператором «*» (астериск). Например: As*ange даст ссылки и на Assange, и на фразы типа known as L’ange du mal («известный как ангел зла») или as the Angel Shark («подобно Ангелу Шарку»). Если задать групповой символ внутри точной фразы, то Google будет искать не букву, а слово, два астериска — два слова. Так, Assange ** Australia выдаст что-то вроде Assange still calls Australia («Ассанж до сих пор звонит в Австралию»), Pro-Assange rally in Australia («митинг в поддержку Ассанжа в Австралии») и т. п. Кстати, вы наверняка уже догадались, что с помощью групповых операторов можно обходить поисковое ограничение в 10 слов.

Таковы основные правила базового синтаксиса поискового языка Google. В реальности, конечно, правил этих гораздо больше и продвинуто любопытных читателей я отсылаю к многочисленным толстым книжкам на эту тему (все они более или менее одинаковы, поэтому достаточно заглянуть на сайт любого книжного магазина и набрать в поисковой строке Google). Тех же, кому некогда, спешу успокоить: вышеприведенных 12 правил хватит за глаза для того, чтобы вывести вашу поисковую работу на неведомый ранее уровень качества.

Языковые инструменты

Рассмотрим теперь ключевые элементы сложного синтаксиса Google.

1. Оператор intitle: ограничивает поиск следующего за ним слова только заголовком страницы. Вот как выглядит простенький с виду запрос intitle:Assange intitle:free (см. рисунок 5). Обратите внимание на отсутствие пробелов между оператором и поисковым словом.

Я неслучайно использовал два оператора и два ключевых слова в запросе. Простой запрос intitle:Assange выводит линки на журнальные и газетные публикации, поскольку именно на порталах СМИ принято использовать заголовок статьи в заголовке всей веб-страницы. Запрос intitle:Assange intitle:free хорош тем, что сужает поиск до дюжины сайтов, связанных именно с общественными кампаниями в защиту Ассанжа. Иными словами, правильно использованный оператор intitle: позволяет провести поиск центрального топика целого сайта, а не только одной страницы на разнопрофильном портале.

2. allintitle: ищет в заголовках все последующие за ним слова. Как вы понимаете, allintitle:Assange free полностью синонимичен громоздкому intitle:Assange intitle:free из предыдущего примера.

3. intext: сужает поиск только до тела страниц, игнорируя линки, URL и заголовки. Например, intitle:Assange intitle:free intext:petition будет искать призывы подписать петицию в защиту героя только на тех сайтах, в заголовке которых красуется лозунг «Свобода Ассанжу». Обратите внимание на одну тонкость: в данном запросе я не использовал оператор allintitle:, поскольку Google стал бы искать в заголовках все слова, находящиеся после оператора, в том числе и intext:petition — разумеется, с нулевым результатом. Двойное использование intitle: решает эту маленькую техническую проблему.

4. allintext: ищет в тексте страниц все последующие за оператором слова.

5. site: ищет на указанном сайте. Запрос Ассанж site:sgolub.ru даст вам все упоминания Ассанжа на страницах моего портала Sgolub.ru (см. рисунок 6). Важное примечание: оператор site: не ищет в директориях сайта, а только в корневой его папке!

6. inurl: снимает недостатки оператора site:, поскольку ищет именно в директориях. Скажем, Ассанж inurl:business-magazine.ru даст ссылку на мою статью об Ассанже, опубликованную в «Бизнес-журнале» (см. рисунок 7). Примечание: не используйте после операторов site: и inurl: префикс адреса http://.

7. Оператор link: очень удобен для проведения аналитических исследований, поскольку выдает список сайтов с линками к указанному адресу. Пример: link:www.freeassange.com дает ссылки на сторонние упоминания главного портала, созданного в защиту Ассанжа (см. рисунок 8).

Забавно, что все первые строки ведут на бразильский филиал Wikileaks. Следующим шагом было бы интересно проверить связь бразильских журналистов с самой энергичной кампанией в защиту Ассанжа. Почему вдруг Бразилия? Страна эта практически не поминается в разоблачениях Wikileaks… Интересно будет порыть именно в этом направлении.

8. cache: находит копию документа в кэше Google указанного URL. Это ценнейший инструмент для оперативного расследования, поскольку позволяет извлекать старые версии страниц, измененные либо удаленные авторами сайта.

9. datarange: ищет в указанном временном диапазоне индексации. К сожалению, формат дат дается по юлианскому календарю, и отсчет ведется с 1 января 4713 года, поскольку, видите ли, компьютеру так удобнее. Если вы не хотите заморачиваться пересчетом юлианского календаря в привычный григорианский то используйте интерфейс очень гибкой и удобной поисковой надстройки FaganFinder Google, www.faganfinder.com/date/ (см. рисунок 9). Подробнее об этом незаменимом в работе движке, равно как и разнообразном мире других поисковых надстроек для Google, мы поговорим в следующей публикации.

Стоит отметить, что поиск в указанном диапазоне дат является едва ли не ключевым инструментом для получения именно той информации, которая требуется. Показательно, что на странице расширенного поиска самого Google возможности по временным ограничениям поиска смехотворны: последние 24 часа, неделя, месяц, год. В этом отношении «Яндекс» гораздо более продвинут. Правда, на поиске в диапазоне дат с помощью готового интерфейса все преимущества отечественного поисковика перед Google заканчиваются.

10. filetype: ищет документы только с указанным расширением. Assange filetype:pdf даст нам упоминания Ассанжа в файлах Adobe PDF. Как правило, ими пользуются официальные и государственные структуры: суды, министерства, финансовые комиссии и пр.

11. Весьма полезный оператор define: передает запрос на объяснение слова. Замечательно, что делается это на родном вам языке. Например, классическое — define:fuck (см. рисунок 10).

В заключение несколько слов о том, какие операторы нельзя смешивать друг с другом. К ним относятся: site: и inurl: с разными адресами (например, site:sgolub.ru inurl:algoritmus.ru); allinurl: и allintitle:. Вместе с тем intitle: и site:, а также intitle: и inurl: объединяются самым замечательным образом.

Главное, о чем нужно постоянно помнить: поисковый язык Google — это всего лишь язык, который сам по себе в мысли не складывается. Для мыслей требуется голова с мозгами. Иными словами, для того чтобы отыскать необходимую информацию, нужно грамотно сформулировать последовательность запросов к поисковой системе. Мы должны понимать, что мы ищем, в противном случае не помогут никакие операторы.

Практика

Начинайте поиск всегда с сужения диапазона дат. Далее проводите сужение по типу сайтов, делая упор на исключение (поиск с оператором «–»). Такой подход естественен, поскольку изначально мы не знаем, на каких cайтах находится ценная для нас информация, однако заранее можем предположить, что ее нет на информационных «отстойниках» вроде «Википедии». Поэтому разумно углублять поиск, дополняя его операторами –site:wikipedia.org –site:snn.com –site:aol.com и т. п. Также бывает очень полезно сузить поиск до какой-то страны (с помощью, например, site:ru).

На третьем этапе переходите к сужению поиска за счет исключения тем, не входящих в круг интересов проводимого вами изыскания. Например, если вы пытаетесь собрать информацию о ранних периодах жизни Ассанжа, резонно исключить все упоминания Швеции (с которой связаны обвинения в «изнасиловании»), Швейцарии (где Ассанж пытался получить вид на жительство) и Великобритании (где его задержали). С учетом того что сегодня вся старая информация по Ассанжу претерпела серьезную коррекцию, есть резон попытаться восстановить события 90-х годов прошлого века по сообщениям прессы именно того десятилетия. Для этого установите верхнюю планку диапазона дат на сайте FaganFinder на уровне 1999 года, ну и т. д. Алгоритм изыскания очевиден любому пытливому уму.

В следующий раз мы завершим тему Google рассказом о поисковых надстройках и одном очень интересном визуальном движке Quintura. После чего продолжим путешествие по алгоритму МИНОА и от методики изыскания информации перейдем к следующему этапу — ее накоплению.


Мои портфели
Индикаторы
Индексы
MICEXINDEXCF2 047,42–0,4606.03
RTSI1 110,46+0,2006.03
Акции
GAZP134,60–0,1506.03
GMKN9 324–0,1306.03
LKOH3 079–0,2106.03
ROSN332,0–1,3406.03
SBER162,00–1,4606.03
VTBR0,06600,0006.03
Курсы валют
EUR71,13+0,2319.10
USD63,95–0,0619.10
EUR/USD1,09–0,5331.12
GBP/USD1,47–0,4331.12
USD/JPY120,17–0,2831.12
EURUSD_TOM1,060,0006.03
EUR_TODTOM0,02–0,0406.03
USD_TODTOM0,02–0,0306.03
Мировые рынки
Dow17 473,32–0,7431.12
FTSE6 242,32–0,5131.12
Nikkei 22519 033,71+0,2730.12
S&P 5002 049,94–0,6531.12
Золото1 059,98–0,1231.12
Нефть Brent37,6+3,1331.12