Продолжу тему интеллекта поисковых машин. Понадобилось мне давеча выяснить, у каких стран (хотя бы у одной, полного списка не требовалось) день независимости отмечается 12 июля. По старой привычке задал запрос так, чтобы ответ находился прямо в сниппетах. (Сниппеты — это небольшие фрагменты найденных документов, содержащие слова запроса.) Я думаю, вы, как и я, набрали бы что-то вроде [12 июля день независимости].
Давайте полюбуемся, что мне сообщил в ответ «Гугл»: [12 июля день независимости] (попробуйте предположить, что там, до нажатия на ссылку). Восхитительный результат, на мой взгляд. Даже злиться не получается, настолько это смешно. Спасибо, дорогой, но ты меня с кем-то перепутал. Наверное, с хоббитами, которые, как известно, искали в книгах только то, что они и так уже знают.
Самое время реабилитироваться после вчерашнего «Яндексу». Итак, спрашиваем и его — [12 июля день независимости]. Что ж, выдача совершенно иная — информация разнообразна и даже есть правильные ответы, правда во втором десятке, но поскольку у меня выводится по двадцать документов на страницу, то — зачёт: найдены Лихтенштейн и Кирибати. Роднят же оба результата своеобразные реверансы: посмотрите, о чём нам рассказывает американский поисковик, а о чём — российский.
«Правильный» запрос в обоих случаях — ["12 июля" день независимости]. К сожалению, расстановка кавычек вокруг слов, вольно изменяемых поисковыми системами (тут я прежде всего имею в виду «Гугл», который особенно часто злоупотребляет этим), применима не всегда — нередко такие слова нужны в самых разных формах, и заключая их в кавычки, легко упустить искомый документ.
И заодно — информация, которая может быть полезна ЧГКшникам. Я уже писал в тематическом сообществе о том, что «Гугл» категорически нельзя использовать как инструмент для определения частоты (в том числе сравнительной) употребления слова или выражения, а «Яндексом» следует пользоваться для этого с большой осторожностью. Теперь вынужден сообщить, что и «Яндекс» стал для подобных целей практически неприменим. В обновлённом дизайне страницы выдачи исчезла информация о количестве найденных сайтов, на которую можно было опираться ранее. Ориентироваться же на количество найденных страниц нельзя, прежде всего, из-за агрессивной группировки (выдачи только одной из похожих страниц, например, при поиске фразы из текста песни), а также из-за возможных перекосов, связанных с дублированием информации на разных страницах сайта. Например, на сайте anekdot.ru один и тот же (добуквенно) анекдот может быть на странице с анекдотами за день, в нескольких списках лучших, в списке анекдотов автора, на версии для PDA и так далее. А какое-то слово или выражение и вовсе может попасть в «подвал» шаблона сайта с десятками тысяч страниц при том, что встречается оно всего на паре десятков сайтов. Посмотрите на запрос ["необходимость ссылки на спорт-экспресс при цитировании"] — в «Яндексе» почти 300 тысяч страниц, при том что сайтов — лишь три десятка, а «Гугл» выдаёт всего два сайта помимо самой газеты — документы на прочих сайтах он счёл дубликатами статей в «СЭ». Другие поисковые системы на предмет их использования в качестве инструмента оценки встречаемости слов и выражений я не тестировал.