maksa (maksa) wrote,
maksa
maksa

Горе от ума

Продолжу тему интеллекта поисковых машин. Понадобилось мне давеча выяснить, у каких стран (хотя бы у одной, полного списка не требовалось) день независимости отмечается 12 июля. По старой привычке задал запрос так, чтобы ответ находился прямо в сниппетах. (Сниппеты — это небольшие фрагменты найденных документов, содержащие слова запроса.) Я думаю, вы, как и я, набрали бы что-то вроде [12 июля день независимости].
Давайте полюбуемся, что мне сообщил в ответ «Гугл»: [12 июля день независимости] (попробуйте предположить, что там, до нажатия на ссылку). Восхитительный результат, на мой взгляд. Даже злиться не получается, настолько это смешно. Спасибо, дорогой, но ты меня с кем-то перепутал. Наверное, с хоббитами, которые, как известно, искали в книгах только то, что они и так уже знают.
Самое время реабилитироваться после вчерашнего «Яндексу». Итак, спрашиваем и его — [12 июля день независимости]. Что ж, выдача совершенно иная — информация разнообразна и даже есть правильные ответы, правда во втором десятке, но поскольку у меня выводится по двадцать документов на страницу, то — зачёт: найдены Лихтенштейн и Кирибати. Роднят же оба результата своеобразные реверансы: посмотрите, о чём нам рассказывает американский поисковик, а о чём — российский.
«Правильный» запрос в обоих случаях — ["12 июля" день независимости]. К сожалению, расстановка кавычек вокруг слов, вольно изменяемых поисковыми системами (тут я прежде всего имею в виду «Гугл», который особенно часто злоупотребляет этим), применима не всегда — нередко такие слова нужны в самых разных формах, и заключая их в кавычки, легко упустить искомый документ.
И заодно — информация, которая может быть полезна ЧГКшникам. Я уже писал в тематическом сообществе о том, что «Гугл» категорически нельзя использовать как инструмент для определения частоты (в том числе сравнительной) употребления слова или выражения, а «Яндексом» следует пользоваться для этого с большой осторожностью. Теперь вынужден сообщить, что и «Яндекс» стал для подобных целей практически неприменим. В обновлённом дизайне страницы выдачи исчезла информация о количестве найденных сайтов, на которую можно было опираться ранее. Ориентироваться же на количество найденных страниц нельзя, прежде всего, из-за агрессивной группировки (выдачи только одной из похожих страниц, например, при поиске фразы из текста песни), а также из-за возможных перекосов, связанных с дублированием информации на разных страницах сайта. Например, на сайте anekdot.ru один и тот же (добуквенно) анекдот может быть на странице с анекдотами за день, в нескольких списках лучших, в списке анекдотов автора, на версии для PDA и так далее. А какое-то слово или выражение и вовсе может попасть в «подвал» шаблона сайта с десятками тысяч страниц при том, что встречается оно всего на паре десятков сайтов. Посмотрите на запрос ["необходимость ссылки на спорт-экспресс при цитировании"] — в «Яндексе» почти 300 тысяч страниц, при том что сайтов — лишь три десятка, а «Гугл» выдаёт всего два сайта помимо самой газеты — документы на прочих сайтах он счёл дубликатами статей в «СЭ». Другие поисковые системы на предмет их использования в качестве инструмента оценки встречаемости слов и выражений я не тестировал.
Tags: google, Интернет, Яндекс
Subscribe

  • Первый пошёл!

    Анонсированный самолёт теперь считается условно готовым. Условно — потому что есть ещё желание прокрасить некоторые линии расшивки, чтобы…

  • Индекс путешественника: 9

    Тем временем, недавно мой индекс путешественника вырос до девяти: именно столько стран, в которых я посетил не менее девяти городов. Это Россия,…

  • ВАЗ-2101: 50 лет

    50 лет назад, 19 апреля 1970 года, с конвейера Волжского автомобильного завода сошли первые шесть автомобилей. Событие эпохальное не только для…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 17 comments

  • Первый пошёл!

    Анонсированный самолёт теперь считается условно готовым. Условно — потому что есть ещё желание прокрасить некоторые линии расшивки, чтобы…

  • Индекс путешественника: 9

    Тем временем, недавно мой индекс путешественника вырос до девяти: именно столько стран, в которых я посетил не менее девяти городов. Это Россия,…

  • ВАЗ-2101: 50 лет

    50 лет назад, 19 апреля 1970 года, с конвейера Волжского автомобильного завода сошли первые шесть автомобилей. Событие эпохальное не только для…