Технологии ранжирования Google
Амит Сингал (Amit Singhal), руководитель команды ранжирования Google - рассказал сегодня о алгоритмах поиска.
В своем предыдущем посте я рассказал вам о принципах ранжирования Google. В рамках нашего обсуждения качества поиска я бы хотел рассказать вам о технологиях, используемых при ранжировании результатов поиска Google. Наши базовые технологии используют достижения академической дисциплины, которая называется «Информационный поиск» (по-английски «Information Retrieval» или сокращенно IR). Ученые занимаются поиском уже почти 50 лет. При этом при ранжировании веб-страниц используются статистические сигналы значимости слов, такие как частота употребления. (См. статью "Современный информационный поиск. Краткий обзор"). Информационный поиск дал нам прочный фундамент, на котором мы построили передовую систему, использующую анализ гиперссылок, структуры страниц, а также много других инновационных разработок.
В последнее десятилетие возможности поиска существенно расширились. Если раньше поиск отвечал на вопрос "найдите мне то, что я сказал", то теперь он отвечает на вопрос "найдите мне то, что я хочу". Ожидания пользователей в отношении поиска также сильно выросли. Мы усердно работаем над тем, чтобы оправдать ожидания всех и каждого. Для этого мы должны лучше понимать страницы, запросы и самих пользователей. В течение последних 10 лет мы смогли достичь принципиально новых высот в развитии технологий, позволяющих понять все эти три составляющие поискового процесса.
Когда мы в Google обсуждаем запросы, мы обычно заключаем текст запроса в квадратные скобки [ ] (см. статью Мата Катса "Как писать запросы"). В этом посте я буду обозначать запросы именно так. Страницы и результаты поиска меняются постоянно, поэтому с течением времени некоторые примеры могут отображаться иначе.
Понимаем страницы. В течение многих лет мы вкладывали усилия в развитие нашего поискового робота и системы индексирования. В итоге сейчас мы имеем очень большой и актуальный индекс веб-страниц. Помимо увеличения размеров индекса и повышения его актуальности, мы добились еще некоторых улучшений. Одна из наших наиболее важных технологий для понимания веб-страниц — это определение понятий, важных в контексте страницы, даже если связь со страницей неочевидна. Мы находим официальную домашнюю страницу Государственного Эрмитажа в Санкт-Петербурге на запрос на итальянском [Museo dell'Ermitage di San Pietroburgo], даже если на официальной странице не упоминается ни Санкт-Петербург, ни San Pietroburgo. Если американский пользователь ищет [cool tech pc vancouver, wa ], то ему выдается страница www.cooltechpc.com, несмотря на то, что на странице нигде не упоминается город Ванкувер (штат Вашингтон, США). Также мы разработали технологии, которые умеют отличать важные и неважные для конкретной страницы слова, а также учитывать, насколько свежая информация размещена на странице.
Понимаем поисковые запросы. Для нас важно не просто осуществлять поиск по конкретным словам, содержащимся в запросе, а четко понимать, что именно хотят найти пользователи, когда задают тот или иной запрос. Наша компания совершила ряд заметных технологических прорывов в данной области. Мы разработали лучшую в своем классе систему проверки орфографии запросов, передовую систему подбора синонимов, а также мощную систему анализа понятий, содержащихся в поисковом запросе.
Практически все пользователи сталкивались с нашей системой проверки орфографии. Эта система знает, что если пользователь ввел в поисковую строку [пояск в гуле], то скорее всего ему нужна информация о поиске в Google. В таком случае выводится сообщение: Возможно, вы имели в виду: поиск в гугле. Если же пользователь набрал [пояск кожаный], система понимает, что он ищет кожаный пояс. Осуществлять такой анализ одновременно на нескольких языках чрезвычайно сложно, но Google успешно с этим справляется.
Подбор синонимов является ключевым аспектом понимания запросов. Это одна из самых трудных задач, которыми мы занимаемся в Google. Несмотря на то, что подбор синонимов зачастую очевиден для человека, в области автоматической обработки текстов эта проблема еще не решена. Как пользователю мне не хотелось бы слишком задумываться над тем, какие именно слова использовать в своих запросах. Часто мне вообще неизвестно, какие слова лучше выбрать. В таких случаях в дело вступает наша система подбора синонимов, которая способна выполнять сложнейшие модификации запросов. Например, она знает, что в запросе [ДР Аллы Пугачевой] сочетание ДР означает день рождения, а в запросе [ДР Рим] – слово древний. Когда пользователь ищет [логический философский трактат Витгенштейна], он получает результаты, относящиеся к «Логико-философскому трактату» Людвига Витгенштейна, а по запросу [реляционные БД] система автоматически находит информацию о реляционных базах данных. Мы добились такого уровня понимания запросов почти для ста различных языков, что является для меня предметом особой гордости.
Еще одна технология, которую мы используем в нашей системе ранжирования результатов, это определение понятий, интересующих пользователя. Она позволяет значительно повысить релевантность поиска. Например, наши алгоритмы понимают, что по запросу [Казанова певица] пользователю необходима информация о певице Сати Казановой, а не об известном ловеласе XVIII века Джакомо Казанове. Но мы не останавливаемся на идентификации, мы обогащаем результаты поиска адекватными концепциями. Например, если пользователь ищет информацию о [влиянии компьютера на человека], то ему хочется узнать не столько о том, как компьютер влияет на мировосприятие человека, сколько о его воздействии на здоровье и психику. Или если пользователь вводит [институт Баумана], то его интересует Московский Государственный Технический Университет имени Баумана. В наши алгоритмы анализа запросов встроено множество подобных разработок, и, как я уже говорил, мы умеем анализировать запросы практически на всех языках, которые поддерживает Google.
Понимание пользователей: Наша работа по пониманию пользователей заключается в том, что мы стараемся выдавать именно те результаты, которые реально нужны людям, а не просто слова, которые были введены в строку поиска. В первую очередь для этого применяется наша система локализации, передовая технология персонализации, а также ряд других выдающихся достижений, например, Универсальный поиск.
В нашей работе по локализации мы реализуем наш базовый принцип — наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара. Один и тот же запрос, набранный пользователями в различных странах, может давать абсолютно разные результаты. Например, если пользователь в США ищет [bank], он должен получить информацию об американских банках. А если то же самое слово ищет пользователь в Великобритании , то он, скорее всего, ищет либо производителя модной одежды и обуви "Bank Fashion", либо информацию о британских финансовых институтах. Аналогичный запрос должен выводить местные финансовые институты в таких странах, как Австралия, Канада, Новая Зеландия, Южная Африка. Забавные вещи начинаются, когда тот же самый запрос вводят в Египте, Израиле, России, Саудовской Аравии, Швейцарии или Японии. Аналогично запрос [football] относится к абсолютно разным видам спорта в Австралии, Великобритании и США. В этих примерах мы показали, как мы умеем правильно отображать локализованные версии одного и того же понятия (финансовые институты, виды спорта и т.д.). Однако один и тот же запрос может означать совсем разные вещи для пользователей в разных странах. Например, [Côte d'Or] – это географический регион во Франции. Но в соседней Бельгии – это крупный производитель шоколадных изделий. И мы умеем правильно понимать этот запрос.
Персонализация – это еще одна мощная возможность нашей системы поиска. Мы умеем адаптировать результаты поиска к потребностям конкретных пользователей. Пользователи, которые вошли в Google под своей учетной записью и подписались на сервис "История веб-поиска", имеют возможность получать результаты, которые лучше отвечают их запросам, чем общий поиск Google. Например, если человек, которого интересует железнодорожная тематика, вводит [локомотив], то он получит больше информации о локомотиве как транспортном средстве. Другие же пользователи получат, в первую очередь, информацию о футбольном клубе "Локомотив". Точно так же, если вы предпочитаете страницы конкретного интернет-магазина, то при поиске товаров вы получите больше результатов именно со страниц этого магазина. Как показывают наши опросы, пользователи считают, что персонализованный поиск дает более качественные результаты, чем неперсонализованный.
Еще один пример того, как мы предугадываем желания пользователя – это запрос [chevrolet magnum] На самом деле Magnum производит Dodge, а не Chevrolet, поэтому в выдаче мы также предлагаем результаты для [dodge magnum ].
Наш Универсальный поиск – еще один пример того, как мы умеем правильно понимать пользователей и выдавать именно те результаты, которые им действительно нужны. Например, на запрос [стокгольм] пользователь получает не только важные веб-страницы о шведской столице, но и карту города, и картинки с его видами. Сейчас мы также показываем свежие новости о Стокгольме .
Я мог бы продолжать бесконечно долго, приводя примеры наших технологий, обуславливающих передовой уровень системы ранжирования Google. Однако мы прекрасно осознаем, что поиск информации не является окончательно решенной проблемой. На многие запросы мы пока не умеем выдавать удовлетворительные результаты, и каждый из таких запросов – это возможность улучшить нашу систему ранжирования. Я уверен, что те многочисленные технологии, которые сейчас разрабатывает наша команда, позволят нам в самом ближайшем будущем достичь существенного повышения качества нашего поиска.
Я надеюсь, что два моих поста о ранжировании Google позволили вам убедиться в том, что мы в Google живем и дышим поиском, и наша страстная увлеченность им сегодня сильна как никогда. Мы гордимся тем, что у нас очень хорошая система ранжирования, и мы невероятно много работаем изо дня в день, чтобы она становилась еще лучше.
Новости по теме:
Компания Webcom Media отмечает 10-летний юбилей
Джон Мюллер пояснил, что такое качественный контент
Названы 3 типа сайтов, которым нужен Sitemap
Для добавления комментария надо зарегистрироваться и авторизоваться.
Добавить комментарий можно после авторизации через Loginza.