Если есть одна вещь, которую я узнал за 15 лет работы над поиском Google, так это то, что любопытство людей безгранично. Мы видим миллиарды поисковых запросов каждый день, и 15 процентов этих запросов – это запросы, которых мы не видели раньше, поэтому мы создали способы возвращать результаты по запросам, которых мы не можем предвидеть.

Когда такие люди, как вы или я, приходят в Поиск, мы не всегда уверены в том, как лучше всего сформулировать запрос. Мы можем не знать, какие слова использовать или как написать что-то по буквам, потому что часто мы приходим в Поиск, чтобы научиться чему-то – у нас необязательно есть знания для начала.

По своей сути поиск – это понимание языка. Наша задача – выяснить, что вы ищете, и найти полезную информацию из Интернета, независимо от того, как вы пишете или комбинируете слова в вашем запросе. Хотя мы продолжали улучшать наши возможности понимания языка на протяжении многих лет, мы иногда все еще не совсем понимаем это, особенно со сложными или диалоговыми запросами. Фактически, это одна из причин, по которой люди часто используют «ключевое слово-ese», набирая строки слов, которые, по их мнению, мы поймем, но на самом деле не так, как они естественным образом задают вопрос.

Благодаря последним достижениям нашей исследовательской группы в области науки о понимании языков, которые стали возможными благодаря машинному обучению, мы значительно улучшаем то, как мы понимаем запросы, что представляет собой самый большой скачок вперед за последние пять лет и один из самый большой шаг вперед в истории поиска.

Применение моделей BERT для поиска В
прошлом году мы представили и предоставили открытый исходный код основанную на нейронных сетях технику предварительного обучения обработки естественного языка (NLP), называемую двунаправленными представлениями кодировщика от Transformers или, как мы это называем, BERT , для краткости. Эта технология позволяет каждому обучить собственную современную систему ответов на вопросы.

Этот прорыв стал результатом исследования Google трансформеров: моделей, которые обрабатывают слова по отношению ко всем другим словам в предложении, а не по порядку. Таким образом, модели BERT могут рассматривать полный контекст слова, глядя на слова, стоящие до и после него, что особенно полезно для понимания цели поисковых запросов.

Но это возможно не только благодаря усовершенствованию программного обеспечения: нам также требовалось новое оборудование. Некоторые модели, которые мы можем построить с помощью BERT, настолько сложны, что выходят за рамки того, что мы можем делать с использованием традиционного оборудования, поэтому впервые мы используем новейшие облачные TPU для обслуживания результатов поиска и быстрого предоставления вам более релевантной информации.

Анализ ваших запросов
Итак, это много технических деталей, но что все это значит для вас? Что ж, применяя модели BERT как для ранжирования, так и для избранных фрагментов в поиске, мы можем намного лучше помочь вам найти полезную информацию. Фактически, когда дело доходит до ранжирования результатов, BERT поможет поиску лучше понять каждый десятый запрос в США на английском языке, и со временем мы перенесем это на большее количество языков и регионов.

В частности, для более длинных и диалоговых запросов или поисков, в которых предлоги, такие как «для» и «для» имеют большое значение для значения, Search сможет понять контекст слов в вашем запросе. Вы можете искать так, как вам кажется.

Чтобы запустить эти улучшения, мы провели много тестов, чтобы убедиться, что изменения действительно более полезны. Вот несколько примеров нашего процесса оценки, которые демонстрируют способность BERT понять цель вашего поиска.

Вот поисковый запрос: «Путешественнику из Бразилии в США в 2019 году нужна виза». Слово «к» и его связь с другими словами в запросе особенно важны для понимания смысла. Речь идет о путешествии бразильца в США, а не наоборот. Раньше наши алгоритмы не понимали важность этого соединения, и мы возвращали результаты о гражданах США, путешествующих в Бразилию. С помощью BERT Search может уловить этот нюанс и знать, что очень распространенное слово «to» действительно имеет здесь большое значение, и мы можем предоставить гораздо более релевантный результат для этого запроса.

пример результатов поиска

Что такое SEO и как оно работает?

Давайте посмотрим на другой вопрос: «много ли работают эстетики». Раньше в наших системах использовался подход сопоставления ключевых слов, сопоставляя термин «автономный» в результате со словом «стоять» в запросе. Но это неправильное использование слова «стоять» в контексте. Наши модели BERT, с другой стороны, понимают, что «стоять» связано с концепцией физических требований, предъявляемых к работе, и демонстрируют более полезную реакцию.

пример результатов поиска

Вот еще несколько примеров, когда BERT помог нам уловить тонкие нюансы языка, которые компьютеры не совсем понимают так, как люди.

Улучшение поиска на других языках
Мы также применяем BERT, чтобы сделать поиск лучше для людей во всем мире. Важной характеристикой этих систем является то, что они могут извлекать знания из одного языка и применять их к другим. Таким образом, мы можем взять модели, которые учатся на усовершенствованиях английского языка (языка, на котором существует подавляющее большинство веб-контента), и применить их к другим языкам. Это помогает нам лучше возвращать релевантные результаты на многих языках, на которых предлагается поиск.

Для избранных сниппетов мы используем модель BERT для улучшения избранных сниппетов в двух десятках стран, где доступна эта функция, и наблюдаем значительные улучшения в таких языках, как корейский, хинди и португальский.

Поиск – не решенная проблема.
Независимо от того, что вы ищете или на каком языке говорите, мы надеемся, что вы сможете отказаться от некоторых ключевых слов и выполнить поиск таким образом, который кажется вам естественным. Но вы все равно будете время от времени ставить Google в тупик. Даже с BERT мы не всегда понимаем это правильно. Если вы выполните поиск по запросу «какой штат находится к югу от Небраски», BERT лучше всего предположит сообщество под названием «Южная Небраска». (Если вам кажется, что это не в Канзасе, вы правы.)

Понимание языка остается постоянной проблемой, и это дает нам мотивацию продолжать улучшать поиск. Мы постоянно совершенствуемся и работаем над тем, чтобы найти смысл и самую полезную информацию для каждого запроса, который вы отправляете нам.