Недавно Google опубликовал исследовательскую работу о новом алгоритме поисковой системы под названием SMITH. Согласно Google, алгоритм СМИТ превзошел алгоритм BERT в понимании длинных запросов и контента. ЕСЛИ вы веб-мастер, вам необходимо знать об этом алгоритме, он окажет огромное влияние на SEO.

Что делает этот новый алгоритм Google лучше, чем существующий алгоритм BERT, так это его способность понимать отрывки в документах, аналогично тому, как алгоритм BERT понимает слова и предложения. Это позволяет алгоритму Google SMITH хорошо понимать более длинные документы.

Идеальная локальная SEO-стратегия на 2021 год

Хотя неясно, начал ли Google использовать алгоритм СМИТ или нет, поскольку Google редко говорит, какой алгоритм они используют в данный момент.

Понимание того, как работает алгоритм Google SMITH, поможет получить интересное представление о том, как Google видит будущее онлайн-контента.

Что такое алгоритм СМИТ?

СМИТ – это аббревиатура от сиамского многоуровневого иерархического преобразования, основанного на преобразователе . Это новейший алгоритм поисковой системы от Google, ориентированный на понимание длинных запросов и документов.

СМИТ пытается понять весь документ и способен понять контекст определенных отрывков в длинном содержании или документе. Алгоритмы, подобные алгоритму BERT, ориентированы на понимание слов в предложениях.

Модель Google SMITH предназначена для понимания отрывков как контекста всего документа.

Алгоритм BERT обучен на наборах данных для предсказания случайно скрытых слов в предложениях; в то же время алгоритм СМИТ обучен предсказывать, каким будет следующий блок предложений в контексте всего документа.

Это помогает алгоритму SMITH лучше понимать большие документы, чем алгоритм BERT.

Результаты исследования, опубликованного Google о новом алгоритме СМИТ

Оптимизация карт Google: полное руководство

В статье, опубликованной Google, говорится, что алгоритм BERT имеет ограничения. По мнению исследователей, алгоритм BERT ограничивается пониманием только коротких документов. Поэтому им пришлось придумать новый алгоритм, который может превзойти BERT при работе с более длинными документами.

Согласно статье, алгоритм СМИТ интригует, потому что он может делать то, что алгоритм BERT сделать не смог. Алгоритм Google SMITH не предназначен для замены BERT; он создан с целью дополнить алгоритм BERT, делая то, что BERT не может делать.

Подробная информация о СМИТ из Google

В исследовательском документе, опубликованном Google, объясняется, что они использовали модель предварительного обучения, которая похожа на BERT и многие другие алгоритмы. Во-первых, давайте поймем, что мы подразумеваем под предварительным обучением алгоритмов.

Алгоритм Предварительное обучение – это алгоритм, предназначенный для обучения на наборе данных. Для предварительного обучения таких алгоритмов инженеры маскируют или скрывают случайные слова в предложениях. Алгоритм пытается предсказать замаскированные слова в рамках обучения.

Например, если предложение написано как «Мерцай, мерцай немного ____», полностью обученный алгоритм предсказывает «звездочку» в качестве пропущенного слова.

По мере того, как алгоритм обучается и обучается, в конечном итоге он оптимизируется, чтобы делать меньше ошибок в обучающих данных.

Предварительное обучение алгоритма проводится для того, чтобы научить машину работать с точностью и избегать ошибок.

В исследовательском документе говорится, что « Вдохновленный недавним успехом методов предварительного обучения языковых моделей, таких как BERT, СМИТ также применяет парадигму « предварительное обучение без учителя + точная настройка » для обучения модели. 

Исследователи предложили использовать задачу моделирования языка блока замаскированных предложений для предварительного обучения модели Смита. Эта задача будет выполняться в дополнение к исходной задаче моделирования языка замаскированных слов, которая используется в алгоритме BERT для ввода длинного текста.

Задача моделирования языка блока замаскированного предложения

В блоке замаскированного предложения блоки предложений языкового моделирования скрыты во время предварительного обучения. Исследователи объясняют, как отношения между блоками предложений в документе используются для понимания в процессе предварительного обучения.

При понимании содержания, если введенный текст длинный, важны как отношения между словами в блоке предложения, так и отношения между блоками предложений в документе.

Что такое SEO и как оно работает?

Поэтому исследователи маскировали как случайно выбранные слова, так и блоки предложений во время предварительного обучения алгоритма.

Алгоритм Google SMITH разработан и обучен предсказывать блоки предложений. Алгоритм ориентирован на изучение взаимосвязей между словами, а затем повышение уровня для изучения контекста предложений и того, как эти предложения соотносятся друг с другом в длинном содержании.

Итоги тестирования алгоритма СМИТ

После предварительного обучения алгоритма СМИТ исследователи отметили, что алгоритм СМИТ лучше работает с более длинными текстовыми документами. Исследователи пришли к выводу, что алгоритм СМИТ – лучший вариант, чем BERT для длинных документов.

Используется ли алгоритм СМИТ?

Как упоминалось выше, Google прямо не заявлял и не подтверждал, что они используют алгоритм СМИТ. Однако в опубликованных исследованиях утверждается, что алгоритм СМИТ выходит за рамки современного уровня техники для понимания длинных запросов и контента.