Векторы позиционного кодирования в Transformer
Разбирал структуру и алгоритм работы трансформеров. В процессе изучения появился вопрос. Почему при работе трансформера мы складываем "позиционные вектора" с эмбенддингами(на картинке ниже стрелками указан этот момент)? Разве мы не теряем от этого семантику слова?
