На вход в момент времени t подается вектор xt. У него на пути три «шлагбаума». Первый отмечен синим цветом (forget). Он отвечает за то, какая часть информации из предыдущего этапа t-1 передается на следующий этап. Этот «шлагбаум» – число от нуля до единицы, на которое умножается вход предыдущего этапа. Если число ближе к нулю, от информации с предыдущего этапа остается не так много, и она почти не влияет на новый результат. Если число ближе к единице, информация с предыдущего этапа остается почти в неизменном виде, а значит, ее влияние велико. Влияние обеспечивается тем, что прошедшие через синий шлагбаум остатки информации добавляются ко входу текущего этапа, но не раньше, чем тот пройдет через свой шлагбаум.
Красный шлагбаум (input) – это такое же число от нуля до единицы, которое определяет, какая часть входящей информации пройдет дальше и будет использована для формирования конечного результата.
Наконец, сложенные остатки информации с предыдущего этапа и остатки информации текущего этапа проходят через зеленый шлагбаум, где сидит еще одно число от нуля до единицы. Оно определяет, какая часть полученного результата выходит в следующий слой (она же потом будет пропущена через синий шлагбаум, чтобы повлиять на формирование нового результата).
Так «память» об информации, полученной на предшествующих этапах, сохраняется и используется гораздо дольше, повышая точность и надежность результатов.
В линейной системе, в которой моделируется пространство состояний, есть состояние системы x, которое тоже выполняет роль памяти. Она сохраняет информацию о предыдущих входах, которые влияют на изменения следующих.
Матрицы A, B, C и D в линейной системе выполняют роль, схожую с ролью «шлагбаумов» в сетях с долгосрочной и краткосрочной памятью. Они видоизменяют вход, выход и определяют влияние предшествующего состояния на текущий результат.
Не сильно разбираюсь в таких технологиях и хотелось вначале написать, что более прогрессивные подходы, такие как трансформеры, генеративные модели и самообучение с подкреплением, для обработки данных больше подходят, но ведь наша цель это скорее симбиоз, другого пути у нас нет...