Он объяснил: «Общим альтернативным подходом является параллельная конвейерная модель, которая запускает разные уровни на разных графических процессорах в качестве конвейера. Однако по мере роста конвейера объем памяти активации возрастает квадратично с глубиной конвейера, и это может быть запрещено для больших моделей. Чтобы избежать этого, еще одним распространенным подходом является распределение слоев между GPU, называемое тензорным модельным параллелизмом, но это требует значительной коммуникации между GPU, что усложняет реализацию и может быть медленным".