Наверное, все пользователи pandas знают, что многие действия можно сделать разными способами. Но далеко не каждый понимает, в чем разница, и почему их код может работать более чем в 3000 раз медленнее, чем у соседа. Давайте разберемся, в чём проблема.
Ну кажется большинство пандасистов знают что векторные операции быстрей чем любая итерация по данным :)
Просто иногда пишешь просто работающее решение, а потом уже начинаешь его ускорять если это критический важно
И еще был опыт: тоже увлекся пандасом, и его быстрыми векторными операциями и казалось бы быстрей уже не напишешь обработку данных, но...
Но, когда тебе надо для обработки затянуть в память несколько гигабайт данных из файла CSV, тут появляется нюанс. Оказывается быстрей обработать такой файл построчно, итерационно, не затаскивая в память целиком в виде DataFrame. Мне кажется я ускорил программу раза в три, по сравнению с пандасом. А если еще прикрутить асинхронную обработку и сохранение данных, то еще быстрей получится (но не факт).
Комментарий недоступен