Машинное обучение дало компьютерам возможность распознавать лица и считывать медицинские данные. Но когда ему поручают интерпретацию видео и реальных событий, модели, которые делают возможным машинное обучение, становятся большими и громоздкими. Команда из Mats-IBM Watson Lab считает, что у них есть решение. Они разработали метод, который уменьшает размер моделей распознавания видео, ускоряет обучение и может повысить производительность на мобильных устройствах.
Хитрость в том, чтобы изменить то, как модели распознавания видео видят время. Современные модели кодируют ход времени в последовательности изображений, что создает большие вычислительно-интенсивные модели. Исследователи MIT-IBM разработали
Модуль временного сдвига может упростить запуск моделей распознавания видео на мобильных устройствах. «Наша цель — сделать ИИ доступным для всех, кто пользуется устройством с низким энергопотреблением», — сказал доцент MIT Сонг Хан. — «Для этого нам необходимо разработать эффективные модели искусственного интеллекта, которые потребляют меньше энергии и могут бесперебойно работать на периферийных устройствах, где используется большая часть искусственного интеллекта».
Сокращая вычислительную мощность, необходимую для обучения, этот метод может также помочь уменьшить углеродный след ИИ. Это может помочь таким платформам, таким как Facebook и YouTube, выявлять кадры с применением насилия или террористов, а также может позволить медицинским учреждениям, таким как больницы, запускать приложения ИИ локально, а не в облаке, что может сделать конфиденциальные данные более безопасными. Исследователи представят свои результаты в статье на