Софт

Google EfficientNets анализируют изображения лучше, чем другие модели ИИ

Google EfficientNets анализируют изображения лучше, чем другие модели ИИ

Свёрточные нейронные сети (CNN) — архитектура нейронных сетей, вдохновленная биологическими процессами в зрительной коре человека — хорошо подходят для таких задач, как распознавание объектов и распознавание лиц, но повышение их точности за пределы определенной точки требует утомительной тонкой настройки. Вот почему разработчики из исследовательского отдела Google по исследованиям искусственного интеллекта исследуют новые модели, которые «масштабируют» CNN «более структурированным» способом, который они описывают в статье «EfficientNet: переосмысление масштабирования модели сверточных нейронных сетей», опубликованной на сервере препринтов Arxiv.org.

Авторы утверждают, что семейство систем искусственного интеллекта, получившее название EfficientNets, превосходит современную точность стандартных моделей и повышает эффективность до 10 раз.

«Обычная практика масштабирования моделей заключается в произвольном увеличении глубины или ширины CNN или использовании большего разрешения входного изображения для обучения и оценки», — пишут штатный инженер-программист Минсинг Тан и ведущий научный сотрудник Google AI Куок В. Ли. — «В отличие от традиционных подходов, которые произвольно масштабируют размеры сети, такие как ширина, глубина и разрешение, наш метод равномерно масштабирует каждое измерение с фиксированным набором коэффициентов масштабирования».

Так как это работает? Во-первых, выполняется поиск, чтобы определить взаимосвязь между различными масштабными измерениями базовой сети при фиксированном ограничении ресурсов (например, в два раза больше вычислений с плавающей запятой или FLOPS). Это определяет подходящий коэффициент масштабирования для каждого измерения, и эти коэффициенты применяются для масштабирования базовой сети до желаемого размера модели или вычислительных ограничений.

Сравнение различных методов масштабирования
Сравнение различных методов масштабирования

Для дальнейшего повышения производительности исследователи выступают за новую базовую сеть — мобильную инвертированную узкую горловину (MBConv), которая служит основой для семейства моделей EfficientNets.

В тестах EfficientNets продемонстрировал как более высокую точность, так и лучшую эффективность по сравнению с существующими CNN, уменьшив размер параметров и FLOPS на порядок. Одна из моделей — EfficientNet-B7, которая в 8,4 раза меньше и в 6,1 раза быстрее, чем высокопроизводительный CNN Gpipe, достигла 84,4% и 97,1% топ-1 и топ-5 точности в ImageNet соответственно. И по сравнению с популярной ResNet-50, другая EfficientNet — EfficientNet-B4 — использовала столько же FLOPS, одновременно улучшая точность топ-1 с 76,3% до 82,6% по сравнению с ResNet-50.

EfficientNets хорошо показал себя и на других наборах данных, достигнув большей точности в пяти из восьми примеров, включая CIFAR-100 (точность 91,7%) и Flowers (98,8%) с 21 параметром.

Сравнение размеров модели и точности
Сравнение размеров модели и точности

Исходный код и обучающие скрипты для облачных тензорных процессоров (TPU) Google находятся в свободном доступе на GitHub.

«Обеспечивая значительные улучшения эффективности модели, мы ожидаем, что EfficientNets потенциально может послужить новой основой для будущих задач компьютерного зрения», — написали Тан и Ли.

Поделиться с миром: