Объяснение причин сходимости и (в особенности) генерализации нейронных сетей при их обучении методом (возможно стохастического) градиентного спуска — одна из наиболее фундаментальных открытых проблем в области математических основ ИИ. Оба феномена вполне проявляются уже для простейшей возможной архитектуры: вполне связные ReLU схемы глубины 2, и уже для этого случая удовлетворительное объяснение в настоящий момент отсутствует. В докладе будет дан (заведомо неполный) обзор некоторых частичных результатов в этом направлении. Презентация: Разборов Александр Александрович — член-корреспондент РАН, доктор физико-математических наук. Семинар «Математические основы искусственного интеллекта» г. Москва, МИАН, 19 июня 2024 г.
Hide player controls
Hide resume playing