Данный доклад сделан на семинаре “Нейронные сети“ кафедры МаТИС НГУ 22 декабря 2023 года. В докладе предлагается архитектура мультимодального диалогового агента “Менон“, разработанного для участия в соревновании на лучший алгоритм “сильного ИИ“ в рамках конференции AI Journey 2023. Вместо “классической“ схемы с обучением проекционных слоёв для встраивания “замороженных“ кодировщиков модальностей в “замороженную“ языковую модель предлагается альтернативный подход к построению мультимодальной нейросети, ключевым элементом которого является кросс-модальный RAG в духе платоновского “распознавания через припоминание“. Обсуждаются сильные и слабые стороны такого подхода. Телеграм-бот, в котором можно пообщаться с “Меноном“:
Hide player controls
Hide resume playing