Задача навигации является одной из основных задач для интеллектуальных агентов. Для эффективного взаимодействия с человеком робот должен понимать сложные текстовые инструкции, сформулированные на естественном языке, и мочь доезжать до любого объекта по его текстовому описанию. На семинаре аспирантка нашего Центра расскажет о различных представлениях сцен и особенностях их использования при решении задачи навигации. В частности, рассмотрит методы навигации на основе 3D карт знаний и последовательностей изображений. Наконец, будет рассмотрена разработанная командой Центра модель OVSegDT — лёгкая трансформерная VLA архитектура, позволяющая осуществлять навигацию до объектов, чья категория задана текстом.
Hide player controls
Hide resume playing