Вы будете смеяться но у нас новый видеогенератор. Амазон природоткрыл веки и бахнул анонс своего нового семейства моделей Nova. Все написали про LLM, а про картинки и видео позабыли. А между тем, амбиции такие: Amazon Nova Canvas - это современная модель генерации изображений, которая создает изображения профессионального уровня из текста или изображений, предоставленных в подсказках. Amazon Nova Canvas также предоставляет функции, облегчающие редактирование изображений с помощью текстового ввода, а также элементы управления для настройки цветовой схемы и макета. Amazon Nova Canvas превосходит такие генераторы изображений, как OpenAI DALL-E 3 и Stable Diffusion, по результатам сравнительной оценки, проведенной третьей стороной, а также по ключевым автоматизированным показателям. Amazon Nova Reel - это современная модель для создания видео, которая позволяет клиентам легко создавать высококачественное видео из текста и изображений. Она идеально подходит для создания контента в сфере рекламы, маркетинга или обучения. Клиенты могут использовать подсказки на естественном языке для управления визуальным стилем и темпом, включая движение камеры, поворот и масштабирование. Amazon Nova Reel превосходит аналогичные модели по качеству и согласованности, согласно оценкам, проведенным третьей стороной, которая отдала предпочтение видео, созданным Amazon Nova Reel, по сравнению с видео, созданными Runway’s Gen-3 Alpha. В настоящее время Amazon Nova Reel генерирует шестисекундные видеоролики, а в ближайшие месяцы будет поддерживать создание видео длительностью до двух минут. Все это уже доступно в Amazon Bedrock, подсобрал для вас примеров. На видео с дрона выше: AWS_REGION = “us-east-1“ MODEL_ID = ““ SLEEP_TIME = 30 input_image_path = ““ video_prompt = “drone view flying over a coastal landscape“ Но самое интересное, что в 2025 году они готовят модель типа “всё-во-всё“. Трушная мультимодальность. В 2025 году мы представим две дополнительные модели Amazon Nova, включая модель преобразования речи в речь и нативную модель преобразования мультимодальности в мультимодальность, или “любой в любой“. Модель “речь в речь“ будет понимать потоковую речь на естественном языке, интерпретировать вербальные и невербальные сигналы (например, тон и каденцию) и обеспечивать естественное человекоподобное взаимодействие, а модель “всё-во-всё“ сможет обрабатывать текст, изображения, аудио и видео, как на входе, так и на выходе. Это упростит разработку приложений, в которых одна и та же модель может использоваться для выполнения широкого спектра задач, таких как перевод контента из одной модальности в другую, редактирование контента и обеспечение работы агентов ИИ, способных понимать и генерировать информацию во всех модальностях. Наиболее подробно тут:
Hide player controls
Hide resume playing