Vid2Vid Cameo от Nvidia приносит «говорящие головы» в видеоконференцсвязь

Какое место занимает ваш бизнес на кривой внедрения ИИ? Возьми наш Опрос AI выяснить.


Сегодня Nvidia прекратила выпуск Vid2Vid Cameo, модели искусственного интеллекта, которая использует генеративные состязательные сети (GAN) для создания реалистичных «говорящих» видео с одной фотографией человека. Компания утверждает, что Vid2Vid Cameo, который скоро будет доступен в SDK видеокодеков Nvidia и SDK Nvidia Maxine как «AI Face Codec», обеспечивает высочайшую производительность, отчасти благодаря 180000 качественных обучающих видеоданных.

«Многие люди имеют ограниченную пропускную способность интернета, но по-прежнему хотят беспрепятственно общаться по видеосвязи с друзьями и семьей», — сказал в пресс-релизе исследователь Nvidia Мин-Ю Лю. «Помимо помощи, базовые технологии могут также использоваться в качестве аниматоров, фоторедакторов и разработчиков игр».

Vid2Vid Cameo, который был впервые продемонстрирован в октябре прошлого года, был разработан для приложений видеоконференцсвязи и требует только изображения одного человека и видеопотока, определяющего способ анимации изображения. Система определяет 20 ключевых точек, которые кодируют расположение элементов, включая глаза, рот и нос, и автоматически извлекает эти точки из эталонного изображения. Заработанные баллы можно предварительно отправить другим участникам видеоконференции или повторно использовать с предыдущих встреч. На стороне получателя GAN нажимает на эту информацию и генерирует видео, которое имитирует внешний вид исходного изображения.

Максин и ГАН

Vid2Vid Cameo — результат работы Nvidia Максин, платформа, которая предоставляет разработчикам набор программного обеспечения для видеоконференцсвязи с ускорением AI на GPU для повышения качества видео. Nvidia заявляет, что Maxine «резко» сокращает полосу пропускания, необходимую для видеоконференцсвязи с использованием GAN, включая Vid2Vid Cameo. Вместо потоковой передачи полноэкранных пикселей платформа анализирует лицевые точки каждого человека во время разговора, а затем алгоритмически реанимирует лицо на видео с другой стороны.

Еще одна особенность Maxine — это отражатель лица, который позволяет автоматически настраивать лица, чтобы участники во время разговора смотрели друг на друга. Коррекция зрения помогает имитировать зрительный контакт, даже если камера не совмещена с экраном пользователя. Автоматический снимок позволяет наблюдать за видео говорящим, когда он удаляется от экрана. А разработчики могут позволить вызывающим абонентам выбирать свои собственные аватары, анимация которых автоматически управляется их голосом и тоном.

GAN — двухкомпонентные модели, состоящие из генератор который создает образцы и дискриминатор попытки отличить эти образцы от реальных образцов — показали впечатляющие результаты в синтезе сред. Самые мощные сети GAN могут создать реалистичные портреты например, несуществующие люди или их изображения фиктивные многоквартирные дома.

Но хотя у GAN есть приложения в сфере развлечений и видеоконференцсвязи, они также были созданы. дезинформация а также фальшивые аккаунты. Исторически они также исполняли предвзятость против определенных групп людей, особенно с темной кожей. На этом последнем этапе Nvidia сообщила VentureBeat v. предыдущее заявление что его исследовательская группа «уделяла пристальное внимание» «расовому, гендерному, возрастному и культурному разнообразию» при разработке функций искусственного интеллекта в Maxine для приложений видеоконференцсвязи.

VentureBeat

Миссия VentureBeat — быть цифровым квадратом для технических специалистов, которые получают знания о технологиях трансформации и транзакциях. На нашем веб-сайте представлена ​​основная информация о технологиях и стратегиях обработки данных, которые помогут вам руководить своей организацией. Мы приглашаем вас стать членом нашего сообщества, чтобы получить доступ к:

  • актуальная информация по интересующим вас темам
  • наши информационные бюллетени
  • закрытые идеи лидеров контента и доступ со скидкой к нашим ценным мероприятиям, таким как Трансформация 2021: Больше информации
  • сетевые функции и многое другое

Стать членом

[

]

Add a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *