Новый рубеж Deep Fake: можно заставить человека в реальном видео говорить все что угодно

Опубликовано 18.06.2019 at 15:56 | admin

Нейросети уже умеют очень многое, например, создавать с нуля несуществующих людей. Гораздо более важным с точки зрения политики, впрочем, остается, незаметное внедрение в реальное видео, например, речь президента, слов и фраз, которые то не говорил. В нынешней геополитической обстановке, прежде, чем эксперты разберутся, что произошло, может подняться радиоактивный пепел.

Зачем, спрашивается, создавать такие дип фейки? Кроме, конечно, святого обоснования «because we can»? Вы не поверите, но у технологии есть свое сухое, капиталистическое применение (пусть и для отвода глаз): официально новая разработка Adobe Research, в сотрудничестве с учеными из Стенфорда и Института Макса Планка преследует цель минимизировать затраты времени и съемок видео за счет применения дипфейка. Т.е. его помощью можно вложить в уста человека на записанном видео какой угодно текст так, как если бы он реально его озвучил, а не записывать десятки неудачных дублей при реальных съемках. И сэкономить пару тыщ баксов!

АКБ напоминает, что совсем недавно, в мае, в американском политическом секторе Facebook разразился скандал. Видео с речью представительницы партии Демократов и персональной оппонентки Трампа, госпожи Нэнси Пэлоси (на минуточку, спикер Палаты представителей Конгресса это третий человек в США) неизвестные искусственно замедлили, так, чтобы Пэлоси казалась пьяной и вбросили в Facebook. Facebook признал запись фейком (после того, как ее посмотрели 2,7 млн раз и 50 тысяч раз репостнули), и…оставил ролик дальше распространяться в соцсети. Прошел всего месяц с Пэлоси-инцидента, но технология уже ушла далеко вперед.

Для обучения нейросети нужно не менее 40 минут оригинального видео со стенограммой того, что озвучивает диктор. Программа изучает его мимику, сопоставляет фрагменты текста с движениями мышц и строит трехмерную модель «говорящей головы». Затем дело за малым – составить последовательность жестов под новый текст, сгенерировать нужные текстуры и наложить их на модель.

По словам разработчиков, в этой системе применяется технология машинного обучения Neural Rendering, которая ответственна за фотореалистичное изображение. Для добавления звука в видео нужен дополнительный модуль, например, сервис VoCo, который работает по схожей схеме.

Любопытно также, что разработка предназначена (как в итоге проговариваются создатели)…для предотвращения fake news на выборах президента США в 2020-ом. Дескать, все ознакомятся с тем, как это работает, и выработают иммунитет к потенциально фейковым инфоповодам! Звучит невероятно наивно, если честно.

Диджитал фейк-кампании, доступных сейчас, о которых АКБ писало за последний год:

Можно, например, просто создать с нуля несуществующего человека. Для виртуальной реальности технически уже все готово. Цирцея, запускаем свиней!

Можно писать новости с помощью нейросети, и они будут фейковые, но крайне убедительные . И могут происходить хоть в Средиземье, хоть на Уолл-Стрит.

Можно выстраивать многомиллионные мошеннические схемы, которые можно объединить под зонтиком термина Fake Ads . Реклама крутится для никого, а денежки капают.