Нейросеть Google достраивает движение по первому и последнему кадру

Опубликовано at 31.05.2019
153 0

Нейросети прошли долгий путь с момента плагина DeepDream (2015), который познакомил широкие массы с этим понятием.

С тех пор нейросети научились диагностировать заболевания, автоматически удалять контент в тоталитарных странах вроде Китая, обучать своих цифровых собратьев обучаться (!), самостоятельно анимировать статичные изображения, улучшать качество старых видеозаписей и многому другому. А вот теперь искусственные мозги умеют еще и достраивать реальность, пока простенькую, в пределах однообразного действия, но будущее надвигается очень стремительно.

Новость, разумеется, пришла из недр исследовательского подразделения Google по работе с искусственным интеллектом, одного из немногих мест на планете, которое может себе позволить легально тратить космические мощности и десятки тысяч (ускоренных) машиночасов на тренировку нейросетей. Новый алгоритм компании умеет «дорисовывать» видеоряд на основе его первого и последнего кадров. ИИ состоит из трёх компонентов: декодер двумерного изображения конвертирует входные данные в специальный формат для анализа, генератор скрытого трёхмерного представления обучается на основе полученной информации, а видеогенератор декодирует полученную информацию в новые кадры будущего видео.

Чтобы проверить, чему нейросеть может самостоятельно научиться, разработчики устроили ИИ экзамен: сжали три набора кадров до разрешения 64×64 пикселя. Каждый образец содержал в общей сложности 16 кадров, 14 из которых предстояло создать искусственному интеллекту. Исследователи запускали алгоритм 100 раз для каждой пары исходных изображений, при этом обучение ИИ заняло около 5 дней с использованием видеокарты NVIDIA Tesla V100. В результате сгенерированные последовательности соответствовали заданным начальным и конечным кадрам и были похожи по стилю, да что там, неотличимы от кадров «реальности» (см. иллюстрацию).

В перспективе, по словам разработчиков, алгоритм может стать полезным инструментом для генерации видео на основе минимального набора вводной информации (интересно, кому могут понадобиться такие видео? почему-то на ум приходит запущенная в январе нейросеть-демиург, умеющая придумывать человеков)

АКБ напоминает, что в прошлом году Google разработала ИИ для прогноза летального исхода у тяжело больных. По сравнению с существующими методами диагностики точность Medical Brain пока не высока — +10%. Нейросеть оценивает пол, возраст, предыдущие диагнозы пациентов, результаты анализов и.т.д., всего 175 639 параметров. Другая, также прошлогодняя нейросеть, научилась с высокой точностью предугадывать диабетические осложнения.

Встречаются и более экзотические применения самообучающихся нейросетей: весной 2019 года компания Jigsaw (бывшая Google Ideas) выпустила расширение Tune для браузера Chrome, которое автоматически скрывает «токсичные» комментарии в социальных сетях. Для распознавания «токсичного» текста в Tune применяются те же модели машинного обучения, что и в Perspective AI — системе искусственного интеллекта, позволяющей блогерам и авторам каналов на YouTube и Twitter скрывать комментарии, которые алгоритмы сочтут оскорбительными.

Читайте также на АКБ про последние успехи ИИ в самых необычных областях применения:

…Да, это звучит совсем как киберпанк-фантастика, но тем не менее: эксперт заявляет, что одна из самых опасных тенденций киберпреступности наших дней – это создание «разумов роя», ботнетов, управляемых искусственным интеллектом. «По результатам анализа таких изощренных атак, как Hajime, Devil’s Ivy и Reaper, мы можем заявлять, что в будущем на смену ботнетам придут интеллектуальные скопления пораженных устройств – «роевые» сети. Это приведет к появлению более эффективных направлений атак. «Роевые» сети будут задействовать технологию самообучения в целях эффективного поражения уязвимых систем на беспрецедентном уровне».

…Вероятно, картинок постапокалипсиса, навязчиво лезущих из каждого первого фильма в кино недостаточно, чтобы убедить обывателя в реальности такой перспективы. Так что международная группа ученых из Канады, США и Шри-Ланки решила дать порулить ИИ и опубликовала доклад о том, как изменится жизнь человека через 50 лет в условиях глобального потепления. В смысле как она наглядно изменится, на основе открытых данных ИИ сгенерировал картинки, как через полвека будут выглядеть современные дома в ряде больших городов США, близких к водоемам (спойлер: они будут затоплены). Исторически сложилось так, что две трети всего человечества живет именно в прибрежных территориях.

…Система искусственного интеллекта под названием Spirit AI, о разработке которой рассказали представители корпорации Intel, уже способна следить за разговорами в текстовых чатах и форумах, выявляя и устраняя из них неподобающие выражения, к которым зачастую прибегают любители сетевых игр. Задача-максимум: научить ИИ фильтровать голосовое общение игроков в реалтайме. Это сложнее, чем может показаться, т.к. во внутриигровых чатах голос игрока смешивается с музыкой, звуковыми эффектами, голосами других игроков, а качество звука, как правило, невысокое — все это значительно затрудняет выделение речи и преобразование ее в текст для анализа. Остаются и этические вопросы относительно фильтрации речи, хотя их, как отмечают в Intel, придется решать уже разработчикам игр, желающим использовать эту технологию.

…Самый современный алгоритм NAS, недавно разработанный Google для работы на куче графических процессоров, потратил 48 000 GPU-часов для создания одной сверточной нейронной сети, которая используется для классификации изображений и задач обнаружения. У корпораций наподобие Google есть возможность параллельно запускать сотни графических процессоров и другого специализированного оборудования параллельно, но такие мощности недоступны для простых смертных.

Подписываемся, следим @CyberAgency

Related Post