Нейросеть воссоздает лицо человека по голосу

Опубликовано at 14:35
210 0

Успехи ИИ стремительно минуют новые верстовые столбы не по дням, а по часам. В MIT представили новую интригующую разработку: по небольшому отрывку человеческого голоса нейросеть воссоздает облик говорящего. И делает это с высокой точностью!

Разработка, точное использование алгоритмов в которой пока не раскрывается, получила название Speech2Face и пока носит чисто научный характер, ее распространение ограничивается академическими кругами. Формально, речь идет о еще одной разновидности генеративно-состязательных нейросетей, которая методом проб и ошибок подбирает параметры внешности человека на основе голосовых данных (результаты, однако, очевидно слишком хороши для такой формулировки):

Система, судя по изображениям, на основе голоса определяет не только пол и возраст человека, но и цвет его кожи (различия в голосах представителей разных рас очевидны на слух, но все же очень интересна конкретика, как нейросеть делает ЭТО).

Перспективы подобной системы в правоохранительной практике, очевидно, неизмеримы (воссоздать фоторобот террориста по его звуковому сообщению в Telegram – уже дело сегодняшнего дня!)

Разработчики, впрочем, декларируют опасения, что некто захочет воспользоваться «сырой» технологией в корыстных целях (генерация дипфейков?).

Читайте также на АКБ про другие последние успехи ИИ:

Исследователи из Брауновского университета в США создали робота, который умеет писать на неизвестных ему языках, методом обучения через подражание. А еще он скопировал Мону Лизу.

DeepFake как реальность нам обеспечит запущенная в январе нейросеть-демиург, умеющая придумывать человеков.

…Новость, разумеется, пришла из недр исследовательского подразделения Google по работе с искусственным интеллектом, одного из немногих мест на планете, которое может себе позволить легально тратить космические мощности и десятки тысяч (ускоренных) машиночасов на тренировку нейросетей. Новый алгоритм компании умеет «дорисовывать» видеоряд на основе его первого и последнего кадров. ИИ состоит из трёх компонентов: декодер двумерного изображения конвертирует входные данные в специальный формат для анализа, генератор скрытого трёхмерного представления обучается на основе полученной информации, а видеогенератор декодирует полученную информацию в новые кадры будущего видео.

…Да, это звучит совсем как киберпанк-фантастика, но тем не менее: эксперт заявляет, что одна из самых опасных тенденций киберпреступности наших дней – это создание «разумов роя», ботнетов, управляемых искусственным интеллектом. «По результатам анализа таких изощренных атак, как Hajime, Devil’s Ivy и Reaper, мы можем заявлять, что в будущем на смену ботнетам придут интеллектуальные скопления пораженных устройств – «роевые» сети. Это приведет к появлению более эффективных направлений атак. «Роевые» сети будут задействовать технологию самообучения в целях эффективного поражения уязвимых систем на беспрецедентном уровне».

…Международная группа ученых из Канады, США и Шри-Ланки решила дать порулить ИИ и опубликовала доклад о том, как изменится жизнь человека через 50 лет в условиях глобального потепления. В смысле как она наглядно изменится, на основе открытых данных ИИ сгенерировал картинки, как через полвека будут выглядеть современные дома в ряде больших городов США, близких к водоемам (спойлер: они будут затоплены). Исторически сложилось так, что две трети всего человечества живет именно в прибрежных территориях.

…Система искусственного интеллекта под названием Spirit AI, о разработке которой рассказали представители корпорации Intel, уже способна следить за разговорами в текстовых чатах и форумах, выявляя и устраняя из них неподобающие выражения, к которым зачастую прибегают любители сетевых игр. Задача-максимум: научить ИИ фильтровать голосовое общение игроков в реалтайме.

Подписываемся, следим @CyberAgency

Related Post