Нейросеть Google с нуля научилась играть в Quake III и разгромила людей: но стала «лучшим напарником»

Опубликовано at 15:53
156 0

Очередной удивительный эксперимент от проекта Google DeepMind. ИИ «AlphaGo» впервые познакомился с командным шутером Quake III (ему не объяснили вообще ничего) и после череды тренировок сумел последовательно победить всех соперников-людей, от рядовых до профи. Поразительней всего, что ИИ сам досконально освоил правила через наблюдение и пробы и даже освоил кооперативный стиль «робот-человек» на уровне, превосходящем «человек-человек».

Испытания проходили в режиме игры «Захват флага» – это достаточно простой (для людей и пре-программированных ботов) соревновательный режим: у каждой команды есть некий маркер, расположенный на её базе, и цель состоит в том, чтобы захватить маркер соперников и успешно доставить его к себе.

Чтобы проверить способность к полевому обучению, ИИ с ходу поставили в самое невыгодное положение, подключив к игровому интерфейсу без интерпретации данных. То есть, ИИ видел движущиеся на экране пиксели и знал всего один критерий успеха – помещение флага в определенную точку пространства. Понятия «друг», «враг», «база», «оборона», «контратака», наличие в игре оружия и способы его использования – все это AlphaGo логически вывел, наблюдая за процессом.

«Никто не рассказал ИИ, как играть в эту игру, у него был только результат — победил ИИ своего противника или нет. Прелесть использования подобного подхода в том, что вы никогда не знаете, какое поведение возникнет при обучении агентов», – Макс Джадерберг, научный сотрудник DeepMind.

ИИ потребовалось 140 000 сеансов, чтобы методом проб и ошибок освоиться в игре на уровне обычного геймера. С одной стороны, это вроде бы много. С другой – и тут мы уже видим, как работает эволюция – произошел резкий скачок после 175 000 тренировок. ИИ начал стабильно обыгрывать профессиональных игроков.

После 400 000 сыгранных матчей AlphaGo стал непобедим: лучшая сыгранная пара геймеров, которые 12 часов изучали стиль AlphaGo, а во время состязания активно общались между собой, в итоге проиграли ему со счетом 1:4. Инженеры Google понизили точность стрельбы ИИ с 80 % до 50%, а время отклика растянули до 267 мс. AlphaGo все равно выиграл

В игре участвовала новая версия AlphaGo, с двойным уровнем «мышления»: аналитическим, для выработки стратегии, и практическим, для принятия сиюминутных решений. Первый ИИ применил, когда придумал, а потом забраковал несколько тактик, а при помощи второго создал собственные маркеры и детекторы важных объектов и событий в игре.

Теперь самое интересное. По результатам устроенного Google турнира почти сорок человек признали AlphaGo «лучшим напарником», чем игроки-люди. Что это значит? Лучшей с точки зрения эффективности комбинацией в игре «захват флага» стал дуэт человека и ИИ, причем они не контактировали между собой и не согласовывали свои действия. Оказалось, что ИИ проще подстраивать свою тактику под действия ведущего-человека, чем организовывать работу двух ИИ-игроков. Пока разница между парами составила всего 5%, но она налицо. Будущее – за роботами-напарниками!

До этого нейросеть от Google в различных версиях в рамках проекта DeepMind самостоятельно научилась ходить в виртуальной реальности, создавать дипфейки, неотличимые от реальных фото; ориентироваться на реальной местности без карты; диагностировать заболевания. Также нейросеть сходу разобралась с правилах и победила лучших человеческих игроков в целой куче игр различной сложности, от шахмат и го до сложных стратегических игр типа StarCraft II.

Кажется, Google вырастила чудовище.

Читайте также на АКБ про другие чудеса из мира нейросетей:

В MIT представили новую интригующую разработку: по небольшому отрывку человеческого голоса нейросеть воссоздает облик говорящего. И делает это с высокой точностью!

Исследователи из Брауновского университета в США создали робота, который умеет писать на неизвестных ему языках, методом обучения через подражание. А еще он скопировал Мону Лизу.

DeepFake как реальность нам обеспечит запущенная в январе нейросеть-демиург, умеющая придумывать человеков.

…Да, это звучит совсем как киберпанк-фантастика, но тем не менее: эксперт заявляет, что одна из самых опасных тенденций киберпреступности наших дней – это создание «разумов роя», ботнетов, управляемых искусственным интеллектом.

…Международная группа ученых из Канады, США и Шри-Ланки решила дать порулить ИИ и опубликовала доклад о том, как изменится жизнь человека через 50 лет в условиях глобального потепления.  На основе открытых данных ИИ сгенерировал картинки, как через полвека будут выглядеть современные дома в ряде больших городов США, близких к водоемам (спойлер: они будут затоплены). Исторически сложилось так, что две трети всего человечества живет именно в прибрежных территориях.

Подписываемся, следим @CyberAgency

Related Post

Перехват в воздухе: новая атака записывает голос из динамика смартфона

Опубликовано - 18.07.2019 0
Нетривиальный метод атаки через шпионаж за динамиком посредством акселерометра предложили эксперты по кибербезопасности. Разработанный ими джеймсбондовский метод позволяет вредоносным приложениям…