Нейросеть поможет расшифровать древние языки

Опубликовано at 16:54
212 0

Еще одна действительно интересная перспектива применения нейросеток. Древние языки и памятники письменности, над которыми долго бились лингвисты (Фестский диск, рукопись Войнича и.т.д.), могут быть расшифрованы.

Основной проблемой при подходе к языкам с ограниченным количеством образцов применения всегда было отсутствие системы. Вернее, сколько применяется систем, столько получается и «расшифровок» (см. например самый яркий случай). А вот как определить правильность системы подхода? Тут и поможет нейросеть.

Исследователи из MIT и Google Brain объединились для создания алгоритма, который имеет шанс повторить подвиг Майкла Вентриса, который в 1950-е годы расшифровал одну из древних форм критского письма. Пока что нейросеть научилась читать угаритский, методично копируя типичные действия ученых-дешифровщиков.

Угаритский язык — мёртвый язык из семьи семитских языков — язык населения древнего Угарита. В 1929 г. в районе Рас-Шамра (Сирия) на развалинах древнего города Угарит было раскопано большое количество глиняных клинописных табличек.

На расшифровку знаменитого линейного письма Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., ушло 67 лет — и это несмотря на то, что язык критских текстов был одной из архаичных форм древнегреческого языка, хорошо известного ученым.

В эпоху Big Data можно (и нужно) попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.

Проект начался в 2010 году. Созданная тогда программа была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.

В новой программе 2019 года исследователи попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.

Сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.

Несмотря на принципиальное повышение сложности, результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках (проценты приведены для более сложных «шумных» экспериментов, в которых присутствовали слова, не имеющие когнатов).

Скармливать нейросети Фестский диск, наверное, еще рано, но когда-нибудь это произойдет, и тогда мы узнаем, существовал ли Минотавр на самом деле. Или что-нибудь не менее интересное.

Читайте также на АКБ о других недавних новостях про нейросети:

Нейросеть натренирует российские ПВО

Российская нейросеть будет автоматически чинить нефтепроводы

Нейросеть Facebook научилась читать мысли

Подписываемся, следим @CyberAgency

Related Post

Троян пишет отзывы от имени пользователя через режим ввода для инвалидов

Опубликовано - 13.01.2020 0
«Лаборатория Касперского» рассказала про новый Android-троян Shopper, который использует уязвимости в AccessibilityService. Троян эксплуатирует службу поддержки для людей с ограниченными…

В России запретили закупать зарубежные системы хранения данных

Опубликовано - 26.12.2019 0
Импортозамещение продолжается. Эта мера мера призвана помочь развитию российских производителей оборудования на государственном уровне. Премьер-министр РФ Дмитрий Медведев подписал постановление…

The Lazarus Group действует в духе современного каперства

Опубликовано - 19.12.2017 0
Печально известная северокорейская хакерская группа The Lazarus проводит очередную кампанию, нацеленную на руководителей криптовалютных организаций. Широкую известность группа приобрела благодаря…

Хакеры запустили вредоносную рекламу бота для трейдинга Gunbot

Опубликовано - 13.12.2017 0
Ориентированная на работающих с криптовалютами трейдеров фишинговая компания запущена в Сети. Киберпреступники распространяют рекламу бота Gunbot, предназначенного для торговли на…