Нейросеть поможет расшифровать древние языки

Опубликовано at 16:54
64 0

Еще одна действительно интересная перспектива применения нейросеток. Древние языки и памятники письменности, над которыми долго бились лингвисты (Фестский диск, рукопись Войнича и.т.д.), могут быть расшифрованы.

Основной проблемой при подходе к языкам с ограниченным количеством образцов применения всегда было отсутствие системы. Вернее, сколько применяется систем, столько получается и «расшифровок» (см. например самый яркий случай). А вот как определить правильность системы подхода? Тут и поможет нейросеть.

Исследователи из MIT и Google Brain объединились для создания алгоритма, который имеет шанс повторить подвиг Майкла Вентриса, который в 1950-е годы расшифровал одну из древних форм критского письма. Пока что нейросеть научилась читать угаритский, методично копируя типичные действия ученых-дешифровщиков.

Угаритский язык — мёртвый язык из семьи семитских языков — язык населения древнего Угарита. В 1929 г. в районе Рас-Шамра (Сирия) на развалинах древнего города Угарит было раскопано большое количество глиняных клинописных табличек.

На расшифровку знаменитого линейного письма Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., ушло 67 лет — и это несмотря на то, что язык критских текстов был одной из архаичных форм древнегреческого языка, хорошо известного ученым.

В эпоху Big Data можно (и нужно) попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.

Проект начался в 2010 году. Созданная тогда программа была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.

В новой программе 2019 года исследователи попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.

Сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.

Несмотря на принципиальное повышение сложности, результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках (проценты приведены для более сложных «шумных» экспериментов, в которых присутствовали слова, не имеющие когнатов).

Скармливать нейросети Фестский диск, наверное, еще рано, но когда-нибудь это произойдет, и тогда мы узнаем, существовал ли Минотавр на самом деле. Или что-нибудь не менее интересное.

Читайте также на АКБ о других недавних новостях про нейросети:

Нейросеть натренирует российские ПВО

Российская нейросеть будет автоматически чинить нефтепроводы

Нейросеть Facebook научилась читать мысли

Подписываемся, следим @CyberAgency

Related Post