Вештачката интелигенција без проблем преведува писмо и јазик стари 5.000 години

Мултидисциплинарен тим од археолози и компјутерски научници разви вештачка интелигенција која може скоро веднаш да преведе акадски и да го отклучи историскиот запис зачуван на овие 5.000 години стари таблети.

Акадскиот бил мајчин јазик на Акадското Царство, кое настанало околу 2.300 п.н.е. преку освојувањата на нејзиниот основач, Саргон Велики. Како говорен јазик, акадскиот на крајот ќе се подели на асирски и вавилонски дијалекти пред да биде целосно заменет од арамејскиот во почетокот на првиот милениум п.н.е. Денес тој е навистина изумрен јазик, без јазици кои ќе го продолжат неговото наследство.

Како писмен јазик, сепак, акадскиот се покажал поиздржлив. Империјата го позајмила клинестото писмо на својот претходник, сумерската цивилизација. Овој систем за пишување користел игла од трска за да ги притисне клиновите хиероглифи во влажни глинени плочки пред да пука (оттука и името клинесто писмо). Дури и откако арамејскиот го замени акадскиот како заеднички јазик во регионот, научниците продолжија да пишуваат на акадски клинесто писмо во првиот век од нашата ера, дури и во антиката, се чини, академските научници биле неверојатно тврдоглави.

Овој традиционален начин на размислување, исто така, имаше ненамерна корист за современите археолози. Додека клинестото писмо можело да се пишува на папирус, почесто се пишувало на глина или камен. Овие материјали многу подобро издржуваат пожари и поплави од другите материјали.

„Иронично, разорните пожари ги зачуваа некои од најголемите библиотеки на античка Месопотамија, бидејќи беа направени од глина. Спротивно на тоа, сите папирусни библиотеки на древниот Египет изгореа или се распаднаа во прашина, иако многу поединечни кодекси преживеаја“, пишува лингвистот Стивен Роџер Фишер во „Историја на пишувањето“.

Дури и со такво лингвистичко богатство, правилното преведување на овие антички текстови не е мала работа. Освен веќе споменатите предизвици, акадскиот јазик е поливалентен. Односно, неговите клинесто писмо може да имаат неколку различни читања, во зависност од тоа како функционира секој во реченицата. Постојат многу причини за овој развој, но според Фишер, една од причините зошто Акадијанците никогаш не ја поедноставиле е тоа што тие „се чинеше дека се обврзани со традицијата и самонаметнатата ефикасност“. Овој традиционален начин на размислување ги наведе да продолжат да го користат сумерското писмо за јазик кој е многу различен од сумерскиот.

Како таков, преведувањето на акадски е процес во два чекора. Прво, научниците мора да ги транслитерираат знаците со клинесто писмо. Односно, тие го земаат клинестото писмо и го транскрибираат користејќи слична фонетика на целниот јазик. Потоа, научниците ја земаат нивната транслитерација на текстот и ја преведуваат на современ јазик.

Тоа може да биде долг и напорен процес, кој бара години обука и посветеност за да научите да правите добро. За да ги забрза работите, истражувачкиот тим разви модел на невронски машински превод за акадски клинесто писмо, истата технологија што ја користи Google Translate.

Тимот обучи модел на вештачка интелигенција на примерок од текстови со клинесто писмо од Open Richly Annotated Cuneiform Corpus и го научи да преведува на два различни начини. Прво, моделот на вештачка интелигенција научи да преведува акадски од транслитерации на оригиналните текстови. Тој исто така научил како директно да ги преведува симболите со клинесто писмо. Поточно, ги преведе на Уникод клинесто писмо генерирани од друга алатка за заштеда на време која автоматски произведува Уникод од оригиналната слика на таблата.

Моделот на вештачка интелигенција потоа мораше да открие како да се справи со нијансите на различни жанрови на примероци, на пример, разликата помеѓу литературните дела и административните букви, како и како да се справи со промените пронајдени во клинесто писмо во текот на илјадници употреби. Моделот за вештачка интелигенција потоа беше тестиран со помош на Двојазична евалуација Субстудија 4 (BLEU4), алгоритам што се користи за оценување на машински преведен текст.

Во тестот за транслитерација на англиски јазик, моделот со вештачка интелигенција на тимот постигна 37,47 поени. На тестот за англиски клинесто писмо тој постигна 36,52. Двата резултати беа над целната основна линија и во опсегот на висококвалитетен превод. И имаше изненадувачки резултат: моделот беше во можност да ги репродуцира нијансите на жанрот на секоја тест реченица. Иако ова не беше една од целите на истражувачите, тие забележуваат во студијата дека тоа може да отвори можности за употреба надвор од преводот.

Речиси во секој случај, без разлика дали [преводот] е точен или не, жанрот е препознатлив“, пишува тимот. „Едно ветувачко идно сценарио би било [моделот] да му покаже на корисникот листа на извори на кои ги базирале своите преводи, што исто така би било особено корисно за научни цели.

Тимот ги објави своите резултати во рецензираното списание PNAS Nexus. Тие, исто така, го објавија своето истражување и изворниот код на GitHub во Akkademia.

Иднината на минатото изгледа посветла

Колку и да се ветувачки првичните резултати, има уште работа да се заврши. Во двата случаи, некои од тест речениците беа погрешно преведени. Како и другите модели со вештачка интелигенција, така и овој е склон на халуцинации, моменти кога одговорот нема врска со изворот.

Во еден случај, човечкиот преведувач ја изнесе реченицата „Зошто треба (исто така) да водиме судски спор пред човекот на Либи-Али? Преводот на вештачката интелигенција беше „Тие се во внатрешниот град во внатрешниот град“.

Генерално, моделот со вештачка интелигенција најдобро функционира кога се преведуваат кратки до средно долги реченици. Тој, исто така, подобро се справува со повеќе формулаични жанрови, како што се кралските декрети и административни записи, отколку со литературните жанрови како што се митови, химни и пророштва.

Со поголема обука за поголем сет на податоци, истражувачите забележуваат во студијата, тие имаат за цел да ја подобрат нивната точност. Со текот на времето, тие се надеваат дека нивниот модел со вештачка интелигенција ќе може да дејствува како виртуелен асистент на научниците. ВИ може брзо да обезбеди необработен превод, додека научникот може да го подобри со своето познавање на историските јазици, култури и луѓе.

Стотици илјади глинени плочи напишани со клинесто писмо ја документираат политичката, социјалната, економската и научната историја на античка Месопотамија. Сепак, повеќето од овие документи остануваат непреведени и недостапни поради нивниот огромен број и ограничениот број на експерти кои можат да ги читаат“, пишува тимот во студијата, пишува Bigthink.com.