Cada año se descubren más textos antiguos en todo el Cercano Oriente en ambos idiomas hebreo y arameo. Analizar estos textos es extremadamente importante para los investigadores que estudian la cultura e historia de la región.
Dado que muchas de estas inscripciones se han dañado con el tiempo debido a terremotos, incendios, conflictos políticos y otras causas naturales y humanas, los epigrafistas, expertos responsables de reconstruir, traducir y fechar inscripciones y encontrar cualquier circunstancia relevante, han utilizado hasta ahora procedimientos manuales que consumen mucho tiempo para estimar el contenido faltante. Esto ha sido un desafío importante en la reconstrucción de las partes faltantes de estos valiosos escritos.
Ahora, los estudiantes del departamento de ingeniería de software y sistemas de información de la Universidad Ben-Gurion del Néguev (BGU) en Beerseba han abordado este desafío como una tarea extendida de modelado de lenguaje enmascarado donde el contenido dañado puede comprender caracteres individuales, n-gramas de caracteres (palabras parciales), palabras completas individuales y n-gramas de varias palabras.
Este estudio es el primer intento de aplicar el enfoque de modelado de lenguaje enmascarado a inscripciones corruptas en hebreo y arameo, ambos utilizando el alfabeto hebreo que consiste principalmente en símbolos consonánticos.
En su proyecto final bajo la supervisión del Prof. Mark Last; y los estudiantes de cuarto año Niv Fono, Harel Moshayof, Eldar Karol e Itay Asraf aplicaron el enfoque de modelado de lenguaje enmascarado a inscripciones corruptas en hebreo y arameo.
Su modelo, llamado "Embible", fue destacado en la última reunión del Capítulo Europeo de la Asociación de Lingüística Computacional el mes pasado. Publicaron sus hallazgos en la revista ACL Anthology bajo el título "Embible: Reconstrucción de textos antiguos en hebreo y arameo utilizando transformers".
El sistema analizó miles de oraciones de la Biblia Judía
Los estudiantes entrenaron al sistema con 22,144 oraciones de la Biblia Hebrea. El sistema fue probado con otras 536 oraciones con un éxito significativo. Un conjunto de modelos de predicción de palabras y caracteres tuvo la mayor precisión.
"Podemos ayudar a los historiadores que han dedicado sus vidas a recrear estos textos antiguos de la manera más precisa posible", concluyó. Por último, "Además, creo que el modelo se puede extender para abarcar otras lenguas antiguas ricas morfológicamente".