Este repositorio contiene el trabajo desarrollado para el Proyecto de Grado Construcción de Recursos para Traducción automática Guaraní-Español. Varios de estos recursos fueron presentados en el artículo Experiments on a Guarani Corpus of News and Social Media y Can We Use Word Embeddings for Enhancing Guarani-Spanish Machine Translation?.
Contenidos:
- Dentro de
Testsse encuentran tests intrínsecos para el guaranícapital-common-countries_gnyfamily_gnson tests de analogías.MC30_gnes un test de similaridad.
- Dentro de
ParallelSetse encuentran dos versiones del conjunto paralelo de noticias construido durante el proyecto. - Dentro de
Tweetsse encuentran tres versiones del conjunto de tweets construido durante el proyecto. - Dentro de
WordEmbeddingsse encuentran algunos modelos entrenados con Word2Vec, utilizando el algoritmo c-bow. - Dentro de
MachineTranslationse encuentran dos modelos entrenados usando OpenNMT. Uno traduce desde el guaraní al español y otro en sentido opuesto. gn_frequent_words.csves una lista de palabras frecuentes de guaraní curada manualmente. La revisión se hizo solamente para aquellas de frecuencia 10 o superior.
Autores:
Tutor: Luis Chiruzzo
If you use some of these resources, please cite:
@inproceedings{gongora-etal-2021-experiments,
title = "Experiments on a {G}uarani Corpus of News and Social Media",
author = "G{\'o}ngora, Santiago and
Giossa, Nicol{\'a}s and
Chiruzzo, Luis",
booktitle = "Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.americasnlp-1.16",
doi = "10.18653/v1/2021.americasnlp-1.16",
pages = "153--158",
}
or
@inproceedings{gongora-etal-2022-use,
title = "Can We Use Word Embeddings for Enhancing {G}uarani-{S}panish Machine Translation?",
author = "G{\'o}ngora, Santiago and
Giossa, Nicol{\'a}s and
Chiruzzo, Luis",
booktitle = "Proceedings of the Fifth Workshop on the Use of Computational Methods in the Study of Endangered Languages",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.computel-1.16",
doi = "10.18653/v1/2022.computel-1.16",
pages = "127--132",
}