SISTEMA PARA COMPILACIÓN AUTOMÁTICA DE CORPUS COMPARABLES

Resumen:
Las aplicaciones de procesamiento del lenguaje natural (PLN) incluyen la extracción de conocimiento léxico, la gestión y el procesamiento de la terminología, la traducción por ordenador, la recuperación de información, etc. El uso de corpus forma parte de la arquitectura de los sistemas de traducción automática, traducción asistida por ordenador y demás aplicaciones de PLN, tales como la extracción de terminología o la recuperación de la información, entre otras. Hoy día los corpus comparables se erigen como una magnífica alternativa al uso de corpus paralelos (colecciones de textos originales y sus traducciones), los cuales suelen escasear y no estar actualizados. Ahora bien, hasta el momento la investigación se ha centrado en cómo explotar dichos corpus comparables, pero no en cómo compilarlos de forma automatizada y efectiva. Generalmente, los corpus comparables se compilan de forma manual, lo cual es un proceso largo, tedioso y poco preciso. Así, la presente invención permite la selección y la compilación automáticas de textos en base a criterios como la comparación de palabras clave, la aparición de sinónimos, la fecha de publicación, el tamaño, etc., proporcionando buenos resultados en la selección de textos y evitando la ambigüedad léxica propia de los sistemas que utilizan diccionarios para la traducción.
Ventajas competitivas:
Entre las ventajas de la presente invención destacan:
• Se trata de un sistema muy eficaz.
• Permite la extracción de distintos corpus de la Red Internet de forma automática y con buenos resultados.
Usos y aplicaciones: La presente invención se dirige a los sistemas que permiten la compilación automática de corpus comparables.
Etiquetas: corpus, traducción
Sectores : TIC, Transporte, Turismo, Cultura y Educación
Áreas : Software / Procedimientos, Métodos, Sistema de reconocimiento y detección, Educación
Titulares: Universidad de Málaga, UNIVERSITY OF WOLVERHAMPTON
Inventores: Gloria Corpas Pastor, Ruslan Mitkov , Manuela Yapomo Domkem
Fecha de prioridad: 27/12/2011. Faltan: 0 minutos. Ver patentes con fecha de prioridad cercana >>
Nivel de protección: Nacional (España)
Estado de tramitación: Solicitud de protección a nivel nacional (España) en período de prioridad




