El etiquetado gramatical o POS Tagging

El POS tagging o etiquetado gramatical

En lingüística computacional el etiquetado gramatical o POS (Part Of Speech) tagging  se define como el proceso de asignar a cada una de las palabras de un texto una categoría gramatical. Las categorías gramaticales son de gran utilidad por la gran cantidad de información que aportan acerca de una palabra. Es fundamental saber si una palabra es un verbo o un nombre para poder interpretarla y conocer las palabras que están junto a ella.

Realizar un etiquetado gramatical correcto no es una tarea fácil, debido a que hay palabras que a su vez pueden ser nombre o verbo, como por ejemplo la palabras “hecho” o “dado” que, dependiendo del contexto, pueden hacer referencia a un nombre o a un verbo.

Para reducir esa ambigüedad se pueden usar diferentes métodos. A lo largo de los años, se ha recurrido a extensos corpus de texto como el British National Corpus o el Brown Corpus, que están formado por millones de palabras etiquetadas y de las que se pueden deducir normas de aprendizaje para el etiquetado de palabras. Gracias a estos corpus de texto se han podido crear normas y reglas, por ejemplo la que indica que un verbo deja de tener función de predicado cuando va precedido de un artículo.

Actualmente se emplean algoritmos de autoaprendizaje que sobreentienden las normas de los corpus de texto de una manera automática y las utilizan para definir otras funciones de palabras.

Para enseñar a los ordenadores a entender el lenguaje natural cada vez mejor es necesario contar con lingüistas computacionales, que se sirven de las diferentes áreas de la lingüística:

  • La morfología consiste en determinar la función de cada palabra por separado.
  • La sintaxis define el modo en que las palabras se unen para formar frases.
  • La semántica hace referencia tanto al significado de las palabras como al de los grupos de palabras.
  • La pragmática se hace eco del contexto en el que se llevan a cabo las locuciones lingüísticas.
  • La fonología se ocupa de la estructura fonética del lenguaje hablado y es fundamental para el reconocimiento de voz.

El etiquetado gramatical o pos tagging

Nuestro departamento de I+D+i está trabajando para conseguir que nuestra solución Myles pueda entender las palabras (nombres, verbos, adjetivos…) del usuario y pueda clasificarlas de forma fiable y eficiente.

El etiquetado gramatical o POS tagging es el primero paso en el Natural Language Processing, es la base común a todos los métodos de procesamiento del lenguaje natural, independientemente de si se trata de una traducción automática o de la interacción con un bot conversacional.

Por ese motivo, desde Zontisa consideramos fundamental invertir en nuestro departamento de I+D+i para desarrollar un sistema de POS tagging que garantice un correcto etiquetado del lenguaje que nos sirva de base para, posteriormente, poder desarrollar todas nuestras soluciones.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *