AnCora
Etiquetas:
AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) con diferentes niveles de anotación:
- lema y categoría morfológica
- constituyentes y funciones sintácticas
- estructura argumental y papeles temáticos
- clase semántica verbal
- tipo denotativo de los nombres deverbales
- sentidos de WordNet nominales
- entidades nombradas
- relaciones de correferencia
El corpus de cada lengua contiene 500.000 paraules y están constituidos fundamentalmente por textos periodísticos. Para más información, véase el documento AnCora-corpus.
Como resultado del proceso de anotación se dispone también de dos léxicos verbales, AnCora-Verb, de 2.647 entradas para el español y 2.143 entradas para el catalán, y de un léxico de nominalizaciones deverbales, AnCora-Nom, de 1.600 entradas para el español.
Deja un comentario