AnCora

AnCora es un corpus del catalán (AnCora-CA) y del español (AnCora-ES) con diferentes niveles de anotación:

  • lema y categoría morfológica
  • constituyentes y funciones sintácticas
  • estructura argumental y papeles temáticos
  • clase semántica verbal
  • tipo denotativo de los nombres deverbales
  • sentidos de WordNet nominales
  • entidades nombradas
  • relaciones de correferencia

El corpus de cada lengua contiene 500.000 paraules y están constituidos fundamentalmente por textos periodísticos. Para más información, véase el documento AnCora-corpus.

Como resultado del proceso de anotación se dispone también de dos léxicos verbales, AnCora-Verb, de 2.647 entradas para el español y 2.143 entradas para el catalán, y de un léxico de nominalizaciones deverbales, AnCora-Nom, de 1.600 entradas para el español.

Deja un comentario

Debes indicar tu nombre en el mensaje para que se publique tu comentario.

Plain text

  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd> <div> <br> <p><img> <u>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.