El projecte CECA

(Corpus escrit de català)(1)

M. Teresa Cabré, Lluís de Yzaguirre i Mercè Lorente

(Universitat Pompeu Fabra)

1. Presentació

El CECA, subcorpus escrit del CUB (Corpus de la Universitat de Barcelona) dirigit pels professors M. Teresa Cabré, Mercè Lorente i Lluís de Yzaguirre, es va dissenyar tenint en compte que els materials constituïts per altres organismes, com l'Institut d'Estudis Catalans, no permetien de dur a terme algunes aplicacions científiques que es preveu de realitzar amb aquests materials, específicament estudis sobre neologia catalana i en contrast amb altres llengües, i anàlisi del text periodístic.

Amb aquesta idea, es va preveure de constituir inicialment un doble arxiu de premsa escrita:

  1. L'arxiu CEDICA, integrat per premsa catalana, que havia d'incloure premsa de tres subarxius:
    • a) premsa editada a Barcelona
    • b) premsa comarcal
    • c) premsa catalana d'abast general
  2. L'arxiu CEDICAST, format per text de premsa en llengua castellana, també amb dos subarxius:
    • a) premsa en llengua castellana editada a Barcelona
    • b) premsa en llengua castellana editada fora de Barcelona

Aquest doble arxiu s'havia de complementar amb el subcorpus CETV (Corpus de Textos de TV3), format per un recull de textos escrits per a ser llegits, actualment en fase de disseny.

El projecte inicial previst s'ha tancat avui dia en un arxiu de premsa en llengua catalana del diari AVUI, CECA, i és previst de complementar-lo en fases successives amb les aportacions dels nous Projectes "Llenguatges especialitzats" i "OBNEB" que duen a terme actualment els membres de l'equip a l'Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra, tant pel que fa a la compleció de dades, com a l'elaboració d'eines d'explotació.

En aquesta fase, l'equip ha comptat amb la cooperació de diversos becaris: Xavier Solé, Roland Pearson, Zulema Borràs i Carme Bach.

 

2. Estat actual del Projecte CECA

CECA inclou els textos corresponents a 120 dies consecutius del Diari AVUI (del 17 de febrer de 1993 al 25 de juny del mateix any), que corresponen a 7.000.000 de formes (excloses les procedents de seccions del diari repetitives: cartellera i borsa). Les dades, emmagatzemades en un disc òptic, ocupen 50 Megaoctets de memòria.

Les dades estan estructurades en format ASCII i distribuïdes en 120 fitxers separats, cada un dels quals correspon a un dia de diari i ocupa aproximadament 500K de memòria.

Cada fitxer, integrat per una part d'identificació (l'encapçalament) i el contingut (el text) s'identifica per un encapçalament de 6 caràcters numèrics, que corresponen a les dades corresponents d'any/mes/dia del diari.

El text de cada fitxer s'ha etiquetat amb les marques següents:

Del fitxer de text sencer s'han generat, per necessitats d'investigació, altres fitxers alternatius, emmagatzemats per fragments de text: frases i mots.

 

3. Adquisició de les dades

En una primera fase, quan no existia la possibilitat d'obtenir el diari AVUI a través d'Internet, es van explorar dues vies possibles per adquirir les dades, refusada la possibilitat de la via manual:

La primera via es va descartar pel temps i l'esforç que requeria a causa de la mala qualitat de les edicions i, gràcies a la generositat dels directius del diari AVUI, es van obtenir els textos en disquet de fotocomposició. Amb un programa de neteja dels codis no rellevants (conservant-ne alguns de pertinents: final de pàgina, marques tipogràfiques, etc.) es va elaborar el fitxer definitiu de CECA, actualment en disc òptic.

 

4. Projectes previstos o en curs d'elaboració

Del projecte CECA se n'han d'obtenir pròximament els següents productes:

Tres són les línies de recerca fonamentals que es desenvolupen a partir del projecte CECA:

 

5. Programes d'explotació de les dades

Els programes que fins ara permeten explotar els materials són els següents:

 
6. Mostra dels materials de CECA

 

Inclou un fragment del diari amb marques estructurals, una versió sobreetiquetada (sense desambiguar) i una versió parcialment desambiguada. Per interpretar els codis i per veure el llistat de les regles de desambiguació que s'han usat (documents massa extensos per adjuntar-los), connecteu-vos via Internet a l'URL "http://www.iula.upf.es"

 

[Aquí no reproduïm els exemples de l'original i el seu tractament, car usaven un etiquetari que presentava diferències importants amb el definitiu]

 

1. a El projecte Variació en el llenguatge: corpus oral i escrit de català contemporani rep finançament de la CIRIT (CS93-1017) i de la DGICYT (PB 90-0505).