El CECA, subcorpus escrit del CUB (Corpus de la Universitat de Barcelona) dirigit pels professors M. Teresa Cabré, Mercè Lorente i Lluís de Yzaguirre, es va dissenyar tenint en compte que els materials constituïts per altres organismes, com l'Institut d'Estudis Catalans, no permetien de dur a terme algunes aplicacions científiques que es preveu de realitzar amb aquests materials, específicament estudis sobre neologia catalana i en contrast amb altres llengües, i anàlisi del text periodístic.
Amb aquesta idea, es va preveure de constituir inicialment un doble arxiu de premsa escrita:
Aquest doble arxiu s'havia de complementar amb el subcorpus CETV (Corpus de Textos de TV3), format per un recull de textos escrits per a ser llegits, actualment en fase de disseny.
El projecte inicial previst s'ha tancat avui dia en un arxiu de premsa en llengua catalana del diari AVUI, CECA, i és previst de complementar-lo en fases successives amb les aportacions dels nous Projectes "Llenguatges especialitzats" i "OBNEB" que duen a terme actualment els membres de l'equip a l'Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra, tant pel que fa a la compleció de dades, com a l'elaboració d'eines d'explotació.
En aquesta fase, l'equip ha comptat amb la cooperació de diversos becaris: Xavier Solé, Roland Pearson, Zulema Borràs i Carme Bach.
CECA inclou els textos corresponents a 120 dies consecutius del Diari AVUI (del 17 de febrer de 1993 al 25 de juny del mateix any), que corresponen a 7.000.000 de formes (excloses les procedents de seccions del diari repetitives: cartellera i borsa). Les dades, emmagatzemades en un disc òptic, ocupen 50 Megaoctets de memòria.
Les dades estan estructurades en format ASCII i distribuïdes en 120 fitxers separats, cada un dels quals correspon a un dia de diari i ocupa aproximadament 500K de memòria.
Cada fitxer, integrat per una part d'identificació (l'encapçalament) i el contingut (el text) s'identifica per un encapçalament de 6 caràcters numèrics, que corresponen a les dades corresponents d'any/mes/dia del diari.
El text de cada fitxer s'ha etiquetat amb les marques següents:
Del fitxer de text sencer s'han generat, per necessitats d'investigació, altres fitxers alternatius, emmagatzemats per fragments de text: frases i mots.
En una primera fase, quan no existia la possibilitat d'obtenir el diari AVUI a través d'Internet, es van explorar dues vies possibles per adquirir les dades, refusada la possibilitat de la via manual:
La primera via es va descartar pel temps i l'esforç que requeria a causa de la mala qualitat de les edicions i, gràcies a la generositat dels directius del diari AVUI, es van obtenir els textos en disquet de fotocomposició. Amb un programa de neteja dels codis no rellevants (conservant-ne alguns de pertinents: final de pàgina, marques tipogràfiques, etc.) es va elaborar el fitxer definitiu de CECA, actualment en disc òptic.
Del projecte CECA se n'han d'obtenir pròximament els següents productes:
Tres són les línies de recerca fonamentals que es desenvolupen a partir del projecte CECA:
Els programes que fins ara permeten explotar els materials són els següents:
Inclou un fragment del diari amb marques estructurals, una versió sobreetiquetada (sense desambiguar) i una versió parcialment desambiguada. Per interpretar els codis i per veure el llistat de les regles de desambiguació que s'han usat (documents massa extensos per adjuntar-los), connecteu-vos via Internet a l'URL "http://www.iula.upf.es"
[Aquí no reproduïm els exemples de l'original i el seu tractament, car usaven un etiquetari que presentava diferències importants amb el definitiu]
1. a El projecte Variació en el llenguatge: corpus oral i escrit de català contemporani rep finançament de la CIRIT (CS93-1017) i de la DGICYT (PB 90-0505).