L’extracció de terminologia cientificotècnica és una pràctica amplament estesa gràcies a l’aparició de diversos sistemes d’extracció automàtica d’informació en el context de la recerca en mineria de textos (text mining). Els extractors de terminologia basen la seva actuació en estratègies diverses, però la més representativa és la que correspon al que es denomina aprenentatge automàtic (machine learning). Un programa d’aprenentatge automàtic extreu generalitzacions de l’anàlisi d’un conjunt d’informació prou representatiu. En els cas dels extractors de terminologia cal donar al sistema una llista de termes de l’àmbit temàtic en el qual es vol treballar. El sistema fa inferències sobre l’estructura dels termes, les repeticions de segments representatius, etc. I així arriba a oferir una llista de candidats a terme del domini en qüestió. Cert és que a mesura que se supervisen les dades i se li indica els errors, el sistema va refinant l’extracció.
El projecte Guaita Terminològica treballa sobre dos projectes anteriors:
D’una banda, en la cooperació del projecte CIT, liderat per Salvador Alegret, amb el grup de recerca IULATERM de l’Institut de Lingüística Aplicada de la Universitat Pompeu Fabra per a l’extracció automàtica de terminologia de revistes científiques. El sistema d’extracció de terminologia del grup IULATERM ha estat aplicat amb èxit en l’extracció de tota la terminologia continguda en les revistes digitalitzades de l’Institut d’Estudis Catalans. En aquest projecte proposem de cooperar novament amb IULATERM per a aquesta extracció.
D’altra banda, en el projecte Scriptorium per a la traducció de manuals de ciència i tecnologia de l’anglès al català, projecte llançat per la Fundació Torrens-Iber i dut a terme a l’Institut d’Estudis Catalans, que va quallar en la traducció de l’anglès al català de deu manuals universitaris.