Institut d'Estudis Catalans: l'institut de les Ciències i les Humanitats

Secció de Ciències i Tecnologia

Lingüística quantitativa: les lleis lingüístiques en el català

Direcció

Antoni Hernández-Fernández
Institut d'Estudis Catalans - Universitat Politècnica de Catalunya

Ponent

Ramon López de Mántaras i Badia
Institut d'Estudis Catalans -

Col·laboradors:

Jaume Baixeries i Juvillà, Universitat Politècnica de Catalunya (UPC)

Neus Català i Roig, UPC

Ramon Ferrer-i-Cancho, UPC

Lucas Lacasa, Queen Mary University of London

Lluís Padró, UPC

Isabel Gómez Ruiz, Hospital General de l'Hospitalet

Faustino Diéguez-Vide, Universitat de Barcelona

Patricia Pastoriza-Domínguez, Universitat de Barcelona

Juan María Garrido Almiñana, Universitat Pompeu Fabra

Bartolomé Luque Serrano, Universidad Politécnica de Madrid

Iván González Torre, Universidad Politécnica de Madrid

Síntesi

Les lleis lingüístiques són les regularitats estadístiques que es troben a les llengües humanes, les més conegudes de les quals són la Llei de Zipf, la llei de Menzerath-Altmann, la llei de brevetat i la llei de Hepas-Herdan. La seva potencialitat, tant en aplicacions lingüístiques (sistemes automàtics d’anàlisi textual, tecnologies de reconeixement de veu...) com en d’altres àmbits de recerca molts diversos (genòmica, comunicació animal...), tot just es comencen a explotar.

Aquest treball es planteja desenvolupar una recerca sobre la revisió i exploració de les lleis lingüístiques en els corpus del català des del nivell subfonèmic fins al nivell textual. La idea principal és determinar si en el català se segueixen els patrons estadístics més coneguts (tant de llengües romàniques com d’altres llengües), alguns plantejats com a universals, o si, al contrari, es dona alguna especificitat estadística pròpia.

A aquest efecte, es partirà de l’anàlisi de corpus escrits coneguts per passar després a l’estudi de corpus orals i determinar-ne les diferències, si n’hi ha. Es tracta, doncs, d’un treball interdisciplinar on, si bé la lingüística quantitativa és el tema central, intervindran també experts de la modelització matemàtica, la computació i la física.

Els objectius seqüencials del projecte són:

Desenvolupar els programes informàtics necessaris per a l’exploració estadística dels corpus.

Posar a prova (Test) els programes en corpus molt coneguts i explorats a la literatura internacional (corpus fonamentalment en anglès o treballats prèviament)

Aconseguir en paral·lel corpus del català per a dur a terme la recerca.

Aplicar als corpus del català els programes i models desenvolupats.

Fer l’anàlisi estadística dels resultats i la recerca en els models matemàtics i físics subjacents.

Presentar el treball en congressos internacionals de lingüística quantitativa i/o computacional.

Publicar els resultats obtinguts en revistes d’alt impacte (Nature, Science...)

Elaborar una obra de divulgació en català sobre lingüística quantitativa: actualment no n’hi ha cap.

Abstract

Linguistic laws are the statistical regularities found in human languages, the best known of which are Zipf's Law, Menzerath-Altmann's Law, the Law of Brevity, and the Heaps-Herdan Law. Its potential, both in linguistic applications (automatic textual analysis systems, voice recognition technologies...) and in other very diverse research areas (genomics, animal communication...), are just beginning to be explored.

This work aims to develop a research on the review and exploration of the linguistic laws in the Catalan corpora from the subphonemic level to the textual level. The main idea is to determine if Catalan follows the best-known statistical patterns (of both Romance languages and other languages), some of which are considered universal, or if, on the contrary, there is some statistical specificity of its own.

Paraules clau

Lingüística quantitativa, lleis lingüístiques, corpus lingüístics (textuals i orals)

Inici del projecte

2018 - 2021

Antecedents

Antoni Hernández-Fernández va fer la tesi doctoral sobre l’estudi general de les lleis lingüístiques en els sistemes de comunicació, explorant, a més del llenguatge humà, la comunicació animal, la genètica o la comunicació química, així com sobre les seves implicacions per a la ciència cognitiva en general. La tesi va ser dirigida per Ramon Ferrer-i-Cancho (UPC) i Faustino Diéguez-Vide (UB).

Ferrer i Cancho, R & Hernández-Fernández, A. (2013). «The failure of the law on brevity in two New World primates. Statistical caveats». A: Glottotheory 4, p. 45-55. [doi: 10.1524/glot.2013.0004]

Baixeries, J; Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2012). «Random models of Menzerath Altmann law in genomes». A: BioSystems 107, p. 167-173. [doi: 10.1016/j.biosystems.2011.11.010]

Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2016) «The infochemical core» A: Journal of Quantitative Linguistics 23, p. 133-153. [doi: 10.1080/09296174.2016.1142323]

Ferrer-i-Cancho, R., Hernández-Fernández, A., Lusseau, D., Agoramoorthy, G., Hsu, M. J. & Semple, S. (2013). «Compression as a universal principle of animal behavior». A: Cognitive Science 37 (8), p. 1565–1578. [doi: 10.1111/cogs.12061, e-print]

González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernandez Fernandez, A. (2017). «Emergence of linguistic laws in human voice». A: Scientific Reports, 7, number 43862, p. 1-10. [https://doi.org/10.1038/srep43862]

Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Luque, J. & Luque, B. (2018). «Do linguistic laws emerge from voice?» A: International Quantitative Linguistics Conference 2018, QUALICO 2018, Wroclaw, Polònia, https://futur.upc.edu/23256957

González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernández-Fernández, A. (2017). «Linguistic laws or statistical learning?» A: Interdisciplinary Advances in Statistical Learning, BCBL 2017, Bilbao, Euskadi, https://futur.upc.edu/21124934

Resultats

Treballs sobre dues bases de qualitat sobre corpus orals:

Buckeye Corpus, per a l’anglès. Test d’estudi de les lleis lingüístiques i els models matemàtics a la llengua oral.

Corpus Glissando, pel català i castellà. Incorporació del Corpus Glissando a la base de dades del Corpus Oral de la Llengua Catalana
Disponibles a:
- Corpus Glissando
- Dades processades disponibles al repositori DRYAD
- Subprogrames i scripts es troben a Github

Es va realitzar la programació per a l’estudi de la base de dades Buckeye i el preprocessament de dades lingüístiques per a l’anàlisi empírica i modelització de dades posterior.

Es va analitzar la base de dades CTILC, pel que fa a la relació matemàtica entre la freqüència de les paraules del català i als seus significats.

Publicacions

Pastoriza, P. et al. (2022). Speech pause distribution as an early marker for Alzheimer's disease. Speech communication, 2022, vol. 136, p. 107-117. Disponible a: https://upcommons.upc.edu/handle/2117/360137

Català Roig, N.; Baixeries, J.; Ferrer-i-Cancho, R.; Padro, L.; Hernandez Fernandez, A. (2021). Zipf's laws of meaning in Catalan. PloS one, 16 Desembre 2021, vol. 16, núm. 12, p. 1-21. Disponible a: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0260849

González, I.; Debowski, L.; Hernandez Fernandez, A. (2021). Can Menzerath's law be a criterion of complexity in communication?, PloS one, 20 Agost 2021, vol. 16, núm. 8, article e0256133, p. 1-21. Disponible a: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0256133

González, I.; Luque Serrano, Bartolome; Lacasa, L.; Kello, C.; Hernandez Fernandez, A. (2021). Linguistic laws in speech. CCS2021, Conference on Complex Systems: 25-29 Oct. 2021. Disponible a: https://futur.upc.edu/32154502

González Torre, I.; Luque, B.; Lacasa, L.; Kello, C. & Heréndez-Fernández, A. (2019) On the physical origin of lingüístic laws and lognormality in speech. Royal Society Open Sciences, 6: 191023. Disponible a: http://hdl.handle.net/2117/173635

González Torre, I.; Luque, B.; Lacasa, L.; Kello, C. & Heréndez-Fernández, A. (2019) Log-normal Distribution in acoustic lingüístic units. Poster communication in Interdisciplinary Advances in Statistical Learning 2019, Donosti (Euskadi) 28-30 juny de 2019. Disponible a: https://www.researchegate.net/publication/334083561_log-normal_distribution_in_acoustic_linguistic_units

Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Kello, C. & Luque B. (2019). A statistical model from information theory to explain Zipf’s law of brevity. Poster communication in Interdisciplinary Advances in Statistical Learning 2019, Donosti (Euskadi), 28-30 juny de 2019 http://hdl.handle.net/2117/173894

Hernández-Fernández, A.; Torre, I.G.; Garrido, J.-M. & Lacasa, L. (2019) Linguistic Laws in Speech: The Case of Catalan and Spanish. Entropy, 21, 1153. https://www.mdpi.com/1099-4300/21/12/1153

Presentacions

Jornada sobre Corpus oral de la llengua catalana. Presentació d’una comunicació. Barcelona, Secció Filològica, Institut d’Estudis Catalans, 16 de gener de 2020.

Presentació al comitè del Congrés Internacional QUALICO 2021. Tokio, 11.9.2021 (en línia). https://futur.upc.edu/31959237

Altres resultats

Bases de dades:

Data from: On the physical origin of linguistic laws and lognormality in speech. https://datadryad.org/stash/dataset/doi:10.5061/dryad.4ss043q

Database linguistic laws in speech: the case of Catalan and Spanish

https://datadryad.org/stash/dataset/doi:10.6071/M3XW9T

Més informació

Més informació del projecte (2019-2020): https://futur.upc.edu/24251874

Més informació del projecte (2021): https://futur.upc.edu/30546321

Entitats

Institut d'Estudis Catalans - Secció de Ciències i Tecnologia

Queen Mary University of London

Universidad Politécnica de Madrid

Universitat Politècnica de Catalunya