Secció de Ciències i Tecnologia

Lingüística quantitativa: les lleis lingüístiques en el català

Direcció

Antoni Hernández-Fernández
Institut d'Estudis Catalans - Universitat Politècnica de Catalunya

Ponent

Ramon López de Mántaras i Badia
Institut d'Estudis Catalans -

Col·laboradors:

Jaume Baixeries i Juvillà, Universitat Politècnica de Catalunya (UPC)
Neus Català i Roig, UPC
Ramon Ferrer-i-Cancho, UPC
Lucas Lacasa, Queen Mary University of London
Lluís Padró, UPC
Isabel Gómez Ruiz, Hospital General de l'Hospitalet
Faustino Diéguez-Vide, Universitat de Barcelona
Patricia Pastoriza-Domínguez, Universitat de Barcelona
Juan María Garrido Almiñana, Universitat Pompeu Fabra
Bartolomé Luque Serrano, Universidad Politécnica de Madrid
Iván González Torre, Universidad Politécnica de Madrid 
 

 

Síntesi

Les lleis lingüístiques són les regularitats estadístiques que es troben a les llengües humanes, les més conegudes de les quals són la Llei de Zipf, la llei de Menzerath-Altmann, la llei de brevetat i la llei de Hepas-Herdan. La seva potencialitat, tant en aplicacions lingüístiques (sistemes automàtics d’anàlisi textual, tecnologies de reconeixement de veu...) com en d’altres àmbits de recerca molts diversos (genòmica, comunicació animal...), tot just es comencen a explotar.

Aquest treball es planteja desenvolupar una recerca sobre la revisió i exploració de les lleis lingüístiques en els corpus del català des del nivell subfonèmic fins al nivell textual. La idea principal és determinar si en el català se segueixen els patrons estadístics més coneguts (tant de llengües romàniques com d’altres llengües), alguns plantejats com a universals, o si, al contrari, es dona alguna especificitat estadística pròpia.
 
A aquest efecte, es partirà de l’anàlisi de corpus escrits coneguts per passar després a l’estudi de corpus orals i determinar-ne les diferències, si n’hi ha. Es tracta, doncs, d’un treball interdisciplinar on, si bé la lingüística quantitativa és el tema central, intervindran també experts de la modelització matemàtica, la computació i la física.
 
Els objectius seqüencials del projecte són:
  1. Desenvolupar els programes informàtics necessaris per a l’exploració estadística dels corpus.
  2. Posar a prova (Test) els programes en corpus molt coneguts i explorats a la literatura internacional (corpus fonamentalment en anglès o treballats prèviament)
  3. Aconseguir en paral·lel corpus del català per a dur a terme la recerca.
  4. Aplicar als corpus del català els programes i models desenvolupats.
  5. Fer l’anàlisi estadística dels resultats i la recerca en els models matemàtics i físics subjacents.
  6. Presentar el treball en congressos internacionals de lingüística quantitativa i/o computacional.
  7. Publicar els resultats obtinguts en revistes d’alt impacte (Nature, Science...) 
  8. Elaborar una obra de divulgació en català sobre lingüística quantitativa: actualment no n’hi ha cap.

 

Abstract 
 
Linguistic laws are the statistical regularities found in human languages, the best known of which are Zipf's Law, Menzerath-Altmann's Law, the Law of Brevity, and the Heaps-Herdan Law. Its potential, both in linguistic applications (automatic textual analysis systems, voice recognition technologies...) and in other very diverse research areas (genomics, animal communication...), are just beginning to be explored.
 
This work aims to develop a research on the review and exploration of the linguistic laws in the Catalan corpora from the subphonemic level to the textual level. The main idea is to determine if Catalan follows the best-known statistical patterns (of both Romance languages and other languages), some of which are considered universal, or if, on the contrary, there is some statistical specificity of its own.
 

 

Paraules clau

Lingüística quantitativa, lleis lingüístiques, corpus lingüístics (textuals i orals)

 

Inici del projecte

2018 - 2021

 

Antecedents

Antoni Hernández-Fernández va fer la tesi doctoral sobre l’estudi general de les lleis lingüístiques en els sistemes de comunicació, explorant, a més del llenguatge humà, la comunicació animal, la genètica o la comunicació química, així com sobre les seves implicacions per a la ciència cognitiva en general. La tesi va ser dirigida per Ramon Ferrer-i-Cancho (UPC) i Faustino Diéguez-Vide (UB).

  • Ferrer i Cancho, R & Hernández-Fernández, A. (2013). «The failure of the law on brevity in two New World primates. Statistical caveats». A: Glottotheory 4, p. 45-55. [doi: 10.1524/glot.2013.0004]
  • Baixeries, J; Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2012). «Random models of Menzerath Altmann law in genomes». A: BioSystems 107, p. 167-173. [doi: 10.1016/j.biosystems.2011.11.010]
  • Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2016) «The infochemical core» A: Journal of Quantitative Linguistics 23, p. 133-153. [doi: 10.1080/09296174.2016.1142323]
  • Ferrer-i-Cancho, R., Hernández-Fernández, A., Lusseau, D., Agoramoorthy, G., Hsu, M. J. & Semple, S. (2013). «Compression as a universal principle of animal behavior». A: Cognitive Science 37 (8), p. 1565–1578. [doi: 10.1111/cogs.12061, e-print]
  • González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernandez Fernandez, A. (2017). «Emergence of linguistic laws in human voice». A: Scientific Reports, 7, number 43862, p. 1-10. [https://doi.org/10.1038/srep43862]
  • Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Luque, J. & Luque, B. (2018). «Do linguistic laws emerge from voice?» A: International Quantitative Linguistics Conference 2018, QUALICO 2018, Wroclaw, Polònia, https://futur.upc.edu/23256957
  • González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernández-Fernández, A. (2017). «Linguistic laws or statistical learning?» A: Interdisciplinary Advances in Statistical Learning, BCBL 2017, Bilbao, Euskadi, https://futur.upc.edu/21124934

 

Resultats

Treballs sobre dues bases de qualitat sobre corpus orals:

 
Es va analitzar la base de dades CTILC, pel que fa a la relació matemàtica entre la freqüència de les paraules del català i als seus significats.
 
 
 
Publicacions
 
Pastoriza, P. et al. (2022). Speech pause distribution as an early marker for Alzheimer's disease. Speech communication, 2022, vol. 136, p. 107-117. Disponible a: https://upcommons.upc.edu/handle/2117/360137 
 
Català Roig, N.; Baixeries, J.; Ferrer-i-Cancho, R.; Padro, L.; Hernandez Fernandez, A. (2021). Zipf's laws of meaning in Catalan. PloS one, 16 Desembre 2021, vol. 16, núm. 12, p. 1-21. Disponible a: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0260849 
 
González, I.; Debowski, L.; Hernandez Fernandez, A. (2021). Can Menzerath's law be a criterion of complexity in communication?, PloS one, 20 Agost 2021, vol. 16, núm. 8, article e0256133, p. 1-21. Disponible a: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0256133 
 
González, I.; Luque Serrano, Bartolome; Lacasa, L.; Kello, C.; Hernandez Fernandez, A. (2021). Linguistic laws in speech. CCS2021, Conference on Complex Systems: 25-29 Oct. 2021. Disponible a: https://futur.upc.edu/32154502 
 
González Torre, I.; Luque, B.; Lacasa, L.; Kello, C. & Heréndez-Fernández, A. (2019) On the physical origin of lingüístic laws and lognormality in speech. Royal Society Open Sciences, 6: 191023. Disponible a: http://hdl.handle.net/2117/173635
 
González Torre, I.; Luque, B.; Lacasa, L.; Kello, C. & Heréndez-Fernández, A. (2019) Log-normal Distribution in acoustic lingüístic units. Poster communication in Interdisciplinary Advances in Statistical Learning 2019, Donosti (Euskadi) 28-30 juny de 2019. Disponible a: https://www.researchegate.net/publication/334083561_log-normal_distribution_in_acoustic_linguistic_units
 
Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Kello, C. & Luque B. (2019). A statistical model from information theory to explain Zipf’s law of brevity. Poster communication in Interdisciplinary Advances in Statistical Learning 2019, Donosti (Euskadi), 28-30 juny de 2019 http://hdl.handle.net/2117/173894
 
Hernández-Fernández, A.; Torre, I.G.; Garrido, J.-M. & Lacasa, L. (2019) Linguistic Laws in Speech: The Case of Catalan and Spanish. Entropy, 21, 1153. https://www.mdpi.com/1099-4300/21/12/1153
 
 
Presentacions
 
Jornada sobre Corpus oral de la llengua catalana. Presentació d’una comunicació. Barcelona, Secció Filològica, Institut d’Estudis Catalans, 16 de gener de 2020.
 
Presentació al comitè del Congrés Internacional QUALICO 2021. Tokio, 11.9.2021 (en línia). https://futur.upc.edu/31959237
 
 
Altres resultats
 
Bases de dades: 
Data from: On the physical origin of linguistic laws and lognormality in speech. https://datadryad.org/stash/dataset/doi:10.5061/dryad.4ss043q 
 
Database linguistic laws in speech: the case of Catalan and Spanish
 

 

Més informació

Més informació del projecte (2019-2020): https://futur.upc.edu/24251874 

Més informació del projecte (2021): https://futur.upc.edu/30546321 
 

 

 

Àrea geogràfica


Pàgines Web


 


Amb el suport de

 

Departament d’Empresa i Coneixement de la Generalitat de Catalunya

Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Departament de Justícia

Ministerio de Ciencia e Innovación

Ministerio de Educación, Cultura y Deporte