Direcció
Antoni Hernández-Fernández
Institut d'Estudis Catalans -
Universitat Politècnica de Catalunya
|
|
|
Col·laboradors:
Jaume Baixeries i Juvillà, Universitat Politècnica de Catalunya (UPC)
Neus Català i Roig, UPC
Ramon Ferrer-i-Cancho, UPC
Lucas Lacasa, Queen Mary University of London
Lluís Padró, UPC
Isabel Gómez Ruiz, Hospital General de l'Hospitalet
Faustino Diéguez-Vide, Universitat de Barcelona
Patricia Pastoriza-Domínguez, Universitat de Barcelona
Juan María Garrido Almiñana, Universitat Pompeu Fabra
Bartolomé Luque Serrano, Universidad Politécnica de Madrid
Iván González Torre, Universidad Politécnica de Madrid
|
Síntesi
Les lleis lingüístiques són les regularitats estadístiques que es troben a les llengües humanes, les més conegudes de les quals són la Llei de Zipf, la llei de Menzerath-Altmann, la llei de brevetat i la llei de Hepas-Herdan. La seva potencialitat, tant en aplicacions lingüístiques (sistemes automàtics d’anàlisi textual, tecnologies de reconeixement de veu...) com en d’altres àmbits de recerca molts diversos (genòmica, comunicació animal...), tot just es comencen a explotar.
Aquest treball es planteja desenvolupar una recerca sobre la revisió i exploració de les lleis lingüístiques en els corpus del català des del nivell subfonèmic fins al nivell textual. La idea principal és determinar si en el català se segueixen els patrons estadístics més coneguts (tant de llengües romàniques com d’altres llengües), alguns plantejats com a universals, o si, al contrari, es dona alguna especificitat estadística pròpia.
A aquest efecte, es partirà de l’anàlisi de corpus escrits coneguts per passar després a l’estudi de corpus orals i determinar-ne les diferències, si n’hi ha. Es tracta, doncs, d’un treball interdisciplinar on, si bé la lingüística quantitativa és el tema central, intervindran també experts de la modelització matemàtica, la computació i la física.
Els objectius seqüencials del projecte són:
- Desenvolupar els programes informàtics necessaris per a l’exploració estadística dels corpus.
- Posar a prova (Test) els programes en corpus molt coneguts i explorats a la literatura internacional (corpus fonamentalment en anglès o treballats prèviament)
- Aconseguir en paral·lel corpus del català per a dur a terme la recerca.
- Aplicar als corpus del català els programes i models desenvolupats.
- Fer l’anàlisi estadística dels resultats i la recerca en els models matemàtics i físics subjacents.
- Presentar el treball en congressos internacionals de lingüística quantitativa i/o computacional.
- Publicar els resultats obtinguts en revistes d’alt impacte (Nature, Science...)
- Elaborar una obra de divulgació en català sobre lingüística quantitativa: actualment no n’hi ha cap.
Abstract
Linguistic laws are the statistical regularities found in human languages, the best known of which are Zipf's Law, Menzerath-Altmann's Law, the Law of Brevity, and the Heaps-Herdan Law. Its potential, both in linguistic applications (automatic textual analysis systems, voice recognition technologies...) and in other very diverse research areas (genomics, animal communication...), are just beginning to be explored.
This work aims to develop a research on the review and exploration of the linguistic laws in the Catalan corpora from the subphonemic level to the textual level. The main idea is to determine if Catalan follows the best-known statistical patterns (of both Romance languages and other languages), some of which are considered universal, or if, on the contrary, there is some statistical specificity of its own.
Paraules clau
Lingüística quantitativa, lleis lingüístiques, corpus lingüístics (textuals i orals)
Antecedents
Antoni Hernández-Fernández va fer la tesi doctoral sobre l’estudi general de les lleis lingüístiques en els sistemes de comunicació, explorant, a més del llenguatge humà, la comunicació animal, la genètica o la comunicació química, així com sobre les seves implicacions per a la ciència cognitiva en general. La tesi va ser dirigida per Ramon Ferrer-i-Cancho (UPC) i Faustino Diéguez-Vide (UB).
- Ferrer i Cancho, R & Hernández-Fernández, A. (2013). «The failure of the law on brevity in two New World primates. Statistical caveats». A: Glottotheory 4, p. 45-55. [doi: 10.1524/glot.2013.0004]
- Baixeries, J; Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2012). «Random models of Menzerath Altmann law in genomes». A: BioSystems 107, p. 167-173. [doi: 10.1016/j.biosystems.2011.11.010]
- Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2016) «The infochemical core» A: Journal of Quantitative Linguistics 23, p. 133-153. [doi: 10.1080/09296174.2016.1142323]
- Ferrer-i-Cancho, R., Hernández-Fernández, A., Lusseau, D., Agoramoorthy, G., Hsu, M. J. & Semple, S. (2013). «Compression as a universal principle of animal behavior». A: Cognitive Science 37 (8), p. 1565–1578. [doi: 10.1111/cogs.12061, e-print]
- González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernandez Fernandez, A. (2017). «Emergence of linguistic laws in human voice». A: Scientific Reports, 7, number 43862, p. 1-10. [https://doi.org/10.1038/srep43862]
- Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Luque, J. & Luque, B. (2018). «Do linguistic laws emerge from voice?» A: International Quantitative Linguistics Conference 2018, QUALICO 2018, Wroclaw, Polònia, https://futur.upc.edu/23256957
- González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernández-Fernández, A. (2017). «Linguistic laws or statistical learning?» A: Interdisciplinary Advances in Statistical Learning, BCBL 2017, Bilbao, Euskadi, https://futur.upc.edu/21124934
Resultats
Treballs sobre dues bases de qualitat sobre corpus orals:
Es va analitzar la base de dades CTILC, pel que fa a la relació matemàtica entre la freqüència de les paraules del català i als seus significats.
Publicacions
González, I.; Luque Serrano, Bartolome; Lacasa, L.; Kello, C.; Hernandez Fernandez, A. (2021). Linguistic laws in speech. CCS2021, Conference on Complex Systems: 25-29 Oct. 2021. Disponible a: https://futur.upc.edu/32154502
González Torre, I.; Luque, B.; Lacasa, L.; Kello, C. & Heréndez-Fernández, A. (2019) On the physical origin of lingüístic laws and lognormality in speech. Royal Society Open Sciences, 6: 191023. Disponible a: http://hdl.handle.net/2117/173635
Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Kello, C. & Luque B. (2019). A statistical model from information theory to explain Zipf’s law of brevity. Poster communication in Interdisciplinary Advances in Statistical Learning 2019, Donosti (Euskadi), 28-30 juny de 2019 http://hdl.handle.net/2117/173894
Presentacions
Jornada sobre Corpus oral de la llengua catalana. Presentació d’una comunicació. Barcelona, Secció Filològica, Institut d’Estudis Catalans, 16 de gener de 2020.
Altres resultats
Bases de dades:
Database linguistic laws in speech: the case of Catalan and Spanish
|