Les eines d'IA generativa propaguen formes no normatives del català

[Foto: Etienne Boulanger a Unsplash]

Un estudi de la Universitat Pompeu Fabra (UPF) ha advertit que algunes de les eines d’intel·ligència artificial generativa més populars, com ChatGPT o Gemini, estan contribuint a propagar formes no normatives del català. La recerca, publicada en català a la revista Linguamática, apunta que la influència del castellà en els models d’entrenament és una de les principals causes d’aquest fenomen i fa una crida als responsables de política lingüística a avaluar-ne l’impacte per poder prendre decisions informades sobre el futur de la llengua.

Segons l’estudi, els models lingüístics d’aquestes eines estan esbiaixats perquè afavoreixen estructures gramaticals i lèxic de llengües amb més parlants, com l’anglès o l’espanyol, que han constituït la base del seu entrenament. Tot i que treballs previs ja havien detectat una preferència cap a l’anglès, aquesta investigació és pionera a demostrar que també existeix un biaix específic cap al castellà en el cas del català.

L’estudi ha analitzat sis models de llenguatge i l’ús de preposicions indica dubtes

La investigadora Mireia Almena, coautora de l’article, assenyala que aquests sistemes no només reprodueixen el llenguatge, sinó que també poden influir en la seva evolució, especialment en llengües amb menys volum de contingut digital. L’equip ha analitzat sis models de llenguatge extensos (quatre de multilingües i dos de monolingües especialitzats en català) i ha avaluat les seves preferències a partir d’un corpus de 160 oracions amb vuit estructures gramaticals que sovint generen dubtes, especialment en l’ús de preposicions.

Els resultats indiquen que les IA multilingües s’equivoquen en un 55% dels casos per influència del castellà a l’hora de triar entre una forma normativa i una de no normativa, davant del 27% dels models monolingües. En canvi, l’ús no normatiu per altres motius es manté al voltant del 4% en ambdós casos. L’altre autor del treball, Thomas Brochhagen, destaca la importància de verificar les preferències lingüístiques dels models, sobretot en llengües minoritàries, per poder orientar adequadament les polítiques lingüístiques davant l’impacte de les noves tecnologies.

Neix l’Aina Intel·ligència Territorial, el programa públic per aplicar la IA en la diversitat lingüística

Les eines d’IA generativa propaguen formes no normatives del català

L’estudi ha analitzat sis models de llenguatge i l’ús de preposicions indica dubtes

La BWAW 2026 tanca la seva sisena edició amb més de 3.000 assistents

Maria Cerezuela, d’Espai Mèdia, protagonista d’una mostra a la UAB sobre dones referents del sector

El vintè Mobile World Congress abaixa el teló amb la IA i el talent digital com a protagonistes

Emily.AI guanya el capítol català de l’AI for Good i competirà a la final mundial de l’ONU

El sector espacial parla en català al Mobile World Congress 2026: “No som conscients del que tenim”