
[Foto: Etienne Boulanger a Unsplash]
Segons l’estudi, els models lingüístics d’aquestes eines estan esbiaixats perquè afavoreixen estructures gramaticals i lèxic de llengües amb més parlants, com l’anglès o l’espanyol, que han constituït la base del seu entrenament. Tot i que treballs previs ja havien detectat una preferència cap a l’anglès, aquesta investigació és pionera a demostrar que també existeix un biaix específic cap al castellà en el cas del català.
L’estudi ha analitzat sis models de llenguatge i l’ús de preposicions indica dubtes
La investigadora Mireia Almena, coautora de l’article, assenyala que aquests sistemes no només reprodueixen el llenguatge, sinó que també poden influir en la seva evolució, especialment en llengües amb menys volum de contingut digital. L’equip ha analitzat sis models de llenguatge extensos (quatre de multilingües i dos de monolingües especialitzats en català) i ha avaluat les seves preferències a partir d’un corpus de 160 oracions amb vuit estructures gramaticals que sovint generen dubtes, especialment en l’ús de preposicions.
Els resultats indiquen que les IA multilingües s’equivoquen en un 55% dels casos per influència del castellà a l’hora de triar entre una forma normativa i una de no normativa, davant del 27% dels models monolingües. En canvi, l’ús no normatiu per altres motius es manté al voltant del 4% en ambdós casos. L’altre autor del treball, Thomas Brochhagen, destaca la importància de verificar les preferències lingüístiques dels models, sobretot en llengües minoritàries, per poder orientar adequadament les polítiques lingüístiques davant l’impacte de les noves tecnologies.
Neix l’Aina Intel·ligència Territorial, el programa públic per aplicar la IA en la diversitat lingüística


