Els sistemes d’algoritmes que s’apliquen en lingüística computacional permeten conèixer el sexe o l’edat de qui escriu un text | Gemma Andreu

TW
0

Elles fan gala d'un vocabulari més ric i ells tendeixen a relatar els fets sense interioritzar-los. Aquestes són algunes de les conclusions de l'estudi «Use of discourse and syntactic features for gender identification» , amb la qual el professor de la Universitat Pompeu Fabra Juan Soler-Company (Maó, 1987) identifica l'estructura del discurs i les característiques sintàctiques dels textos depenent del gènere de qui l'escriu. Per configurar el sistema algorítmic, presentat en la 22a edició de la Conferència Europea d'Intel·ligència Artificial (La Haya, Holanda), va analitzar 7.148 textos periodístics d'unes 349 paraules i escrits per 51 autors en tres diaris de llengua anglesa, «The Sun», «The Times» i «New York Daily». L'objectiu: donar una passa més en la descoberta de qui s'amaga rere les paraules en un món on cada cop s'escriu menys a mà. La precisió del 84% en l'anàlisi que ha dut a terme supera el percentatge aconseguit en altres estudis cosa que demostra que l'encert a l'hora d'escollir els 200 elements textuals que l'ajudassin a establir les diferències entre gènere femení i masculí.

Els paràmetres, dividits entre caràcters, paraules, frases i funcions lèxiques, sintàctiques i discursives li han permès observar que les dones són més proclius a utilitzar adjectius i, pel que fa als signes de puntuació, els homes són més dels punts i elles, de les comes. L'estudi també relaciona la dona amb un llistat de paraules de connotacions postives i negatives, és a dir, que porten més càrrega de sentiments, mentre que a l'home se l'associa amb un estil més asèptic. «No en sé treure conclusions socials o psicològiques» confessa l'informàtic especialitzat en intel·ligència artificial, però sí afirma que aspectes com la riquesa en el lèxic de les dones «es mantenen en tots els meus estudis». La inclusió dels gèneres neutre i transgènere «no s'ha investigat ni s'ha plantejat» per a treballs futurs.

Com a membre del grup d'Investigació en Tractament Automàtic del Llenguatge Natural de Tecnologia de la Informació i les Comunicacions l'objectiu de l'estudi en lingüística computacional de Soler-Company és identificar certs patrons culturals que permetin extreure informació demogràfica com el sexe, l'edat, la formació acadèmica o l'origen geogràfic. Un tipus d'anàlisi que qualifica «d'apassionant» i que, considera «si s'implementàs com estàndar en la recopil·lació d'informació a la xarxa la gent s'hi sentiria menys anònima i pensaria més en els comentaris» que deixa a la web.

Les pautes comuns que identifica es poden aplicar a diverses àrees, ja sigui en el màrqueting digital per incitar al consumidor a la compra d'un producte o per facilitar la cerca de delinqüents en les investigacions de lingüística forense. Com adverteix l'informàtic «no és prudent generalitzar, però sí es podria utilitzar sense grans modificacions». Una a tenir en compte és la llengua i les seves característiques sintàctiques. Soler-Company ja havia analitzat els continguts de blogs en sis idiomes en altres estudis amb Leo Wanner, també professor de la UPF i «aquest tipus d'anàlisi es compleix i funciona» encara que les diferències a l'hora d'ordenar les paraules en una oració puguin dificultar la identificació de les diferències i per tant, la de l'autoria. Ara la feina es complica amb l'anàlisi de textos literaris, en els quals les característiques estilístiques juguen un paper essencial, i properament en la identificació de l'orientació sexual de l'autoria, encara per definir. L'especialista en perfils d'autoria aplicarà properament les investigacions a projectes europeus que treballen casos reals i que podrien canviar la percepció de seguretat i llibertat quan naveguem per Internet.