Vocabularul truditorului pe Substack
Ce ne invata un pensionar semi-paralizat despre bogatia lexicala?
Vocabularul
Atunci cand deschidem un articol oarecare pe Substack unul din primele lucruri pe care le observam este vocabularul folosit. Nu exista un criteriu clar prin care facem asta, dar cumva se intampla. Intuim din lungimea frazelor, lungimea cuvintelor, raritatea cuvintelor si mai ales repetitia lor daca textul pare scris de petrescusandu, robotul ucrainean cu vocabular de 12 cuvinte care posteaza automat pe X, sau un text scris de Papahagi dupa au intrat grivnele in cont, a fumat ceva bun si a deschis pornhubul.
Lungimea frazelor ne spune ceva despre densitatea textului, la fel si lungimea cuvintelor. Cuvinte mai lungi inseamna de obicei cuvinte ceva mai rar folosite. Iar daca in text cuvintele nu se repeta ca promisiunile electorale ca nu marim TVA-ul atunci intuitia ne spune pe buna dreptate ca avem de-a face cu un vocabular mai bogat.
Un vocabular al textului, ca doar de text stim cate ceva, pe autor nu il cunoastem. Bine, eu cunosc cativa in persoana, dar nu ma iau de vocabularul lor, ca vreau sa ramanem prieteni.
Sa estimam bogatia vocabularului unui autor dupa un text scris de el e ca si cum am estima bogatia de tigai si cratite ale unui bucatar dupa omleta pe care ne-o aduce la masa. Adica un fel de Pestera lui Platon1, dar varianta pentru scoala ajutatoare.
Despre lungimea frazelor si lungimea cuvintelor nu mai insist, ca e intuitiva. Si probabil una din cele mai banale (si utile) evaluari automate, “obiective” a unui text. Nu intamplator cele doua sunt componentele scorului LIX, pe care Miorita il masoara deja zilnic de vreo doua luni la toate articolele care apar pe Substackul romanesc.
LIX nu e nimic altceva decat insumarea procentului de fraze lungi cu procentul de cuvinte lungi = dificultatea de citire a unui text. Pentru un text care abunda in fraze lungi si cuvinte lungi e mai dificil de parcurs decat unul cu fraze scurte si cuvinte si mai scurte. Un scor LIX mai mare inseamna un text mai imbacsit, greu de citit iar un scor LIX mai mic inseamna un text mai aerisit.
Dificultatea de citire sau lungimea cuvintelor nu au mai nimic de-a face cu bogatia vocabularului. Putem avea un obsesional care foloseste ca o mantra aceleasi cuvinte lungi si bolovanoase, sau putem avea un autor viu, talentat, articulat, care jongleaza cu cuvinte scurte fara sa le repete.
Yule
Acum vreo 80 de ani un statistician numit Udny Yule2 a ajuns sa isi puna aceeasi intrebare: cum masuram/estimam bogatia vocabularului folosit intr-un text?
Putin context: contrar numelui ciudat si a fotografiei cu look oriental pe care o gasim pe Wikipedia, Yule era scotian get-beget. A fost toata viata un statistician activ, preocupat in special de corelatii. De altfel, este cel mai cunoscut pentru Yule’s Y, o masurare statistica a asocierii dintre doua variabile binare.
Cand se apropia de 70 de ani Yule a suferit un accident vascular, care l-a lasat partial paralizat. S-a pensionat si a inlocuit munca cu lectura. Yule a devenit un cititor pasionat, asa ca a inceput sa il munceasca si pe el, ca pe noi toti, curiozitatea epistemica despre cum am putea masura bogatia vocabularului unui text.
Statisticianul de cariera a observat ca autorii de romane tind sa foloseasca cuvintele intr-un mod repetitiv. A inceput sa masoare cat de repetitiv este folosit vocabularul intr-un text. Nu cat de multe cuvinte diferite sunt intr-un text (mai greu de numarat cu creionul de un invalid inainte de aparitia calculatoarelor) ci cat de des se repeta.
Yule’s K
Experimentele lui Yule au dus la aparitia in 1944 a cartii “Studiul statistic al vocabularului literar“ unde a descris formula sa pe care a numit-o “constanta caracteristica a lui Yule (K)”.
O valoare Yule’s K mai mare inseamna text repetitiv, una mai mica inseamna text mai putin repetitiv, adica vocabular mai bogat.
Daca poti spune aceleasi lucruri folosind cuvinte diferite inseamna sa stii mai multe, nu? 😊
Indicele Yule a devenit cu mult timp inainte de aparitia calculatoarelor un instrument pentru a obtine “amprenta stilografica” a unui text.
Cel mai adesea e folosit alaturi de TTR (type-token-ratio), LIX sau ASL (average sentence length).
YK este probabil cea mai veche masurare stilometrica inca utilizata si astazi.
Astazi YK se foloseste in stilometrie pentru identificarea autorului, in analiza literara sau in compararea genurilor, perioadelor sau stilurilor de scris.
textele aceluiasi autor tind sa aiba valori YK similare
cartile de copii, listele cu instructiuni tind sa aiba o valoare YK ridicata (=vocabular repetitiv)
poezia, fictiunea si textele stiintifice au de regula o valoare YK scazuta
Revista presei
Pentru cei care ati reusit sa parcurgeti acest text greoi si repetitiv (mi-e si frica sa ma gandesc ce scor LIX are) pana aici (pe cei care v-ati pierdut pe drum nu va condamn) poate va intrebati “ok, si daca tot am aflat care-i treaba cu Yule’s K, ce trebuie sa facem ca sa il folosim?” am o veste buna.
Incepand de zilele acestea, probabil poimaine, Yule’s K va fi calculat si afisat la toate articolele de pe Substackurile romanesti care apar la “revista presei” din Paradigma. Deocamdata doar scorurile, dar intr-un viitorul nu prea indepartat aceste scoruri vor fi formulate intr-o descriere mai “umana”, de exemplu ca aceasta:
“Un text lung (3500 de cuvinte), cu un ton negativ (NL 28%), dens si complex (ASL 20), greu de parcurs (LIX 45) dar cu o varietate lexicala ridicata (TTR 45%), vocabular bogat (HR 100) cu un grad scazut de repetitie (YK 70).”
(NS= negative sentences, ASL3= average sentence length, LIX4= readibility index, TTR5= type-token ratio, HR= Honore’s R, YK= Yule’s K)
Habar n-am daca descrierile ca cea de mai sus vor convinge pe cineva sa citeasca un articol pe care altfel nu l-ar fi citit sau sa evite un articol pe care in lipsa descrierii l-ar fi deschis.
Trebuie sa mai discut pe tema asta cu Miorita, consultantul meu stilometric. 😊
Daca aveti intrebari, sugestii sau critici pentru Miorita le preiau eu, va raspunde tot aici.



Când te gandesti ca Miorița nu are cu ce sa mao surprindă, pac!, mai găsește un indicator! Foarte tare!
Chiar nu stiu daca evaluarea stilometrica a Mioritei va determina pe cineva sa citeasca un text sau altul, dar cert este ca pana sa-si puna masuratorile in practica, ne ofera niste informatii foarte interesante despre activitatea ei.
.
De fiecare data cand vii cu o provocare dintr-asta, parca ne pui in față o oglinda: "Uite, asta esti! Pentru un cititor complet impartial, cu o viziune mai degraba cantitativa asupra lumii, tu asa arati!"
.
Niciodata n-am mai fost atat de curios sa vad cum mai poate fi disecat un text pe care l-am scris!
.
Regret enorm ca nu mai am nici unul dintre comentariile literare de la clasele 5-8. Pagini dupa pagini pe care profa de romana (think of Vitoria Lipan combinata cu mama Fratilor Jderi si cu privirea capitanului Ahab). Ala era un super-material pe care Miorita sa-l rumege metodic - sa vedem cu ce ne impuiau capul cand eram mici...