1. Hapax
Romanul se naste poet. Si virusolog, nutritionst si analist militar. Sau expert in psihiatrie. Multi dintre pacientii mei mi-au explicat de-a lungul anilor de ce schema de tratament primita de la medicul lor psihiatru nu este potrivita si cum o optimizeaza ei. Eu cred ca toti romanii se nasc in primul rand poeti iar toate celelalte, virusologie, analiza militara etc sunt doar supra-specializari.
Poetilor experti in virusologie si geopolitica care ma urmaresc voiam sa le spun ca Miorita, oaia nationala care bantuie substackurile romanesti si-a suflecat manecile si s-a apucat sa monitorizeze si hapax legomena1.
Ce sunt hapax legomena?
In spatele numelui care suna misterios se afla insa doar realitatea banala a acelor cuvinte care sunt unice intr-un text. “Hapax legomenon” inseamna in greaca “spus o singura data”, legomena e pluralul. Deci cuvinte spuse o singura data intr-un text.
Orice cuvant folosit o singura data devine un hapax. De exemplu “neinchipuit” sau “neadormit”. Sau un nume geografic oarecare. Iar daca este folosit si a doua oara inceteaza sa mai fie un hapax legomenon, ci devine un dis legomenon, adica folosit de doua ori, ca presedintele reales sau recasatoritii. Unii nu se invata minte niciodata.
Probabil ca va intrebati de ce si-ar pierde cineva vremea cautand cuvinte care apar o singura data.
Motivele sunt mai multe, in functie de ochiul si meseria privitorului. Cateva posibile exemple.
De exemplu in stilometrie si lingvistica numarul de hapax legomena este un bun indicator indirect al bogatiei lexicale. Un text cu multe hapaxuri sugereaza un vocabular bogat.
Pentru un psiholog carcotas (including yours truly) un numar mare de hapaxuri ar putea sugera exact opusul, adica un text/autor incoerent, dezorganizat. Poate si pentru faptul ca multe hapaxuri sunt doar greseli de ortografie, onomatopee, cuvinte inventate sau jocuri de cuvinte iesite in decor. Sau, foarte des, doar lipsa de
educatieatentie, aceea care se vede in succesurile pe care le au almanahele. De asemenea autorii care folosesc hapaxuri lungi si rare incearca sa para mai sofisticati, iar asta iarasi poate fi de oarecare interes pentru o eventuala evaluare psihologica. Dar in acelasi timp hapaxurile pot semnala spontaneitate, creativitate sau o stare emotionala aparte. Deci material serios de lucru. 😊Pentru un teolog hapaxurile pot insemna cu totul altceva, si anume ar putea fi chei ascunse in Biblie.
De exemplu in Biblie exista peste 1500 de hapaxuri si multa lume necajita care se chinuie zilnic sa le inteleaga sensul din context. Eu nu sunt asa de ambitios cu Biblia, ma multumesc cu Substackul.
Shakespeare a inventat si folosit atat de multe hapax legomena incat unele nu au fost repetate niciodata de nimeni altcineva. De exemplu unul dintre cele mai cunoscute hapaxuri din literatura engleza este "honorificabilitudinitatibus2". Apare o singura data la Shakespeare (in Love’s Labour’s Lost3). Unde sa il mai folosesti? Joac-o p-asta!
Hapaxurile sunt foarte utile in analiza textelor suspecte de plagiat. Daca doua texte au hapaxuri identice, e un semn solid de copiere. Nu stiu daca duamna Emilia4 — saru’mana doamna — le foloseste in eforturile ei de a vana barbati de succes, dar sunt utile. Pe ei si pe mama lor!
Pentru lingvistica computationala hapaxurile sunt ca o pietricica in pantof si pun probleme in modelele statistice: un cuvant care apare o singura data nu ofera destule date pentru antrenarea algoritmilor.
Pentru un criptograf hapaxurile sunt aur curat, cuvintele unice pot oferi indicii despre autor sau structura ascunsa a mesajului.
Pentru stilometria judiciara hapaxurile pot contribui la identificarea autorului unui text necunoscut, mai ales cand sunt corelate cu alte tipare. Umbla vorba prin targ ca dl. Ted Kaczynski, cunoscut sub numele de scena de “Unabomber5” a fost prins intre altele datorita unor hapaxuri de doi lei strecurate in textele domniei sale. Degeaba stii sa faci bombe daca nu stii sa scrii. FBI-ul nu are doar genisti, are si psiholingvisti si stilometricieni.
In sfarsit, un alt loc in care se pot strecura hapaxuri solide sunt protologismele6, adica cuvintele proaspat inventate de cate un autor in cautare de glorie, dar care inca nu au prins tractiune. Bine, cele mai multe nici nu vor prinde, dar sa nu le spuneti asta autorilor, ca le compromiteti increderea in fortele proprii.
De exemplu in unele din blogurile mele se pot strecura protologisme ca hagioproctalgia, care este termenul tehnic pe care eu il propun pentru sfanta durere in cur a romanilor pentru orice situatie. Atentie, a nu se confunda cu proctalgia fugax, care e varianta mireana, total nespirituala a durerii respective. Dar din motive obscure termenul nu are succes, asa hagioproctalgia ramane doar un hapax trist ca o rugaciune care nu prinde semnal. Apare rar in blogurile mele. Tot mai rar.
Iar cu hapax legomena ramane cum am stabilit. Pot masura fie sofisticarea, fie constipatia lexicala. Depinde de autor. Decideti voi.
2. Chickens strike back
Cu aceasta cam lunga introducere voiam sa va spun ca incepand de ieri revista presei substackurilor romanesti de la Paradigma monitorizeaza si hapaxurile din substackurile romanesti cu o formula simpla.
Aveam de ales intre o numarare simpla (de ex “avem 130 de hapaxuri intr-un articol”), un raport intre hapaxuri si totalul cuvintelor dintr-un text, un raport intre hapaxuri si numarul cuvintelor unice din text sau indicele Honore (R), un indicator drag stilometricienilor care combina raritatatea cuvintelor cu lungimea textului.
In final am ales varianta procentului hapaxurilor din cuvintele unice (“hapax-to-types“).
E usor de calculat, usor de interpretat (valori intre 0 si 100) si ne ofera o imagine masurabila a diversitatii vocabularului. Este ultimul din lista de scoruri stilometrice, “hap”. Enjoy!
Ca tot a venit vorba de “revista presei”, am mai facut niste mici modificari, sper utile. La fiecare articol acum apare 🆓 daca publicatia nu are paywall sau 🔓daca are paywall dar articolul curent e free si apare 🔒 daca articolul este paywalled.
M-am mai gandit apoi ca ar putea fi daca nu util atunci macar amuzant sa fie vizibil si abonamentul lunar. In forma de 🔒 (8$) sau 🔓 (5€). Ne bucuram mai mult de articolele la liber 🔓 daca stim cat economisim cand nu dam bani pe ele. 😅
Am mai adaugat apoi la fiecare articol un scurt text ca teaser 👀️. Nu l-am ales eu (desi tentatia a existat, m-am gandit la cateva criterii pentru teaser, de exemplu cea mai lunga fraza, sau fraza continand cel mai lung hapax) ci am mers pe lowest-hanging-fruit si am extras textul pe care il prefera Substack ca “teaser” default. Mai ales cand teaserul imi este favorabil, ca aici. 😁
Am introdus si o forma de calculare a vechimii publicatiei si de estimare a numarului de abonati pentru publicatiile care decid sa dezactiveze cele doua. De exemplu la unul din substackerii mei favoriti care a ales sa ascunda publicului larg numarul abonatilor putem vedea asa, “peste 100 de abonati” pana cand ajunge la 1000, moment in care se va schimba in “peste 1000 de abonati”. Sau pana face publc subscriber count-ul, sa stim si noi cu exactitate. 😅
Si, da, au revenit si puisorii care se transforma in dinozauri, yay!
Hai, recunoasteti ca voiati puisorii inapoi. Deci 🥚vechime sub un an, 🐣 vechime un an, 🐤 doi ani, 🐓 trei ani, 🦅 patru ani,🦖 cinci sau mai multi ani.
Daca aveti sugestii sau critica constructiva, I hear you.






Acum sa spun sincer: sa mor eu daca visam vreodata ca exista asa ceva. Citesc cu gura cascata si ma minunez. Tare de tot
Favorabil ție, defavorabil mie! 😂😂 Mulțumim pentru un nou indicator care sa nu ne lase sa dormim noaptea...😁