← cd ../blog

Dicționarul românesc: diacritice, frecvențe și cuvinte valide

Sursele libere de cuvinte românești sunt pline de arhaisme, greșeli și forme fără diacritice. Pentru un joc, fiecare cuvânt invalid e o frustrare directă a jucătorului.

Normalizare înainte de orice

const normalizat = cuvant
  .toLowerCase()
  .replaceAll("ş", "ș")
  .replaceAll("ţ", "ț");

Am filtrat apoi după frecvență și lungime, și am împărțit cuvintele pe niveluri de dificultate pe baza literelor rare. Rezultatul: un dicționar de 12.000 de cuvinte verificate.