Sursele libere de cuvinte românești sunt pline de arhaisme, greșeli și forme fără diacritice. Pentru un joc, fiecare cuvânt invalid e o frustrare directă a jucătorului.
Normalizare înainte de orice
const normalizat = cuvant
.toLowerCase()
.replaceAll("ş", "ș")
.replaceAll("ţ", "ț");
Am filtrat apoi după frecvență și lungime, și am împărțit cuvintele pe niveluri de dificultate pe baza literelor rare. Rezultatul: un dicționar de 12.000 de cuvinte verificate.
