luni, 2 martie 2015

Listă de cuvinte românești cu diacritice / A Romanian wordlist with diacritics






    Pentru aplicații lingvistice și criptografice, aici puteți găsi o listă alfabetică de cuvinte românești cu diacritice, în continuă extindere. Bineînțeles, ea nu este nici pe departe completă: din câte știu, recent finalizatul dicționar-tezaur al Academiei Române cuprinde în jur de 175.000 de cuvinte, fără a socoti și formele derivate, iar lista aceasta abia dacă numără câteva mii. Dar am folosit diacriticele corecte pentru limba română, așa că lista aceasta poate fi utilă atunci când se dorește verificarea rezistenței unei parole la atacuri bruteforce.

    Fișierul este un fișier-text obișnuit (.txt) în format GNU/Linux, care conține caractere din setul UTF-8. Pentru a converti fișierul din format GNU/Linux în format Windows și invers, vă rog să folosiți utilitarele unix2dos și dos2unix .

   Pentru cei care nu sunt la curent, diacriticele corecte pentru limba română sunt cele care au  virgulițe sub Ș, ș, Ț și ț și nu sedile turcești. Mai multe explicații puteți găsi pe blogul d-lui Cristian Secară.

   Lista de cuvinte se află chiar aici: în format text (.txt) sau HTML (.html).

-------------

   For language and cryptographic applications, here you may find an ever-extending Romanian alphabetical wordlist, with proper diacritics. It is not complete by any means: as far as I know, the monumental "Thesaurus-Dictionary of the Romanian Language", recently completed and published by the Romanian Academy, includes about 175.000 words, not counting the flexional forms; this list barely has a few thousands. But I've included the words spelled with correct Romanian diacritics, so this list may be useful when one wants to check the vulnerability of a chosen password to bruteforce attacks.

    The file is a simple text file (.txt), in GNU/Linux format, that uses UTF-8 characters. Please use the unix2dos and dos2unix utilities for converting it from GNU/Linux format to Windows format, back and forth.
    
    For those of you that are not yet aware, the correct diacritics for Romanian language has commas under Ș, ș, Ț, ț (as opposed to cedillas). More details on Cristian Secară's blog.

      The wordlist is here: in text format (.txt) or HTML (.html).


Niciun comentariu: