Згенеровано на основі:
- ubertext, а саме — словника частот лем;
- списка українських чоловічих і жіночих імен з вікіпедії;
- списка українських прізвищ з вікіпедії;
- підсловника по-батькові з ВЕСУМу.
Вже згенерований словник знаходиться у папці generated, який складається з 5 файлів:
lname_freq_dict.csv— частотний словник прізвищ;female_fname_freq_dict.csv— частотний словник жіночих імен;female_pname_freq_dict.csv— частотний словник жіночих по-батькові;male_fname_freq_dict.csv— частотний словник чоловічих імен;male_pname_freq_dict.csv— частотний словник чоловічих по-батькові.
Не потребує окремих залежностей, лише необхідно мати доступ до інтернету для завантаження файлу ubertext_freq.csv.xz.
python3 generate_names_freq_dict.pyДодатково, можна розширити список виключень, додавши нові імена до файлу ignore_list.txt.
Наразі, частотний словник лем має недосконалу токенізацію. А саме, можуть зустрічатись проблеми з іменами, що місять апострофи, дефіси, а також імена, котрі зустрічались в markdown-текстах.