Skip to content

lang-uk/name_freq_dict_uk

Repository files navigation

Частотний словник українських імен на основі ubertext

English version

Згенеровано на основі:

  1. ubertext, а саме — словника частот лем;
  2. списка українських чоловічих і жіночих імен з вікіпедії;
  3. списка українських прізвищ з вікіпедії;
  4. підсловника по-батькові з ВЕСУМу.

Вже згенерований словник знаходиться у папці generated, який складається з 5 файлів:

  • lname_freq_dict.csv — частотний словник прізвищ;
  • female_fname_freq_dict.csv — частотний словник жіночих імен;
  • female_pname_freq_dict.csv — частотний словник жіночих по-батькові;
  • male_fname_freq_dict.csv — частотний словник чоловічих імен;
  • male_pname_freq_dict.csv — частотний словник чоловічих по-батькові.

Генерація словника

Не потребує окремих залежностей, лише необхідно мати доступ до інтернету для завантаження файлу ubertext_freq.csv.xz.

python3 generate_names_freq_dict.py

Додатково, можна розширити список виключень, додавши нові імена до файлу ignore_list.txt.

Обмеження

Наразі, частотний словник лем має недосконалу токенізацію. А саме, можуть зустрічатись проблеми з іменами, що місять апострофи, дефіси, а також імена, котрі зустрічались в markdown-текстах.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages