Skip to content

Проект по курсу "Автоматическая обработка естественного языка" 2020

Notifications You must be signed in to change notification settings

Kostrykina18/NLP_HSE_twitter_corpus_search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 

Repository files navigation

NLP_HSE_project

Проект по предмету Автоматическая обработка естественного языка 2020

Сайт: http://thebestprojectever.pythonanywhere.com/

Данные

Корпус основан на RuTweetCorp и содержит 10 000 твитов

Предобработка

Данные были лемматизированны и рамечены по частям речи с помощью pymorphy2

Части речи

Граммема Значение Примеры
NOUN имя существительное хомяк
ADJF имя прилагательное (полное) хороший
ADJS имя прилагательное (краткое) хорош
COMP компаратив лучше, получше, выше
VERB глагол (личная форма) говорю, говорит, говорил
INFN глагол (инфинитив) говорить, сказать
PRTF причастие (полное) прочитавший, прочитанная
PRTS причастие (краткое) прочитана
GRND деепричастие прочитав, рассказывая
NUMR числительное три, пятьдесят
ADVB наречие круто
NPRO местоимение-существительное он
PRED предикатив некогда
PREP предлог в
CONJ союз и
PRCL частица бы, же, лишь
INTJ междометие ой

Поиск по корпусу

Найти все твиты, где:

слово встречается в любой форме

search('люблю')

слово только в конкретной форме

search('"мимими"')

встречается слово в любой форме с заданной частью речи

search('мой+NPRO')

слова с заданной последовательностью частей речи

search('ADVB ADJF NOUN')

присутствует сочетание: любое слово заданной части речи + конкретная словоформа

search('ADVB жить')

любые комбинации предыдущих запросов, максимум – 3 слова

search('девочка+NOUN ADJF INTJ')

About

Проект по курсу "Автоматическая обработка естественного языка" 2020

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published