Проект по предмету Автоматическая обработка естественного языка 2020
Сайт: http://thebestprojectever.pythonanywhere.com/
- Функция для поиска по корпусу: corpus_search.ipynb
- Предобработка данных: make_dataset.ipynb
- Данные: dataset.csv
Корпус основан на RuTweetCorp и содержит 10 000 твитов
Данные были лемматизированны и рамечены по частям речи с помощью pymorphy2
| Граммема | Значение | Примеры |
|---|---|---|
| NOUN | имя существительное | хомяк |
| ADJF | имя прилагательное (полное) | хороший |
| ADJS | имя прилагательное (краткое) | хорош |
| COMP | компаратив | лучше, получше, выше |
| VERB | глагол (личная форма) | говорю, говорит, говорил |
| INFN | глагол (инфинитив) | говорить, сказать |
| PRTF | причастие (полное) | прочитавший, прочитанная |
| PRTS | причастие (краткое) | прочитана |
| GRND | деепричастие | прочитав, рассказывая |
| NUMR | числительное | три, пятьдесят |
| ADVB | наречие | круто |
| NPRO | местоимение-существительное | он |
| PRED | предикатив | некогда |
| PREP | предлог | в |
| CONJ | союз | и |
| PRCL | частица | бы, же, лишь |
| INTJ | междометие | ой |
Найти все твиты, где:
слово встречается в любой форме
search('люблю')
слово только в конкретной форме
search('"мимими"')
встречается слово в любой форме с заданной частью речи
search('мой+NPRO')
слова с заданной последовательностью частей речи
search('ADVB ADJF NOUN')
присутствует сочетание: любое слово заданной части речи + конкретная словоформа
search('ADVB жить')
любые комбинации предыдущих запросов, максимум – 3 слова
search('девочка+NOUN ADJF INTJ')