ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u (Андрій Рисін, Василь Старко та ін.).
Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки) на основі словника ВЕСУМ. Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:
Він /|він|/|noun:m:v_naz:&pron:pers:3| поспішав /|поспішати|/|verb:imperf:past:m| писати /|писати|/|verb:imperf:inf|
Таким чином, шукати можна за словоформою, лемою або тегами, і різними їх сполученнями.
Леми визначаються тільки для тих слів, які є в словнику. Інші слова можна знайти лише за словоформою.
Повний перелік граматичних тегів (r2u):
[КЛ] - ключ леми (тег, який розрізняє різні леми з омонімів)
noun іменник
[КЛ] anim істота
[КЛ] fname ім'я
[КЛ] lname прізвище
[КЛ] pname по батькові
[КЛ] inanim неістота
[КЛ] unanim невизначена категорія істота/неістота (бактерія)
prop власна назва
geo топонім
verb дієслово
[КЛ] imperf недоконаний вид
[КЛ] perf доконаний вид
[КЛ] rev зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)
inf інфінітив
futr майбутній час
past минулий час
pres теперішній час
impr наказова форма
impers безособова форма
1 1-а особа
2 2-а особа
3 3-а особа
short короткі форми дієслів 3-ї особи, інфінітиви на -ть
long наказові форми на -іте
adj прикметник
compb базова форма
compc порівняльна форма
comps найвища форма
short короткі форми прикметників
long нестягнені форми прикметників
adjp дієприкметник: (:&adjp - лише дієприкметник; :&&adjp - дієприкметник і прикметник)
actv активний
pasv пасивний
imperf недоконаний вид
perf доконаний вид
(past/pres є в коментарях сирців для більшості дієприкметників, але наразі не використовується)
v_zna:rinanim знахідний для неістот (лише ч.р.)
v_zna:ranim знахідний для істот (лише ч.р.)
adv прислівник
compb базова форма
compc порівняльна форма
short вкорочені порівняльні форми
comps найвища форма
advp дієприслівник
[КЛ] perf
[КЛ] imperf
long звортні дієприслівники на -ся
prep прийменник
conj сполучник
subord підрядний
coord сурядний
part частка
intj вигук
numr числівник
noninfl невідмінювані частини (най-най, брутто, екстра...)
foreign запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)
onomat (клас звуконаслідувальних слів)
Спільні для noun/adj/adjp:
Відмінки:
v_naz називний
v_rod родовий
v_dav давальний
v_zna знахідний
v_oru орудний
v_mis місцевий
v_kly кличний
nv не відмінюється
np без множини (TODO: проставлено не всюди)
ns без однини (TODO: проставлено не всюди)
Спільні для noun/adj/adjp/verb
p множина
s однина
Рід:
m чоловічий
f жіночий
n середній
Додаткові теги:
abbr абревіатура
bad покруч/помилкове написання
subst просторічна форма
rare рідковживане
coll розмовне слово/розмовна форма
arch застаріле/архаїчне/(інколи) діалектне.
slang сленг та (проф)жаргонізми
alt альтернативне написання (не за чинним правописом)
vulg вульгарне
ua_1992 за правописом 1992
ua_2019 за правописом 2019
var варіативний знах. відм.
:xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар - р.в. бару, бар - р.в. бара)
# в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий - глупа ніч, без порівняльних форм)
v-u паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)
Додаткові теги класів слів (після &):
&adjp — слова, що є дієприкметниками
&&adjp — слова, що є і прикметниками і дієприкметниками
[КЛ] &pron - наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron
(тег &pron разом з наступним класифікатором стає ключем леми)
&numr - слова, що є порядковими числівниками
&&numr - слова, що є і іменниками і кількісними числівниками
&insert - може бути вставним словом
&predic - може бути предикативом
Теги займенників:
pers особовий
refl зворотний
pos присвійний
dem вказівний
def означальний
int питальний
rel відносний
neg заперечний
ind неозначений
gen узагальнювальний
emph підсилювальний
Деяка асиметрія тегів:
adj
ranim/rinanim присутні лише для adj:m:v_zna та adj:p:v_zna
pron
деякі pron (він, вона, воно, вони) не мають anim/inanim: "він noun:m:..."
деякі pron (ти, я) не мають роду: "я noun:anim:s:..."
персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"
verb
дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"
дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"
Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT):
number - число
number:latin - число латинськими цифрами
date - дата
time - час
Заувага: у словнику є декілька слів з тегами number:latin (усі з :bad) - вони записані кирилицею, це спрощує тегування і позначення
випадків коли латинські числа записані кириличніми літерами
Динамічні теги (відсутні в словнику, їх проставляє модуль тегування TagText):
punct - знаки пунктуації
noninfl:foreign - слова латиницею
Внутнішні теги:
Ці теги використовуються для визначення закінчень в р.в. II відміни для назви міст з правописом-2019 (§ 82. 2.1.1.2)
:town - позначає місто (II відміна)
:towna - позначає місто, що має наголос на останньому складі в р.в. і тому має лише закінчення -а
Коментар # lim позначає обмежені форми (коли лема не має всіх форм, зокрема коли вони їх не вживають, або для :bad коли вона перетинається з правильною лемою)
Теги, яких немає, але які теоретично нескладно додати:
noun:
common gender
verb:
dual form (imperf+perf)
adj:
qualitative (має порівняльні форми) / relative (не має порівняльних)
adjp:
past/pres
advp:
past/pres
tm торгова марка
Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txt
Every part of this theme can be translated to another language. Even this content you are reading now!
The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.
For help on setting up more languages, close this popup and click the Languages menu item.