Морфологічну розмітку корпусу здійснено автоматично програмою TagText на основі словника ВЕСУМ.
Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки). Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:
Він |він|noun:m:v_naz:&pron:pers:3| поспішав |поспішати|verb:imperf:past:m| писати |писати|verb:imperf:inf|
Більшість версій ГРАКу не має зняття граматичної омонімії, тобто омонімічним словоформам приписано всі можливі варіанти розбору:
Конче, він доросла людина, далеко старіший од хлопців |хлопців|хлопець|adj:m:v_naz|adj:m:v_zna:rinanim|noun:anim:p:v_rod|noun:anim:p:v_zna|
У ГРАКу 17а застосовано автоматичне зняття омонімії (але точність його не 100%):
Син Леопарда лагідно подивився на своїх хлопців |хлопець|noun:anim:p:v_zna|
Шість хлопців |хлопець|noun:anim:p:v_rod| , як дубів, увійшло в коршму.
А хлопців |хлопців|adj:m:v_naz| батько, ніби то був його обов'язок, почав навіть мене втішати.
Теги:
[КЛ] - ключ леми (тег, який розрізняє різні леми з омонімів)
noun іменник
[КЛ] anim істота
[КЛ] fname ім'я
[КЛ] lname прізвище
[КЛ] pname по батькові
[КЛ] inanim неістота
[КЛ] unanim невизначена категорія істота/неістота (бактерія тощо, також деякі займ.: він, вони...)
prop власна назва
[КЛ] geo топонім
verb дієслово
[КЛ] imperf недоконаний вид
[КЛ] perf доконаний вид
[КЛ] rev зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)
inf інфінітив
futr майбутній час
past минулий час
pres теперішній час
impr наказова форма
impers безособова форма
1 1-а особа
2 2-а особа
3 3-а особа
short короткі форми дієслів 3-ї особи, інфінітиви на -ть
long наказові форми на -іте
adj прикметник
compb базова форма
compc порівняльна форма
comps найвища форма
short короткі форми прикметників
long нестягнені форми прикметників
adjp дієприкметник: (:&adjp - лише дієприкметник; :&&adjp - дієприкметник і прикметник)
Заувага: && потрапляють, як просто & в кінцевий словник
actv активний
pasv пасивний
imperf недоконаний вид
perf доконаний вид
v_zna:rinanim знахідний для неістот (лише ч.р. та мн.)
v_zna:ranim знахідний для істот (лише ч.р. та мн.)
adv прислівник
compb базова форма
compc порівняльна форма
short вкорочені порівняльні форми
comps найвища форма
advp дієприслівник
[КЛ] perf
[КЛ] imperf
long звортні дієприслівники на -ся
prep прийменник
conj сполучник
subord підрядний
coord сурядний
part частка
intj вигук
numr числівник
noninfl невідмінювані частини (най-най, брутто, екстра...)
foreign запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)
onomat (клас звуконаслідувальних слів)
Спільні для noun/adj/adjp:
Відмінки:
v_naz називний
v_rod родовий
v_dav давальний
v_zna знахідний
v_oru орудний
v_mis місцевий
v_kly кличний
nv не відмінюється
ns множинний іменник
Спільні для noun/adj/adjp/verb
p множина
s однина
Рід:
m чоловічий
f жіночий
n середній
Додаткові теги:
abbr абревіатура
bad покруч/помилкове написання
subst нестандартні форма
rare рідковживана форма (також другий зн. в. для істот - в президенти)
coll розмовне слово/розмовна форма (наразі не генерується на виході)
arch застаріле/архаїчне/(інколи) діалектне.
slang сленг та (проф)жаргонізми
alt альтернативне написання (не за чинним правописом)
vulg вульгарне
obsc обсценне
ua_1992 за правописом 1992
ua_2019 за правописом 2019
var варіативний знах. відм.
:xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар - р.в. бару, бар - р.в. бара)
# в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий - глупа ніч, без порівняльних форм)
v-u паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)
Додаткові теги класів слів (після &):
&adjp — слова, що є дієприкметниками
[КЛ] &pron - наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron
(тег &pron разом з наступним класифікатором стає ключем леми)
&numr - слова, що є порядковими числівниками
&&numr - слова, що є і іменниками і кількісними числівниками
Заувага: && потрапляють, як просто & в кінцевий словник
&insert - може бути вставним словом
&predic - може бути предикативом
Теги займенників:
pers особовий
refl зворотний
pos присвійний
dem вказівний
def означальний
int питальний
rel відносний
neg заперечний
ind неозначений
gen узагальнювальний
emph підсилювальний
Деяка асиметрія тегів:
adj
ranim/rinanim присутні лише для adj:m:v_zna та adj:p:v_zna
pron
деякі pron (він, вона, воно, вони) мають unanim "він noun:unanim:..."
деякі pron (ти, я) не мають роду: "я noun:anim:s:..."
персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"
verb
дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"
дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"
Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT та TagText):
number - число
number:latin - число латинськими цифрами
date - дата
time - час
hashtag - хештег
punct - пунктуація (лише TagText.groovy)
symb - символ (лише TagText.groovy)
unknown - невідомі українські слова (лише TagText.groovy)
unclass - неукраїнські слова (лише TagText.groovy)
Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txt