Морфологічна розмітка

Морфологічну розмітку корпусу здійснено автоматично програмою TagText на основі словника ВЕСУМ.

Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки). Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:

Він |він|noun:m:v_naz:&pron:pers:3| поспішав |поспішати|verb:imperf:past:m| писати |писати|verb:imperf:inf|


Більшість версій ГРАКу не має зняття граматичної омонімії, тобто омонімічним словоформам приписано всі можливі варіанти розбору:

Конче, він доросла людина, далеко старіший од хлопців |хлопців|хлопець|adj:m:v_naz|adj:m:v_zna:rinanim|noun:anim:p:v_rod|noun:anim:p:v_zna|

У ГРАКу 17а застосовано автоматичне зняття омонімії (але точність його не 100%):

Син Леопарда лагідно подивився на своїх хлопців |хлопець|noun:anim:p:v_zna|

Шість хлопців |хлопець|noun:anim:p:v_rod| , як дубів, увійшло в коршму.

А хлопців |хлопців|adj:m:v_naz| батько, ніби то був його обов'язок, почав навіть мене втішати.


Теги:


[КЛ] - ключ леми (тег, який розрізняє різні леми з омонімів)

noun    іменник

    [КЛ] anim       істота

    [КЛ] fname      ім'я

    [КЛ] lname      прізвище

    [КЛ] pname       по батькові

    [КЛ] inanim     неістота

    [КЛ] unanim     невизначена категорія істота/неістота (бактерія тощо, також деякі займ.: він, вони...)

         prop       власна назва

    [КЛ] geo        топонім


verb    дієслово

    [КЛ] imperf недоконаний вид

    [КЛ] perf доконаний вид

    [КЛ] rev  зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)


    inf інфінітив

    futr  майбутній час

    past  минулий час

    pres  теперішній час

    impr    наказова форма

    impers безособова форма


    1       1-а особа

    2       2-а особа

    3       3-а особа


    short   короткі форми дієслів 3-ї особи, інфінітиви на -ть

    long    наказові форми на -іте



adj     прикметник

    compb    базова форма

    compc    порівняльна форма

    comps    найвища форма

    short    короткі форми прикметників

    long     нестягнені форми прикметників


    adjp    дієприкметник: (:&adjp - лише дієприкметник; :&&adjp - дієприкметник і прикметник)

            Заувага: && потрапляють, як просто & в кінцевий словник

        actv   активний

        pasv   пасивний

        imperf недоконаний вид

        perf   доконаний вид


    v_zna:rinanim   знахідний для неістот (лише ч.р. та мн.)

    v_zna:ranim     знахідний для істот (лише ч.р. та мн.)


adv     прислівник

    compb    базова форма

    compc    порівняльна форма

        short вкорочені порівняльні форми

    comps    найвища форма


advp    дієприслівник

    [КЛ] perf

    [КЛ] imperf


    long звортні дієприслівники на -ся


prep    прийменник


conj    сполучник

    subord підрядний

    coord сурядний


part    частка


intj    вигук


numr    числівник



noninfl     невідмінювані частини (най-най, брутто, екстра...)

    foreign     запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)


onomat (клас звуконаслідувальних слів)



Спільні для noun/adj/adjp:

    Відмінки:

        v_naz   називний

        v_rod   родовий

        v_dav   давальний

        v_zna   знахідний

        v_oru   орудний

        v_mis   місцевий

        v_kly   кличний

        nv    не відмінюється

        ns    множинний іменник




Спільні для noun/adj/adjp/verb

    p  множина

    s  однина


    Рід:

        m  чоловічий

        f  жіночий

        n  середній



Додаткові теги:


    abbr  абревіатура

    bad   покруч/помилкове написання

    subst нестандартні форма

    rare  рідковживана форма (також другий зн. в. для істот - в президенти)

    coll  розмовне слово/розмовна форма (наразі не генерується на виході)

    arch  застаріле/архаїчне/(інколи) діалектне.

    slang сленг та (проф)жаргонізми

    alt   альтернативне написання (не за чинним правописом)

    vulg  вульгарне

    obsc  обсценне


    ua_1992 за правописом 1992

    ua_2019 за правописом 2019


    var   варіативний знах. відм.


    :xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар - р.в. бару, бар - р.в. бара)

    # в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий - глупа ніч, без порівняльних форм)



    v-u   паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)



Додаткові теги класів слів (після &):

     &adjp — слова, що є дієприкметниками

[КЛ] &pron - наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron

        (тег &pron разом з наступним класифікатором стає ключем леми)

     &numr - слова, що є порядковими числівниками

     &&numr - слова, що є і іменниками і кількісними числівниками

            Заувага: && потрапляють, як просто & в кінцевий словник

     &insert - може бути вставним словом

     &predic - може бути предикативом



Теги займенників:

    pers  особовий

    refl  зворотний

    pos   присвійний

    dem   вказівний

    def   означальний

    int   питальний

    rel   відносний

    neg   заперечний

    ind   неозначений

    gen   узагальнювальний

    emph  підсилювальний



Деяка асиметрія тегів:

    adj

        ranim/rinanim присутні лише для adj:m:v_zna та adj:p:v_zna


    pron

        деякі pron (він, вона, воно, вони) мають unanim "він noun:unanim:..."

        деякі pron (ти, я) не мають роду: "я noun:anim:s:..."

        персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"


    verb

        дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"

        дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"



Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT та TagText):

    number - число

    number:latin - число латинськими цифрами

    date - дата

    time - час

    hashtag - хештег

    punct - пунктуація (лише TagText.groovy)

    symb - символ (лише TagText.groovy)

    unknown - невідомі українські слова (лише TagText.groovy)

    unclass - неукраїнські слова (лише TagText.groovy)

Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txt

В. Старко. А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови. Галактика Слова. Галині Макарівні Гнатюк / Ін-т укр. мови НАН України. К. : Вид. дім Дмитра Бураго, 2020. С. 135–141