Семантична розмітка

Починаючи з версії 10 в корпусі ГРАК застосовується система семантичної анотації для тегування найчастотнішої лексики в текстах. Відповідно до цієї системи, слову присвоюється одна чи більше семантичних ознак, наприклад, автор тегується як 1:conc:hum, де conc означає ‘конкретний іменник’, а hum — ‘людина’. Двокрапка розмежовує окремі семантичні теги в межах послідовностей. Прикметник малий має три значення, й кожна позначено іншим тегом: size (розмір), age (вік) та degree (ступінь). Повна анотація для цього слова має вигляд 1:size:2:age:3:degree. Числами розмежовано окремі значення, причому 1 позначає найчастотніше.

Всі семантично проанотовані слова становлять Український семантичний лексикон (УСЛ). Його поточна версія доступна онлайн.

Семантичний тегсет (набір тегів) наведено нижче, а тут відзначмо, що деякі теги семантичного типу наявні не в семантичній, а в мофрологічній частині розмітки корпусу ГРАК, бо вони містяться в словнику словозміни української мови  VESUM, який використовується для морфологічного анотування корпусу. Ось ці теги:

abbr (скорочення)

prop (власна назва)

Власні назви далі позначаються у ВЕСУМі одним із конкретніших тегів:

prop:lname (прізвище)

prop:fname (ім’я)

prop:pname (по батькові)

prop:geo (географічна назва)

prop:abbr (абревіатура власної назви)

Назва річки Дунай маркується ланцюжком морфологічних тегів noun:inanim:m:v_naz:prop:geo, ім’я Павло — noun:anim:m:v_naz:prop:fname, а по батькові Іванович — noun:anim:f:v_naz:nv:prop:lname, два останні теги в кожному випадку несуть також семантичне навантаження. Ще три теги, а саме number (число), date (дата) й time (час), не вміщено у ВЕСУМ-і, однак вони присвоюються словам динамічно під час тегування текстів. Отже, ці динамічно приписувані теги й згадані вище теги для власних назв й абревіатур фігурують у морфологічній анотації в корпусі ГРАК, а всі інші теги, розглянуті нижче, є частиною семантичної анотації.



Для семантичного анотування ГРАКу застосовано фасетних підхід, який дає змогу гнучно комбінувати теги. Наприклад, комбінацію org&&build використано в тегуванні лем лікарня, музей та міністерство, щоб показати випадок регулярної полісемії, коли слово може бути вжито на позначення або організації, або будівлі в кожному конкретному контексті. В цьому випадку використовується подвійний амперсанд. Семантичні теги, які в інших випадках є взаємовиключними, можуть, однак, інколи застосовуватися одночасно, і в цих випадках їх поєднано одним амперсандом &. Наприклад, одне значення слів  хвилина, годинаденьтижденьмісяцьрік та століття протеговано abst:time:period&unit на позначення того, що ці абстрактні іменники одночасно позначають період часу й одиницю вимірювання часу.


Для пошуку з використанням семантичних тегів введіть вираз CQL із оператором semtag. Наприклад, такий запит мовою CQL шукатиме всі конкретні іменники, що мають семантичний тег loc (місце): [semtag=".*conc:loc.*"].


Семантичні теги розроблено окремо для шести великих розрядів слів: конкретні іменники, абстрактні іменники, власні назви, прикметники, прислівники й дієслова. В межах кожної групи семантичні теги присвоєно в такому порядку:

конкретні іменники (conc) — таксономія, мереологія, топологія, оцінка

абстрактні іменники (abst) — таксономія, мереологія, оцінка

власні назви (prop) — таксономія

прикметники – таксономія, оцінка

прислівники – таксономія, оцінка

дієслова – таксономія, каузативність.


Семантичний тегсет розробляється ітеративно, починаючи з найчастотнішої української лексики. На кожному етапі анотації й сам тегсет може бути змінено й вдосконалено. Початковий тегсет із прикладами було представлено на конференції CoLinS у 2020 році (публікація). Нижче наведено поточну версію, яку застосовано в Українському семантичному лексиконі (УСЛ в.1) і яка наразі охоплює дещо більше тисячі найчастотніших лем української мови плюс деякі додаткові слова. Теги перелічено в абетковому порядку в межах кожного розряду слів.


Хоча семантичні теги розроблено для кожного великого розряду слів окремо, подібний семантичний вміст позначено однорідними семантичними тегами в різних категоріях. Наприклад, фізичні властивості протеговано так само серед іменників, прикметників, прислівників та дієслів: soundcolorlight тощо. Це дає змогу сформулювати пошуковий запит, який знайде всі слова, що стосуються певної фізичної властивості, незалежно від їхньої частиномовної належності. Віддієслівні абстрактні іменники та відповідні дієслова також мають низку спільних семантичних тегів (moveperceptput тощо), позаяк вони передають подібну семантичну інформацію.


СЕМАНТИЧНИЙ ТЕГСЕТ

 

КОНКРЕТНІ ІМЕННИКИ (CONC)

Таксономія

conc:animal тварини (кітакула, бактерія)

conc:build будинки й конструкції (палац)

conc:cloth одяг і взуття (штани)

conc:dish посуд і кухонне начиння (тарілкакаструля)

conc:doc документи (акція, квиток, диплом)

conc:food їжа та напої (компотсуші)

conc:food&fruit їстівний плід (вишня). Прим.: тут fruit ‘плід’ вжито в науковому значенні.

conc:form форма (лінія, гора)

conc:furnit меблі (стіллюстра)

conc:hum люди (жінкакоролева)

conc:hum:group групи людей, об’єднані на основі етнічності, місця народження чи проживання тощо (африканецьльвів’янкакоманда)

conc:hum:kin родичі (мамабрат)

conc:hum:prof професія (вчителька, журналіст)

conc:loc місця й простори (космосущелина)

conc:loc:room кімнати в будівлях (офіскухня)

conc:money гроші (доларгрн)

conc:mushr гриби (мухомор)

conc:org організації (компаніякомітет)

conc:org&&build організації й будівлі (школалікарня)

conc:plant рослини (кактусжито)

conc:poss власність (майно)

conc:speech мовленнєві одиниці (словосклад)

conc:stuff речовини й матеріали (полотнокислота)

conc:supernat надприродні істоти (русалкаєдиноріг)

conc:text текстові об’єкти (лист, договір)

conc:thing окремі об’єкти взагалі (річоб’єкт, продукт)

conc:tool знаряддя взагалі (начинняцвях)

conc:tool:device прилади (телефонтелевізор)

conc:tool:instr ручне знаряддя (пензликлопата)

conc:tool:music музичні інструменти (бандураскрипка)

conc:tool:weapon зброя (пістолетмеч)

conc:vehicle транспортні засоби (візпором)

conc:work твори мистецтва (літописскульптура)

 

Мереологія

conc:body:animal:part частини тіла тварин (хвісткіготь)

conc:body:hum:part частини тіла людини (ніготьмізинець)

conc:body:part частини тіла людини або тварини (нейронпечінка)

conc:build:part частини будівель (коридоркупол)

conc:cloth:part частини одягу й взуття (штанинашов)

conc:collect збірні назви (студентствозерно)

conc:dish:part частини посуду (горлечкоденце)

conc:food:part частини їжі (скорина,  друге)

conc:furnit:part частини меблів (ніжкастільниця)

conc:higherclass класи на вищому рівні людської категоризації (інструментлюдинарослиназасіб)

conc:loc:part частини місць і просторів (дноповерхня)

conc:loc:room:part частини кімнат (вікнобатарея)

conc:org:part частини організацій (відділ, кафедра, підрозділ)

conc:part частини загалом (початоксередина)

conc:plant:part частини рослин (листокквітколоже)

conc:quantum частинки й порції речовин (крихтауламок)                                                                   

conc:set набори (віноккласзаконодавство)

conc:text:part частини текстів (зміст)

conc:tool:device:part частини приладів (кнопкапружина)

conc:tool:instr:part частини ручних знарядь (вентильруків’я)

conc:tool:music:part частини музичних інструментів (струнаклавіша)

conc:tool:part частини знарядь взагалі (ланка)

conc:tool:weapon:part частини зброї (приціл)

conc:vehicle:part частини транспортних засобів (кермопедаль)

 

Топологія

conc:container місткості (контейнеркоробка)

conc:surface поверхні (підлогастадіонмайдан)

conc:ball сфери, кулі (м’яч, сонце)

conc:line лінії (кордон, стрічка)


Оцінка

conc:posit позитивна (господинямолодець)

conc:negat негативна (маньякворог)


АБСТРАКТНІ ІМЕННИКИ (ABST)

Таксономія

abst:abst абстрактна властивість (непередбачуваністьякість)

abst:abst:humqual абстрактна властивість людини (добротащедрість)

abst:appear початок існування (виникненняствореннянародження)

abst:behave людська поведінка (вдячність, сварка)

abst:chstate зміна стану чи властивості (розширеннясповільненняспрощення)

abst:contact контакт й опора (фіксуваннядоторк)

abst:create створення фізичного об’єкта (налаштуваннявиробництвоскладання, розроблення)

abst:destr знищення (розбір, руйнація)

abst:disappear кінець існування (знищеннявикоріненняскасування)

abst:disease хвороба (пневмоніяінфекція)

abst:event подія (зборифестиваль)

abst:exist існування (життянаявність)

abst:game гра (вікторинапокер)

abst:impact фізичний вплив (розкопуваннявишиванняудар)

abst:interact взаємодія (знайомство, відносини)

abst:interact:conflict конфлікт, конфронтація (дуельвійна, боротьба)

abst:light світло (сутінкипромінь)

abst:loc позиція, місце розташування (розташування)

abst:loc:body тілесна поза (обіймипоклонсидіння)

abst:ment ментальний простір (образаусвідомленнядумка)

abst:move рух (вихідпірнанняпереставляння)

abst:move:body зміна позиції чи рух частини тіла (помахкліпання)

abst:param параметр (швидкістьглибинаціна)

abst:percept сприйняття (відчуттявраженняпогляд)

abst:physio фізіологія (здоров’ядиханнявтома)

abst:physqual фізична властивість (м’якістьслизькість)

abst:physqual:color колір (зеленинавідтінок)

abst:physqual:form форма (вигнутість, опуклість)

abst:physqual:hum риса людини (дужість, моторність)

abst:physqual:smell запах (чадаромат)

abst:physqual:sound звук (лунаплюскіт)

abst:physqual:taste смак (терпкістьсолодкавість)

abstphysqual:tempr температура (спекамороз)

abst:physqual:vis вигляд (вигляд, зовнішність, тьмяність)

abst:physqual:weight вага (ношабаласт)

abst:put розміщення фізичного об’єкта (встановленнязаписзавантаження)

abst:poss власність (продажобмінвтрата)

abst:psych психічний простір (настрійнетерплячказбудженість)

abst:psych:emot емоція (щастянудьга)

abst:psych:vol воля (охота, бажання)

abst:quantit кількість (тисячамлн)

abst:quantit:max максимальна кількість (сила, море, гора)

abst:speech мовленнєвмий акт (питанняпорада)

abst:sport спорт (тенісальпінізм)

abst:state стан (безпека, цілісність)

abst:time час (пораминуле)

abst:time:age вік (вік, повноліттядитинство)

abst:time:moment момент (митьсекунда)

abst:time:month місяць (січень)

abst:time:period період (доба, зміна)

abst:time:week день тижня (понеділок)

abst:unit одиниця вимірювання (кілометр)

abst:vis абстрактне представленя (образ)

abst:weather погодне явище (буряпосуха)


Мереологія

abst:collect збірка різних об’єктів (інститут, механізм)

abst:part частина (вечіркінець)

abst:quantum квант (випадокраз, момент)

abst:set набір аналогічних об’єктів (союзсерія)

 

Оцінка

abst:posit позитивна (успіхпорядок)

abst:negat негативна (брехня, вульгарність)


ВЛАСНІ НАЗВИ (PROP)

Таксономія

prop власна назва (Різдво, ООН)

fname ім’я (МаріяТарас)

pname по батькові (АндріївнаГригорович)

lname прізвище (БойкоКовальчук)

geo географічна назва (ЛьвівДніпро)

supernat надприродна істота (Перун)

 

ПРИКМЕТНИКИ

Таксономія

abst абстрактна властивість (безпечнийневпиннийнепередбачуваний)

abst:hum абстрактна риса людини (розумнийдобрийхитрий)

abst:ment абстрактна ментальна властивість (чіткийнезрозумілий)

abst:sim подібність (однаковий, інший, аналогічний)

abst:vis вигляд людини, предметів (згорблений, усміхнений, ажурний)

age вік (неповнолітнійдорослий)

age:absol абсолютний вік (двомісячнийп’ятнадцятирічний)

age:max максимальний вік (старезнийдревній)

age:min мінімальний вік (малолітнійдитячий)

degree ступінь (помірний)

degree:max максимальний ступінь (видатнийвсесильний)

degree:min мінімальний ступінь (мізерний)

dist відстань (крайнійсусідній)

dist:absol абсолютна відстань (двометровийсемисантиметровий)

dist:max максимальна відстань (далекийвіддалений)

dist:min мінімальна відстань (прилеглийближній)

dur тривалість (вічнийхвилинний)

dur:absol абсолютна тривалість (двогодиннийтрихвилинний)

dur:max максимальна тривалість (багатолітнійдовготривалий)

dur:min мінімальна тривалість (скороченийнедовготривалий)

hierar ієрархічна властивість (головний, найважливіший, рядовий, центральний)

ord порядковість (третій, наступний)

orient напрям, орієнтація (центральнийсхіднийзворотний)

physio фізіологічна властивість (хворий)

physqual фізична властивість (слизькийм’який)

physqual:color колір (бірюзовийзолотистий)

physqual:form форма (рівнийкруглий)

physqual:hum фізична властивість людини (дужий, моторний)

physqual:smell запах (ароматний)

physqual:sound звук (лункийщебетливий)

physqual:taste смак (прянийсмачнийтерпкий)

physqual:tempr температура (прохолоднийгарячий)

physqual:vis світло (тьмянийблискучийіскристий)

physqual:weight вага (масивнийтяжкий)

poss власність, належність комусь у широкому сенсі (Андріїв, власний)

psych:emot емоція (злий, радісний)

quantit кількість (однократнийдостатній)

quantit:absol абсолютна кількість (подвійний)

quantit:max максимальна кількість (значнийчисленний)

quantit:min мінімальна кількість (мізернийнедостатній)

size розмір (глибокийвисокий)

size:absol абсолютний розмір (триметровий, двоповерховий)

size:max максимальний розмір (великиймасивний)

size:min мінімальний розмір (малийдрібний)

speed швидкість (прискорений)

speed:max максимальна швидкість (стрімкийпришвидшений)

speed:min мінімальна швидкість (млявийнеквапний)

time час (теперішнійнічнийновий)


Оцінка

posit позитивна (прекраснийсмачнийщасливий)

negat негативна (бездарнийцинічний)


 

ПРИСЛІВНИКИ

Taxonomy

abst абстрактна властивість (безпечноневпиннонепередбачувано)

abst:hum абстрактна властивість людини (суворочеснохитро)

abst:ment абстрактна властивість у ментальному просторі (уважночіткозрозуміло)

cause причина (спересердя)

degree ступінь (досить)

degree:max максимальний ступінь (сильно, максимально, чимдуж)

degree:min мінімальний ступінь (нітрохи, ледве, трішки)

dist відстань (недалеконеподалік)

dist:max максимальна відстань (якнайдалі)

dist:min мінімальна відстань (впритул)

dur тривалість загалом (недовго)

dur:max максимальна тривалість (вічноповік)

dur:min мінімальна тривалість (коротко)

freq частота (часто, іноді)

goal мета, навмисність (ненарокомвипадково)

manner спосіб (по-німецькомупо-добромунавприсядки)

modal модальність (треба, потрібно, безумовно, звичайно, мабуть, справді)

ord порядковість (насамперед, по-друге)

orient напрям, орієнтація (налівододому)

physqual фізична властивість (чистом’якоцілком)

physqual:color колір (зеленаво, квітчасто)

physqual:form форма (тупокруто)

physqual:hum фізична властивість людини (моторно)

physqual:smell запах (затхлодухмяно)

physqual:sound звук (гучнотихо)

physqual:taste смак (смачнопікантногірко)

physqual:tempr температура (гарячехолодно)

physqual:vis вигляд (світлотемно, видно)

physqual:weight вага (важко)

place місце (всюдиокремо)

quantit кількість (достатньо)

quantit:absol абсолютна кількість (двічі)

quantit:max максимальна кількість (надміру)

quantit:min мінімальна кількість (мізерно)

speed швидкість взагалі (поволі)

speed:max максимальна швидкість (моментальнонегайно)

speed:min мінімальна швидкість (спроквола)

time час (зазвичайрановідтепер)

 

Оцінка

posit позитивна (щасливо, краще, весело)

negat негативна (нечесно, гірше, страшно)

 

ДІЄСЛОВА

Таксономія

able спроможність (могти, уміти)

act дія взагалі (діяти, виконувати) 

appear початок існування (народитися, скластися)

begin починати (щось робити) (започаткувати, відкрити)

behave поведінка (лінуватисявеселитися)

chstate зміна стану чи властивості (лікуватизменшитирозігрівати, спростити)

contact контакт й опора (доторкатисяспиратися)

create створення фізичного чи нефізичного об’єкта (будувативстановити)

destr знищення (стиратиспалювати)

disappear кінець існування (загубитизникнутискасувати)

effect нефізичний вплив (допомагати, сприяти, впливати)

effort старання (старатися, намагатися)

end кінець, припинення (залишити, зупинитися, закінчуватися)

exist існування (жититворити)

func функціювання (функціювати, робити)

grasp схоплення (взяти, схопити)

impact фізичний вплив (ударяти, зішкрябувати, відкривати)

light світло (виблискуватимеркнути)

limit досягнення чи наближення до межі (наїстися s fill’, виспатися, замучитися)

loc позиція, місце (залишити (щось десь), перебувати)

loc:body особлива позиція тіла (стоятилягти)

ment ментальний простір (віритимріяти)

modal модальність (мовляти у формі вставного слова мовляв)

move рух (тектинестиіти, штовхати)

move:body зміна позиції чи рух частина тіла (лягатинахилятися)

orient рух, зміна тощо в певному напрямку, орієнтація, фізична й нефізична (направляти, вести)

percept сприйняття (здаватисяслухатидивитися)

phase фазове дієслово (починатипродовжуватизакінчувати)

physio фізіологія (плакати, втомлюватися)

physqual фізична властивість (тужавіти)

physqual:color колір (червоніти)

physqual:form форма (рівнішати, вигнутися)

physqual:hum фізична властивість людини (підрости)

physqual:smell запах (духмяніти)

physqual:sound звук (звучати, щебетати)

physqual:taste смак (смакувати, гірчити)

physqual:tempr температура (холоднішати)

physqual:vis вигляд (маяти, виникати)

put розміщення об’єкта (ставитирозсадити)

poss власність (зловитипередати)

prof професія (вчителювати, теслювати)

psych психічний простір (заспокоїтисятерпітитурбуватися)

psych:emot емоція (ображатисясумувати)

psych:want прагнення, дозвіл, бажання (хотітидозволяти)

smell запах (пахнути)

sound звук (свистітигавкати)

speech мовленнєвий акт (питатимолитися)

taste смак (солодитигірчити)

use використання (використовувати, застосовувати)

weather погодне явище (мрячитивіяти)

 

Каузативність

caus каузативне дієслово (купуватипоказати)

noncaus некаузативне дієслово (старатисяповертатися, спати)


V. Starko. Implementing Semantic Annotation in a Ukrainian Corpus. CEUR Workshop Proceedings. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021). Volume I: Main Conference. Kharkiv, Ukraine, April 22-23, 2021. P. 435-447

Vasyl Starko. Semantic Annotation for Ukrainian: Categorization Scheme, Principles, and Tools. Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020