Глосарій термінів

KWIC див. Ключові слова

Абсолютна частота – див. Частотність.

Атрибут токена – параметр токена, за яким ведеться пошук; атрибут може вказувати на лексему, тег, словоформу (у запиті – lemma, tag, word).

Атрибут документа – інформація, що додається до документа в корпусі, або метадані. Наприклад, doc.style вказує на стиль документа, doc.author – на автора, doc.sex — на стать автора.

Документ – текстовий файл у складі корпусу. Початок і кінець кожного документа в корпусі автоматично позначаються як <doc> і </doc> .

Запит – послідовність символів, що вводить користувач для пошуку в корпусі з метою отримання результатів у вигляді конкордансу.

Запит CQL — запит, написаний мовою CQL (Corpus Query Language), який описує характеристики токена або послідовності токенів і, можливо, якісь додаткові умови для них.

Ключові слова – це слова, за якими здійснювали пошук, вони виділені червоним у конкордансі. KWIC – абревіатура, що означає ключове слово в контексті, Key Word in Context.

Конкорданс – перелік усіх прикладів пошукового слова або фрази, знайдених у корпусі, з інформацією про джерело (метаданими). Можна налаштувати вигляд конкордансу: із пошуковим словом, виділеним у центрі екрана, та з контекстом праворуч і ліворуч (формат KWIC) або із пошуковим словом, виділеним кольором у реченні (формат «У реченні»).

Корпус – велике зібрання текстів, призначене для вивчення мови, що репрезентує зріз мови в цілому або окрему її частину. Корпус зазвичай буває анотований, або розмічений, тобто містить певну інформацію про тексти (наприклад, стиль, жанр, рік написання) і словоформи (граматичні, семантичні, стилістичні характеристики). Терміни «корпус», «корпус текстів» і «мовний корпус» — взаємозамінні. Використання корпусу для будь-якого типу лінгвістичної чи мовно-орієнтованої роботи забезпечує результати, що відображають реальне використання мови.

Лема – початкова форма слова, позиційний атрибут, який програма приписує кожній словоформі в корпусі за словником (отже, леми визначаються тільки для словоформ, які є в словнику, а також для форм складних слів, написаних через дефіс, кожна з частин яких є у словнику як окрема лема, інші словоформи залишаються без лем). Лематизований корпус дозволяє здійснювати пошук за лемою і включати в результат усі форми слова, наприклад, шукаючи лему іти, знайдемо іду, іде, ідемо. Лема чутлива до регістру, тобто лев і Лев — дві різні леми. Частотний список за лемою — це список частот, де всі іду, іде, ідемо подано як іти. Різні види дієслова, орфоепічні і правописні варіанти (на зразок і/й, у/в, вчитель/учитель, аудиторія/авдиторія) у ГРАКу вважаються різними лемами. Пошук за лемою дає змогу користувачеві отримати дані, що точніше характеризують лексему в цілому (її частотні характеристики, сполучуваність з іншими лексемами у межах словосполучень тощо). Тому цей атрибут слід використовувати в усіх запитах, спрямованих на виявлення характеристик саме лексеми, а не її окремої граматичної форми. Винятками є ненормативні, помилкові, обсценні, новостворені, архаїчні лексеми, яких немає у словнику — їх можна знайти тільки за словоформою без закінчення (наприклад, [word= "модняр.*"]).

Метадані — дані з характеристиками певного документа (тексту); наприклад, дані про стиль, автора, стать автора, рік створення, рік публікації тексту.

Позиційний атрибут – інформація, що стосується токена в корпусі, наприклад, лема (lemma), морфологічні ознаки (tag).

Словоформа – реалізація лексеми в тексті в будь-якій граматичній формі (наприклад, іду, іде, ідемо для леми іти); під час пошуку токенів за словоформою використовується позиційний атрибут “word”. Розділові знаки, цифри, будь-які неалфавітні символи й слова іншими мовами також можна шукати за атрибутом “word”.

Структура – корпусна структура це один з автоматично маркованих сегментів, на які можна поділити корпус. ГРАК ділиться на документи ( ) та речення ( ).

Тег – мітка, присвоєна токенам в анотованому корпусі для позначення граматичних, семантичних або стилістичних характеристик. Наприклад, у наборі тегів для словоформи Ганна – |noun:anim:f:v_naz:prop:fname| граматичними характеристиками є noun:anim:f:v_naz: (іменник, істота, жіночий рід, називний відмінок), семантичними – prop:fname (власна назва, ім’я). Приклади стилістичних тегів: coll – розмовне, slang – сленгове, rare – рідковживане, діалектне або застаріле.

Токен – найменша одиниця, на яку поділяється корпус. Такою найменшою одиницєю є будь-яка послідовність символів між пробілами або іншими роздільниками: словоформа, число, розділовий знак, символ (смайлик, математичний символ тощо). Розділові знаки в корпусі опрацьовуються як окремі токени. Пробіли не є токенами. Усі токени можна шукати за атрибутом “word”.

Частотний список – список лем, словоформ або тегів, побудований за певним корпусом, частиною корпусу, конкордансом або вибіркою. Для кожного елемента списку вказано його частотність.

Частотність (також абсолютна частотність) – кількість випадків появи слова, фрази, тега тощо в корпусі, підкорпусі, конкордансі або вибірці. Якщо слово має частоту 10, це означає, що воно було знайдено 10 разів. Це абсолютна цифра, яка не розраховується за допомогою конкретної формули.

На основі матеріалів https://www.sketchengine.eu/documentation/

Глосарій термінів

How to use this theme