Глосарій термінів

KWIC див. Ключові слова

Абсолютна частота – див. Частотність.

Атрибут токена – параметр токена, за яким ведеться пошук; атрибут може вказувати на лексему, тег, словоформу (у запиті – lemma, tag, word).

Атрибут документа – інформація, що додається до документа в корпусі, або метадані. Наприклад, doc.style вказує на стиль документа, doc.author – на автора, doc.sex — на стать автора.

Документ – текстовий файл у складі корпусу. Початок і кінець кожного документа в корпусі автоматично позначаються як <doc> і </doc> .

Запит – послідовність символів, що вводить користувач для пошуку в корпусі з метою отримання результатів у вигляді конкордансу.

Запит CQL — запит, написаний мовою CQL (Corpus Query Language), який описує характеристики токена або послідовності токенів і, можливо, якісь додаткові умови для них.

Ключові слова – це слова, за якими здійснювали пошук, вони виділені червоним у конкордансі. KWIC – абревіатура, що означає ключове слово в контексті, Key Word in Context.

Конкорданс – перелік усіх прикладів пошукового слова або фрази, знайдених у корпусі, з інформацією про джерело (метаданими). Можна налаштувати вигляд конкордансу: із пошуковим словом, виділеним у центрі екрана, та з контекстом праворуч і ліворуч (формат KWIC) або із пошуковим словом, виділеним кольором у реченні (формат «У реченні»).

Корпус – велике зібрання текстів, призначене для вивчення мови, що репрезентує зріз мови в цілому або окрему її частину. Корпус зазвичай буває анотований, або розмічений, тобто містить певну інформацію про тексти (наприклад, стиль, жанр, рік написання) і словоформи (граматичні, семантичні, стилістичні характеристики). Терміни «корпус», «корпус текстів» і «мовний корпус» — взаємозамінні. Використання корпусу для будь-якого типу лінгвістичної чи мовно-орієнтованої роботи забезпечує результати, що відображають реальне використання мови.

Лема – початкова форма слова, позиційний атрибут, який програма приписує кожній словоформі в корпусі за словником (отже, леми визначаються тільки для словоформ, які є в словнику, а також для форм складних слів, написаних через дефіс, кожна з частин яких є у словнику як окрема лема, інші словоформи залишаються без лем). Лематизований корпус дозволяє здійснювати пошук за лемою і включати в результат усі форми слова, наприклад, шукаючи лему іти, знайдемо іду, іде, ідемо. Лема чутлива до регістру, тобто лев і Лев — дві різні леми. Частотний список за лемою — це список частот, де всі іду, іде, ідемо подано як іти. Різні види дієслова, орфоепічні і правописні варіанти (на зразок і/й, у/в, вчитель/учитель, аудиторія/авдиторія) у ГРАКу вважаються різними лемами. Пошук за лемою дає змогу користувачеві отримати дані, що точніше характеризують лексему в цілому (її частотні характеристики, сполучуваність з іншими лексемами у межах словосполучень тощо). Тому цей атрибут слід використовувати в усіх запитах, спрямованих на виявлення характеристик саме лексеми, а не її окремої граматичної форми. Винятками є ненормативні, помилкові, обсценні, новостворені, архаїчні лексеми, яких немає у словнику — їх можна знайти тільки за словоформою без закінчення (наприклад, [word= "модняр.*"]).

Метадані — дані з характеристиками певного документа (тексту); наприклад, дані про стиль, автора, стать автора, рік створення, рік публікації тексту.

Позиційний атрибут – інформація, що стосується токена в корпусі, наприклад, лема (lemma), морфологічні ознаки (tag).

Словоформа – реалізація лексеми в тексті в будь-якій граматичній формі (наприклад, іду, іде, ідемо для леми іти); під час пошуку токенів за словоформою використовується позиційний атрибут “word”. Розділові знаки, цифри, будь-які неалфавітні символи й слова іншими мовами також можна шукати за атрибутом “word”.

Структура – корпусна структура це один з автоматично маркованих сегментів, на які можна поділити корпус. ГРАК ділиться на документи ( ) та речення ( ).

Тег – мітка, присвоєна токенам в анотованому корпусі для позначення граматичних, семантичних або стилістичних характеристик. Наприклад, у наборі тегів для словоформи Ганна – |noun:anim:f:v_naz:prop:fname| граматичними характеристиками є noun:anim:f:v_naz: (іменник, істота, жіночий рід, називний відмінок), семантичними – prop:fname (власна назва, ім’я). Приклади стилістичних тегів: coll – розмовне, slang – сленгове, rare – рідковживане, діалектне або застаріле.

Токен – найменша одиниця, на яку поділяється корпус. Такою найменшою одиницєю є будь-яка послідовність символів між пробілами або іншими роздільниками: словоформа, число, розділовий знак, символ (смайлик, математичний символ тощо). Розділові знаки в корпусі опрацьовуються як окремі токени. Пробіли не є токенами. Усі токени можна шукати за атрибутом “word”.

Частотний список – список лем, словоформ або тегів, побудований за певним корпусом, частиною корпусу, конкордансом або вибіркою. Для кожного елемента списку вказано його частотність.

Частотність (також абсолютна частотність) – кількість випадків появи слова, фрази, тега тощо в корпусі, підкорпусі, конкордансі або вибірці. Якщо слово має частоту 10, це означає, що воно було знайдено 10 разів. Це абсолютна цифра, яка не розраховується за допомогою конкретної формули.

На основі матеріалів https://www.sketchengine.eu/documentation/

How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.