Версії корпусу

ГРАК-17, 17а

Корпус має обсяг 1,781 млрд токенів.

Додано колекцію західноукраїнської преси 1890-1940-х рр., корпус твіттера, форуми. Скорочено колекцію онлайн-новин за 2022 рік.

Додано стиль (doc.style): ICM (інтернет-комунікація)

У версії 17а доступні нові атрибути розмітки: doc.mediaAdmin (політична приналежність змі), doc.ageCode (вікова група, для дитячої літератури).

ГРАК-16

Корпус має обсяг 1,875 млрд токенів.
Додано дві великі колекції новин, завантажених з онлайн-джерел: новини 2000-2022 рр. обсягом близько 600 млн токенів (UberText), новини 2022 р., 190 млн токенів (ПАВУК -- Польський автоматичний веб-корпус української мови, IPI PAN).
Додано тексти з друкованих джерел, зокрема колекцію текстів журналу "Всесвіт" за 1923-1928 рр., тексти з діаспорних журналів журналів "Самостійна Україна" (кін. 1940-х -- поч. 1950-х) і "Квітучі береги" (1960-1980-х), повний корпус творів Михайля Семенка, повний корпус творів Володимира Леонтовича, тощо.
Підключено новий модуль для лематизації текстів у старому правописі (Лесі Українки), описаний у статті.

ГРАК-15

Корпус має обсяг 889 млн токенів.

ГРАК-14

Корпус має обсяг 860 млн токенів. До текстів застосовано нові алгоритми чищення.

Додано нові теги:
punct - символ, що може бути розділовим знаком в українському тексті
symb - інший символ
unknown - невідоме слово, послідовність українських літер
unclass - інші невідомі послідовності неукраїнських літер і символів

Лема для невідомих слів у ГРАКу-14 дорівнює словоформі (в попередніх версіях у невідомих слів була порожня лема).

ГРАК-13

Корпус має обсяг 861 млн токенів.

ГРАК-12

Корпус має обсяг 823 млн токенів. У версіях 10-12 поповнено колекцію публіцистики, зокрема газетних текстів ХХ ст.

У словник за корпусом додано список слів з префіксом од-, варіантних до слів на від-, тепер їх можна знайти в корпусі за лемами.

Наповнення корпусу за роками:

Кількість токенів наукових, художніх і публіцистичних текстів (ACA, FIC, JOU) за роками:

ГРАК-9
Для розмітки ГРАК-9 ми використали оновлений ВЕСУМ, який тепер тегує нестандартні граматичні форми:
1) найчастотніші короткі форми дієслів 3-ї особи: зна, співа... 
CQL: [tag="verb.*3:short"]
2) форми інфінітивів на -ть: писать, допомагать...
CQL: [tag="verb.*inf:short"]
3) найчастотніші нестягнені форми прикметників: гарная, хорошая...
CQL: [tag="adj.*long"]
4) короткі порівняльні форми прислівників: гарніш, сильніш...
CQL: [tag="adv.*short"]
5) дієприслівні форми на -ся: стріляючися, миючися...
CQL: [tag="advp.*long"]
6) найчастотніші наказові форми на -те: окропіте, хваліте
CQL: [tag="verb.*2:long"]
У дев'яту версію корпусу додано:
1) близько 600 тисяч слів газетних текстів 20-30-х років, переважно наддніпрянських, з сайту libraria, журнал "Музика — масам" 1928 і 1929 рр., близько 350 тисяч слів;
2) нові тексти діаспори, тепер обсяг підкорпусу діаспори близько 40 млн токенів, це вдвічі більше, ніж було. Додано художні твори і журнали: "Сучасність" (Мюнхен, 1961-1991), "Вісті комбатанта" (Нью-Йорк - Торонто, 1961-2014) - поки що без поділу на твори;
3) окремі номери журналів 1990-х - початку 2000-х: "Український пасічник", "Пасіка", "Сигнал" та ін.;
4) інтернет-видання: "Європейська правда" (2014-2016), "Фіртка" (2010-2020), "Репортер" (2014-2020), "Версії" (2013-2020) без поділу на твори і "Український тиждень" (2008-2019) з поділом на твори.;
5) понад 300 дисертацій 2018-2019 років з різних галузей знань;
6) найважливіші твори українських мовознавців різних років.

ГРАК-8
У восьму версію корпусу додали тексти газети "Високий замок" 2001-2017 рр. обсягом 53 млн токенів, тексти журналу "Всесвіт" 1958-1979 рр. обсягом 17 млн токенів (у тому числі 4,8 млн токенів публіцистичних текстів), тексти журналу "Наука і суспільство" 1972-1994 рр. обсягом 4,2 млн токенів, тексти західноукраїнських газет 1945-1946 рр. обсягом 0,5 млн токенів.

ГРАК-7
Обсяг корпусу - 437 млн токенів. Додано кілька номерів газети "Молоде життя: часопис українського пласту" 1925-1929 років, майже сто номерів журналу "Всесвіт" (1958-1983), колекцію радянських газетних матеріалів 1986-1991 років про Чорнобиль, колекцію сучасної драматургії, газету "Україна молода" 2010-2019 рр.

ГРАК-6
У шосту версію корпусу вперше додали поетичні тексти.

ГРАК-5
У п'яту версію корпусу додано переважно нехудожні тексти: "Український історичний журнал" (вибрані номери 1957-1990 рр.) та деякі інші наукові і публіцистичні тексти радянського періоду, а також колекцію сучасних наукових статей із видань АН з різних галузей знань обсягом понад 20 млн слів.

ГРАК-4
У четвертій версії додали фільтри для вибору текстів (DOC.AUTHOR, DOC.BORN тощо)
Додали основні правила для розбору текстів желехівкою. Тепер програма правильно лематизує випадки на зразок: називати ся, цїлком, мякий, сьвіт.

Аналіз складу корпусу


How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.