Версії корпусу

ГРАК-17, 17а

Корпус має обсяг 1,781 млрд токенів.

Додано колекцію західноукраїнської преси 1890-1940-х рр., корпус твіттера, форуми. Скорочено колекцію онлайн-новин за 2022 рік.

Додано стиль (doc.style): ICM (інтернет-комунікація)

У версії 17а доступні нові атрибути розмітки: doc.mediaAdmin (політична приналежність змі), doc.ageCode (вікова група, для дитячої літератури).

ГРАК-16

Корпус має обсяг 1,875 млрд токенів.
Додано дві великі колекції новин, завантажених з онлайн-джерел: новини 2000-2022 рр. обсягом близько 600 млн токенів (UberText), новини 2022 р., 190 млн токенів (ПАВУК -- Польський автоматичний веб-корпус української мови, IPI PAN).
Додано тексти з друкованих джерел, зокрема колекцію текстів журналу "Всесвіт" за 1923-1928 рр., тексти з діаспорних журналів журналів "Самостійна Україна" (кін. 1940-х -- поч. 1950-х) і "Квітучі береги" (1960-1980-х), повний корпус творів Михайля Семенка, повний корпус творів Володимира Леонтовича, тощо.
Підключено новий модуль для лематизації текстів у старому правописі (Лесі Українки), описаний у статті.

ГРАК-15

Корпус має обсяг 889 млн токенів.

ГРАК-14

Корпус має обсяг 860 млн токенів. До текстів застосовано нові алгоритми чищення.

Додано нові теги:
punct - символ, що може бути розділовим знаком в українському тексті
symb - інший символ
unknown - невідоме слово, послідовність українських літер
unclass - інші невідомі послідовності неукраїнських літер і символів

Лема для невідомих слів у ГРАКу-14 дорівнює словоформі (в попередніх версіях у невідомих слів була порожня лема).

ГРАК-13

Корпус має обсяг 861 млн токенів.

ГРАК-12

Корпус має обсяг 823 млн токенів. У версіях 10-12 поповнено колекцію публіцистики, зокрема газетних текстів ХХ ст.

У словник за корпусом додано список слів з префіксом од-, варіантних до слів на від-, тепер їх можна знайти в корпусі за лемами.

Наповнення корпусу за роками:

Кількість токенів наукових, художніх і публіцистичних текстів (ACA, FIC, JOU) за роками:

ГРАК-9
Для розмітки ГРАК-9 ми використали оновлений ВЕСУМ, який тепер тегує нестандартні граматичні форми:
1) найчастотніші короткі форми дієслів 3-ї особи: зна, співа... 
CQL: [tag="verb.*3:short"]
2) форми інфінітивів на -ть: писать, допомагать...
CQL: [tag="verb.*inf:short"]
3) найчастотніші нестягнені форми прикметників: гарная, хорошая...
CQL: [tag="adj.*long"]
4) короткі порівняльні форми прислівників: гарніш, сильніш...
CQL: [tag="adv.*short"]
5) дієприслівні форми на -ся: стріляючися, миючися...
CQL: [tag="advp.*long"]
6) найчастотніші наказові форми на -те: окропіте, хваліте
CQL: [tag="verb.*2:long"]
У дев'яту версію корпусу додано:
1) близько 600 тисяч слів газетних текстів 20-30-х років, переважно наддніпрянських, з сайту libraria, журнал "Музика — масам" 1928 і 1929 рр., близько 350 тисяч слів;
2) нові тексти діаспори, тепер обсяг підкорпусу діаспори близько 40 млн токенів, це вдвічі більше, ніж було. Додано художні твори і журнали: "Сучасність" (Мюнхен, 1961-1991), "Вісті комбатанта" (Нью-Йорк - Торонто, 1961-2014) - поки що без поділу на твори;
3) окремі номери журналів 1990-х - початку 2000-х: "Український пасічник", "Пасіка", "Сигнал" та ін.;
4) інтернет-видання: "Європейська правда" (2014-2016), "Фіртка" (2010-2020), "Репортер" (2014-2020), "Версії" (2013-2020) без поділу на твори і "Український тиждень" (2008-2019) з поділом на твори.;
5) понад 300 дисертацій 2018-2019 років з різних галузей знань;
6) найважливіші твори українських мовознавців різних років.

ГРАК-8
У восьму версію корпусу додали тексти газети "Високий замок" 2001-2017 рр. обсягом 53 млн токенів, тексти журналу "Всесвіт" 1958-1979 рр. обсягом 17 млн токенів (у тому числі 4,8 млн токенів публіцистичних текстів), тексти журналу "Наука і суспільство" 1972-1994 рр. обсягом 4,2 млн токенів, тексти західноукраїнських газет 1945-1946 рр. обсягом 0,5 млн токенів.

ГРАК-7
Обсяг корпусу - 437 млн токенів. Додано кілька номерів газети "Молоде життя: часопис українського пласту" 1925-1929 років, майже сто номерів журналу "Всесвіт" (1958-1983), колекцію радянських газетних матеріалів 1986-1991 років про Чорнобиль, колекцію сучасної драматургії, газету "Україна молода" 2010-2019 рр.

ГРАК-6
У шосту версію корпусу вперше додали поетичні тексти.

ГРАК-5
У п'яту версію корпусу додано переважно нехудожні тексти: "Український історичний журнал" (вибрані номери 1957-1990 рр.) та деякі інші наукові і публіцистичні тексти радянського періоду, а також колекцію сучасних наукових статей із видань АН з різних галузей знань обсягом понад 20 млн слів.

ГРАК-4
У четвертій версії додали фільтри для вибору текстів (DOC.AUTHOR, DOC.BORN тощо)
Додали основні правила для розбору текстів желехівкою. Тепер програма правильно лематизує випадки на зразок: називати ся, цїлком, мякий, сьвіт.

Аналіз складу корпусу