Регіональна розмітка корпусу ґрунтується на сучасному адміністративному поділі України. Адміністративні регіони потім об'єднано в макрорегіони з умовними назвами Захід (W), Схід (E), Центр (C), Південь (S), Північ (N) і Київ (KYV). Макрорегіони сформовані з урахуванням меж українських діалектів. До Північного регіону входить більшість територій північних говорів, до Західного - південно-західних, до Південного, Східного і Центрального - відповідно степового, слобожанського та наддніпрянського говорів.
Нижче наведено графіки, які показують розподіл текстів за макрорегіонами в корпусі (ГРАК-10).
Макрорегіон | Кількість токенів | Частка в корпусі, % |
Захід (W) | 172,303,252 | 46 |
Київ (KYV) | 118,565,515 | 32 |
Схід (E) | 26,624,696 | 7 |
Центр (C) | 23,900,708 | 6 |
Південь (S) | 16,903,552 | 5 |
Північ (N) | 12,944,789 | 3 |
Рис. 1: Розподіл текстів за макрорегіонами, ГРАК-10
Тексти ЗМІ (газети, новинні сайти в Інтернеті) позначені регіоном видання цього ЗМІ. Інші тексти анотовано за регіоном, де народився, навчався або жив понад десять років автор (або перекладач для перекладеного тексту). Таким чином, регіональна розмітка, як правило, пов'язана з автором українського тексту, якщо про нього є відповідна інформація. Один текст може мати декілька регіональних тегів, якщо в нього більше одного автора або якщо автор народився, навчався, тривалий час жив у різних регіонах.
Приблизно 85,5% корпусу ГРАК-10 анотовано за регіонами. Тексти, створені в Україні, які мають один макрорегіон, становлять 60% корпусу ГРАК-10.
Для регіональної розмітки тексту в ГРАКу передбачено атрибути DOC.COUNTRY, DOC.MACROREGION (Північ, Захід, Південь, Схід, Центр, Київ: рис. 3), DOC.REGION та DOC.LOCCODE, який для зручності містить набір усіх регіональних атрибутів (наприклад, DOC.COUNTRY = "UA", DOC.MACROREGION = "C", DOC.REGION = "CRK" та DOC.LOCCODE = "UA-C-CRK").
Рис. 3: Макрорегіони в ГРАКу
DOC.LOCCODE для України:
UA-C-CRK - Черкаська область
UA-C-KRV - Кіровоградська область
UA-C-KVS - Київська область
UA-C-PLT - Полтавська область
UA-E-HRK - Харківська область
UA-E-SUM - Сумська область
UA-KYV-KYV - Київ
UA-N-CRG - Чернігівська область
UA-N-RVN - Рівненська область
UA-N-VLN - Волинська область
UA-N-ZHT - Житомирська область
UA-S-DNC - Донецька область
UA-S-DNP - Дніпропетровська область
UA-S-HRS - Херсонська область
UA-S-KRM - Крим
UA-S-LGN - Луганська область
UA-S-MKL - Миколаївська область
UA-S-ODE - Одеська область
UA-S-ZPR - Запорізька область
UA-W-CRV - Чернівецька область
UA-W-HML - Хмельницька область
UA-W-IFR - Івано-Франківська область
UA-W-LVV - Львівська область
UA-W-TRN - Тернопільська область
UA-W-VNC - Вінницька область
UA-W-ZKR - Закарпатська область
В анотації є також теги, що позначають країни української діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). DOC.LOCCODE для української діаспори починається з літери D, далі йде код для пострадянських країн (DOC.MACROREGION = "V") та інших країн (DOC.MACROREGION = "Z"). Третій код позначає країну. Для сусідніх Росії, Польщі та Чехословаччини доступний четвертий код для уточнення регіону.
D-V-BY - Білорусь
D-V-GE - Грузія
D-V-KZ - Казахстан
D-V-MLD - Молдова
D-V-RU - Росія
D-V-RU-KBN - Кубань
D-V-RU-SSL - Східна Слобожанщина
D-V-TKM - Туркменістан
D-Z-AR - Аргентина
D-Z-AT - Австрія
D-Z-AU - Австралія
D-Z-BE - Бельгія
D-Z-BR - Бразилія
D-Z-CA - Канада
D-Z-CH - Швейцарія
D-Z-CZE - Чеська Республіка
D-Z-CZE-SVK - Чехословаччина (до 1992 року)
D-Z-DE - Німеччина
D-Z-EET - Естонія
D-Z-ES - Іспанія
D-Z-FR - Франція
D-Z-GB - Велика Британія
D-Z-IL - Ізраїль
D-Z-IT - Італія
D-Z-LT - Литва
D-Z-LV - Латвія
D-Z-PL - Польща
D-Z-PL-HLM - Холмщина
D-Z-RO - Румунія
D-Z-SRB - Сербія
D-Z-SVK - Словаччина
D-Z-SWE - Швеція
D-Z-USA - Сполучені Штати Америки