Інші корпуси української мови та слов'янських мов

Корпуси української мови

Корпус

Обсяг Склад Доступ
Корпус текстів української мови

100 млн слів
Публіцистика, художня проза, наукові, законодавчі, поетичні, фольклорні тексти
Доступний для пошуку онлайн
Паралельні українсько-російський і російсько-український корпуси у складі Національного корпусу російської мови

9 млн слів
Художні, публіцистичні, наукові, законодавчі тексти, листи
Доступні для пошуку онлайн
Лабораторія Української
Веб-корпус із синтаксичною розміткою

3 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн
Лабораторія Української
Корпус зі знятою омонімією

140 тис. токенів
Різностильові тексти
Доступний для пошуку онлайн і завантаження
Лабораторія Української
Паралельні корпуси

6 млн токенів
Художня проза
Доступні для пошуку онлайн
Український веб-корпус Лейпцизького університету
Корпус, скомпільований 2014 р.

1,5 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн, пошук за словоформою
Веб-корпус Araneum Ucrainicum

125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”) Тексти з Інтернет, завантажені в 2014, 2015, 2021 і 2022

Доступні для пошуку онлайн, потрібна реєстрація
Польський автоматичний веб-корпус української мови (ПАВУК) 700+ млн токенів Тексти з Інтернет (новинні сайти, телеграм, твіттер, ютуб), завантажується щоденно з березня 2022 року Доступний для пошуку онлайн
Браунський український корпус

462 тисяч токенів
Збалансований корпус зі знятою вручну омонімією Доступний для завантаження
Lang-uk. Корпуси українських текстів

600 млн слів
Новини, Вікіпедія, художні тексти, веб
Доступні для завантаження
Корпус української мови бібліотеки «Чтиво»

600 млн слів
Автоматично розпізнані книжки (без виправлення помилок, без корпусної розмітки): художні, наукові, публіцистичні тексти
Доступний для пошуку онлайн, пошук за словоформою
UA-GEC: корпус текстів з розміченими граматичними помилками
34000 речень Тексти з помилками Доступний для завантаження


Авторські конкорданси

Онлайн-конкорданс повної збірки творів Григорія Сковороди

247 176 словоформ
Перелік слов’янських, латинських, грецьких словоформ, що їх вжив Сковорода у своїх віршах, філософських трактатах і листуванні. Без лематизації.

Доступний для пошуку онлайн, є доступ до повних текстів
Онлайн-конкорданс роману Івана Франка "Перехресні стежки"


Повний список лем, вжитих у романі (у тому числі лематизовані польські, німецькі, чеські, французькі, латинські фрагменти тексту)
Доступний для пошуку онлайн

Корпуси східнослов'янських мов

Національний корпус російської мови [Национальный корпус русского языка (НКРЯ)]

>700 млн слів Художні, публіцистичні, наукові та ін. тексти з друкованих видань Доступний для пошуку онлайн
Генеральний Інтернет-корпус російської мови [Генеральный Интернет-корпус Русского Языка (ГИКРЯ)]

>20 млрд слів Тексти з Інтернет
Доступний для пошуку онлайн
Усні корпуси
Розшифровані аудіозаписи мовлення різних регіонів Росії Доступний для пошуку онлайн
і прослуховування
Більше корпусів російської мови



Білоруський N-корпус [Беларускі N-корпус]

1 млрд слів Художні, публіцистичні, наукові, релігійні, офіційно-ділові тексти
Доступний для пошуку онлайн
Білоруський веб-корпус Araneum Albaruthenicum Novum MMXXI

155 млн токенів Тексти з Інтернет
Доступний для пошуку онлайн
Корпус білоруських текстів наукового стилю Corpus Albaruthenicum

350 тис. слів Тексти наукового стилю Доступний для пошуку онлайн
Експериментальний корпус білоруської мови [Эксперыментальны корпус беларускай мовы]

7,5 млн токенів
Газетні і художні тексти
Доступний для завантаження
Паралельний Білоруський біблійний корпус [Біблійны корпуc]


16 білоруських перекладів Біблії і 6 перекладів іншими мовами, зокрема український переклад Івана Огієнка

Доступний для пошуку онлайн
Усний русинський корпус [Corpus of Spoken Rusyn]

125 тис. слів Транскипції усного мовлення з аудіозаписами. Записано на території Польщі, Словаччини, України та Угорщини в 2015 р.

Доступний для пошуку онлайн (треба натиснути log in внизу сторінки), пошук за словоформою


Корпуси західнослов'янських мов

Національний корпус польської мови [Narodowy Korpus Języka Polskiego]

1,8 млрд токенів
Художня проза, газети, наукові тексти, записи усного мовлення, тексти з Інтернет

Доступний для пошуку онлайн
Корпус польської мови видавництва PWN [Korpus Języka Polskiego Wydawnictwa Naukowego PWN]
100 млн слів Художня проза, публіцистика, інші друковані тексти (реклама, інструкції з експлуатації, правила, виборчі листівки тощо), тексти веб-сайтів, розмовні тексти

Доступний для пошуку онлайн
Корпусна пошукова система Monco [Wyszukiwarka korpusowa Monco]

>7 млрд слів
Тексти з Інтернет
Доступно для пошуку онлайн
Spokes. Усний польський корпус

2,3 млн слів Транскипції усного мовлення з аудіозаписами

Доступний для пошуку онлайн
Корпус мовлення мешканців Спіша в Польщі [Korpus języka mówionego mieszkańców Spisza]


Транскипції усного мовлення з аудіозаписами
Доступний для пошуку онлайн

Електронний корпус польських текстів 17-18 століть (до 1772 р.) [Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)]

13,5 млн токенів
Доступний для пошуку онлайн
Паралельний польсько-німецький / німецько-польський корпус 1 млн слів Художні тексти, публіцистика, юридичні, нехудожні тексти

Доступний для пошуку онлайн
Чеський національний корпус [Český národní korpus]

>4 млрд токенів

Сучасні письмові тексти (понад 4 млрд токенів), усні тексти (понад 7 млн токенів), історичний корпус, паралельний корпус InterCorp, який містить переклади з або на 30+ мов.

Доступний для пошуку онлайн
Старочеський текстовий банк [Staročeská textová banka]



Доступний для пошуку онлайн

База даних пізньосередньовічних біблійних текстів  [Český biblický překlad v diachronním pohledu: Databáze pozdně středověkých biblických textů]





Доступна для пошуку онлайн
Словацький національний корпус [Slovenský národný korpus]

1,5 млрд токенів Тексти різних стилів, жанрів, регіонів, з 1955 р.
Доступний для пошуку онлайн
Нижньолужицький корпус [Dolnoserbski tekstowy korpus]
15 млн токенів
Доступний для пошуку онлайн


Корпуси південнослов'янських мов

Хорватський національний корпус [Hrvatski nacionalni korpus]

217 млн токенів
Доступний для пошуку онлайн
Корпус хорватської мови Riznica [Hrvatski jezični korpus]


Класична художня література (романи, новели, драма, поезія); нехудожні тексти; наукові публікації, підручники для університетів і шкіл; переклади видатних перекладачів; інтернет-журнали та газети; книги періоду стандартизації хорватської мови, адаптовані до сучасної норми
Доступний для пошуку онлайн
Cловенський корпус Nova beseda
318 млн слів Публіцистичні тексти, стенограми засідань Державних зборів, художні, наукові, законодавчі тексти

Доступний для пошуку онлайн
Усний словенський корпус GOS [GOS — GOvorjene Slovenščine]

>1 млн слів Радіо- і телевізійні передачі, шкільні уроки, лекції, приватні розмови, консультації тощо

Доступний для пошуку онлайн
Болгарський національний корпус [Български национален корпус]



Доступний для пошуку онлайн




ParaSol: A Parallel Corpus of Slavic and other languages



How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.