Корпуси української мови
Корпус | Обсяг | Склад | Доступ |
Корпус текстів української мови | 120 млн слововживань | Публіцистика, художня проза, наукові, законодавчі, поетичні, фольклорні тексти | Доступний для пошуку онлайн |
Лабораторія Української Веб-корпус із синтаксичною розміткою | 3 млрд токенів | Тексти з Інтернет | Доступний для пошуку онлайн |
Український веб-корпус Лейпцизького університету Корпус, скомпільований 2014 р. | 1,5 млрд токенів | Тексти з Інтернет | Доступний для пошуку онлайн, пошук за словоформою |
Веб-корпус Araneum Ucrainicum | 125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”) | Тексти з Інтернет, завантажені в 2014, 2015, 2021 і 2022 | Доступні для пошуку онлайн, потрібна реєстрація |
ukTenTen: Ukrainian corpus from the Web | 7,5 млрд токенів | Тексти з Інтернет | Доступний для пошуку онлайн |
Польський автоматичний веб-корпус української мови (ПАВУК) | 700+ млн токенів | Тексти з Інтернет (новинні сайти, телеграм, твіттер, ютуб), завантажується щоденно з березня 2022 року | Доступний для пошуку онлайн |
Український парламентський корпус (ParlaMint) | 41,1 млн токенів | Стенограми засідань Верховної ради (2002-2023) | Доступний для пошуку онлайн |
Браунський український корпус | 633 тисяч токенів (510 тис. слів) | Збалансований корпус зі знятою вручну омонімією | Доступний для завантаження |
Лабораторія Української Корпус зі знятою омонімією (Treebank) | 140 тис. токенів | Різностильові тексти | Доступний для пошуку онлайн і завантаження |
Lang-uk. Корпуси українських текстів | 600 млн слів | Новини, Вікіпедія, художні тексти, веб | Доступні для завантаження |
Корпус української мови бібліотеки «Чтиво» | 600 млн слів | Автоматично розпізнані книжки (без виправлення помилок, без корпусної розмітки): художні, наукові, публіцистичні тексти | Доступний для пошуку онлайн, пошук за словоформою |
Лабораторія Української Паралельні корпуси з англійською, польською, французькою, німецькою, іспанською, португальською | 6 млн токенів | Художня проза | Доступні для пошуку онлайн |
UA-GEC: корпус текстів з розміченими граматичними помилками | 34000 речень | Тексти з помилками | Доступний для завантаження |
Авторські конкорданси
Онлайн-конкорданс повної збірки творів Григорія Сковороди | 247 176 словоформ | Перелік слов’янських, латинських, грецьких словоформ, що їх вжив Сковорода у своїх віршах, філософських трактатах і листуванні. Без лематизації. | Доступний для пошуку онлайн, є доступ до повних текстів |
Онлайн-конкорданс роману Івана Франка "Перехресні стежки" | Повний список лем, вжитих у романі (у тому числі лематизовані польські, німецькі, чеські, французькі, латинські фрагменти тексту) | Доступний для пошуку онлайн |
Корпуси східнослов'янських мов
ruTenTen: веб-корпус російської мови | >20 млрд слів | Тексти з Інтернет, завантажені в 2011, 2017 | Доступний для пошуку онлайн |
Araneum Russicum Russicum: веб-корпус російської мови (в Росії) | 125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”) | Тексти з російських сайтів, завантажені в 2015 | Доступний для пошуку онлайн, потрібна реєстрація |
Araneum Russicum Externum: веб-корпус російської мови (за межами Росії) | 125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”) | Тексти з неросійських сайтів, завантажені в 2015 | Доступний для пошуку онлайн, потрібна реєстрація |
Білоруський N-корпус [Беларускі N-корпус] | 1 млрд слів | Художні, публіцистичні, наукові, релігійні, офіційно-ділові тексти | Доступний для пошуку онлайн |
Білоруський веб-корпус Araneum Albaruthenicum Novum MMXXI | 155 млн токенів | Тексти з Інтернет | Доступний для пошуку онлайн |
Корпус білоруських текстів наукового стилю Corpus Albaruthenicum | 350 тис. слів | Тексти наукового стилю | Доступний для пошуку онлайн |
Експериментальний корпус білоруської мови [Эксперыментальны корпус беларускай мовы] | 7,5 млн токенів | Газетні і художні тексти | Доступний для завантаження |
Паралельний Білоруський біблійний корпус [Біблійны корпуc] | 16 білоруських перекладів Біблії і 6 перекладів іншими мовами, зокрема український переклад Івана Огієнка | Доступний для пошуку онлайн | |
Усний русинський корпус [Corpus of Spoken Rusyn] | 125 тис. слів | Транскипції усного мовлення з аудіозаписами. Записано на території Польщі, Словаччини, України та Угорщини в 2015 р. | Доступний для пошуку онлайн (треба натиснути log in внизу сторінки), пошук за словоформою |
Корпуси західнослов'янських мов
Національний корпус польської мови [Narodowy Korpus Języka Polskiego] | 1,8 млрд токенів | Художня проза, газети, наукові тексти, записи усного мовлення, тексти з Інтернет | Доступний для пошуку онлайн |
Корпус польської мови видавництва PWN [Korpus Języka Polskiego Wydawnictwa Naukowego PWN] | 100 млн слів | Художня проза, публіцистика, інші друковані тексти (реклама, інструкції з експлуатації, правила, виборчі листівки тощо), тексти веб-сайтів, розмовні тексти | Доступний для пошуку онлайн |
Корпусна пошукова система Monco [Wyszukiwarka korpusowa Monco] | >7 млрд слів | Тексти з Інтернет | Доступно для пошуку онлайн |
Spokes. Усний польський корпус | 2,3 млн слів | Транскипції усного мовлення з аудіозаписами | Доступний для пошуку онлайн |
Корпус мовлення мешканців Спіша в Польщі [Korpus języka mówionego mieszkańców Spisza] | Транскипції усного мовлення з аудіозаписами | Доступний для пошуку онлайн | |
Електронний корпус польських текстів 17-18 століть (до 1772 р.) [Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)] | 13,5 млн токенів | Доступний для пошуку онлайн | |
Паралельний польсько-німецький / німецько-польський корпус | 1 млн слів | Художні тексти, публіцистика, юридичні, нехудожні тексти | Доступний для пошуку онлайн |
Чеський національний корпус [Český národní korpus] | >4 млрд токенів | Сучасні письмові тексти (понад 4 млрд токенів), усні тексти (понад 7 млн токенів), історичний корпус, паралельний корпус InterCorp, який містить переклади з або на 30+ мов. | Доступний для пошуку онлайн |
Старочеський текстовий банк [Staročeská textová banka] | Доступний для пошуку онлайн | ||
База даних пізньосередньовічних біблійних текстів [Český biblický překlad v diachronním pohledu: Databáze pozdně středověkých biblických textů] | Доступна для пошуку онлайн | ||
Словацький національний корпус [Slovenský národný korpus] | 1,5 млрд токенів | Тексти різних стилів, жанрів, регіонів, з 1955 р. | Доступний для пошуку онлайн |
Нижньолужицький корпус [Dolnoserbski tekstowy korpus] | 15 млн токенів | Доступний для пошуку онлайн |
Корпуси південнослов'янських мов
Хорватський національний корпус [Hrvatski nacionalni korpus] | 217 млн токенів | Доступний для пошуку онлайн | |
Корпус хорватської мови Riznica [Hrvatski jezični korpus] | Класична художня література (романи, новели, драма, поезія); нехудожні тексти; наукові публікації, підручники для університетів і шкіл; переклади видатних перекладачів; інтернет-журнали та газети; книги періоду стандартизації хорватської мови, адаптовані до сучасної норми | Доступний для пошуку онлайн | |
Cловенський корпус Nova beseda | 318 млн слів | Публіцистичні тексти, стенограми засідань Державних зборів, художні, наукові, законодавчі тексти | Доступний для пошуку онлайн |
Усний словенський корпус GOS [GOS — GOvorjene Slovenščine] | >1 млн слів | Радіо- і телевізійні передачі, шкільні уроки, лекції, приватні розмови, консультації тощо | Доступний для пошуку онлайн |
Болгарський національний корпус [Български национален корпус] | Доступний для пошуку онлайн | ||
ParaSol: A Parallel Corpus of Slavic and other languages |