Відкриті ресурси та інструменти для роботи з українською мовою

  • https://github.com/brown-uk/dict_uk — Великий електронний словник української мови (ВЕСУМ) — налічує понад 416 тис. лем і постійно поповнюється; містить інформацію про відмінювання слів; подає нерекомендовані слова  та заміну для них; охоплює абревіатури та скорочення; містить інформацію про деякі альтернативні правописні норми; має велику базу власних імен; синхронізований з КОАТУУ, зокрема містить назви, що з’явилися після декомунізації; має дуже компактну систему позначення відмінювання та тегів для слів, що дає змогу легко додавати нові слова, групувати наявні тощо; містить інформацію про деякі рідкісні та розмовні форми, наприклад, нестягнені форми прикметників (гарная) та розмовну форму інфінітиву (поїхать). Докладніше про словник у публікації: В. Старко, А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови (2020) 
  • https://github.com/brown-uk/nlp_uk — інструмент аналізу української мови на основі словника ВЕСУМ та двигуна LanguageTool. Має підтримку токенізації, лематизації, частиномовного аналізу та базового зняття омонімії. Має приклад вживання на python3.
  • https://github.com/brown-uk/corpus БрУК — збалансований корпус-мільйонник сучасної мови, в перспективі — зі знятою омонімією
  • https://github.com/lang-uk — частина БрУКу, проанотована за сутностями, а також готова модель для автоматичного анотування сутностей (люди, організації, локації та різне); корпус Юбертекст, всілякі ґазетіри, векторні представлення слів, простий у використанні токенізатор (на абзаци, речення та слова) і ще багато цікавого
  • https://github.com/UniversalDependencies/UD_Ukrainian-IU/tree/master — корпус дерев залежностей для української мови
  • https://github.com/kmike/pymorphy2 — морфологічний аналізатор без зняття омонімії; підтримка для української мови зроблена на основі старої версії ВЕСУМу
  • https://stanfordnlp.github.io/stanza/ — Стенфордська бібліотека для опрацювання мови; тут є підтримка української мови на основі корпусу UD, що вище. Є моделі для токенізації, лематизації, частиномовного аналізу та синтаксичного аналізу.
UkrNLP-Corpora: український Knowledge Centre на CLARIN

How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.