Відкриті ресурси та інструменти для роботи з українською мовою
- https://github.com/brown-uk/dict_uk — Великий електронний словник української мови (ВЕСУМ) — налічує понад 416 тис. лем і постійно поповнюється; містить інформацію про відмінювання слів; подає нерекомендовані слова та заміну для них; охоплює абревіатури та скорочення; містить інформацію про деякі альтернативні правописні норми; має велику базу власних імен; синхронізований з КОАТУУ, зокрема містить назви, що з’явилися після декомунізації; має дуже компактну систему позначення відмінювання та тегів для слів, що дає змогу легко додавати нові слова, групувати наявні тощо; містить інформацію про деякі рідкісні та розмовні форми, наприклад, нестягнені форми прикметників (гарная) та розмовну форму інфінітиву (поїхать). Докладніше про словник у публікації: В. Старко, А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови (2020)
- https://github.com/brown-uk/nlp_uk — інструмент аналізу української мови на основі словника ВЕСУМ та двигуна LanguageTool. Має підтримку токенізації, лематизації, частиномовного аналізу та базового зняття омонімії. Має приклад вживання на python3.
- https://github.com/brown-uk/corpus БрУК — збалансований корпус-мільйонник сучасної мови, в перспективі — зі знятою омонімією
- https://github.com/lang-uk — частина БрУКу, проанотована за сутностями, а також готова модель для автоматичного анотування сутностей (люди, організації, локації та різне); корпус Юбертекст, всілякі ґазетіри, векторні представлення слів, простий у використанні токенізатор (на абзаци, речення та слова) і ще багато цікавого
- https://github.com/UniversalDependencies/UD_Ukrainian-IU/tree/master — корпус дерев залежностей для української мови
- https://github.com/kmike/pymorphy2 — морфологічний аналізатор без зняття омонімії; підтримка для української мови зроблена на основі старої версії ВЕСУМу
- https://stanfordnlp.github.io/stanza/ — Стенфордська бібліотека для опрацювання мови; тут є підтримка української мови на основі корпусу UD, що вище. Є моделі для токенізації, лематизації, частиномовного аналізу та синтаксичного аналізу.