Grammarly випустила оновлену версію корпусу української мови

Grammarly випустила другу версію анотованого GEC-корпусу української мови. Завдяки оновленню майже вдвічі збільшилася кількість речень в проєкті. Завантажити його можна за цим посиланням.

Перша версія UA-GEC, опублікована минулого року, містила близько 20 тисяч речень. Переваги другої версії стосуються наступних змін:

  • розмір корпусу налічує до 34 тисяч речень;
  • класифікація помилок тепер більш деталізована, категорії "граматики" та "стилю" поділені на додаткові 13 і 5 підкатегорій;
  • корпус можна використовувати як для виправлення виключно граматики, так і для пошуку граматичних та стильових помилок одночасно.

Варто зазначити, що раніше анотованих GEC-корпусів для української мови не було, тому це в певному сенсі історична подія. Такі корпуси використовують для наукового та практичного вивчення мов.

Нагадаємо, минулого року співзасновники українського стартапу Grammarly стали доларовими мільйонерами.