Діаріуш або тиск слова

August 15, 2018

Кілька корпусів української мови

Filed under: Інформація, Мережа, Мова, Словник — maksymus @ 07:54

 
За останні роки справа створення і збирання національних корпусів української мови просунулася далеко вперед. І це прекрасно, що нарешті з’явилися такі потрібні зручні системи:
 

  – Лінґвістичний портал Mova.info. Корпус української мови пропонує пошук тільки по підкорпусах (разом поки недоступно). Також розробники зґенерували частотні словники по кількох розділах та авторах, що подаються окремо.
  – Корпус української мови ГРАК (Генеральний реґіонально анотований корпус української мови, uacorpus.org). У корпусі зібрано близько 25 тисяч текстів обсягом до 200 млн. слів. Є розвинутий пошук по всіх текстах, частотний словник та інші корисні додатки.
  – Цікавий величезний корпус українських інтернет-текстів зібрано в Лейпцизькому університеті. За розміром майже на порядок перевищує попередні. В результатах видачі подає приклади, сполучуваність, навіть тривимірний граф сполучуваності.
  – Ще один величезний корпус інтернет-текстів Лабораторія української (бл. 3 млрд. слів). Утім, невідомо, чим викликані мовні кумедності опису сторінки.
  – Загальномовний (або національний) неанотований та несистематизований корпус української мови. Містить 6,6 Гб україномовних текстів з електронної бібліотеки «Чтиво».

 

6 Comments »

  1. :) Другий корпус називається ГРАК, головна сторінка: uacorpus.org

    Comment by Maria Shvedova — August 15, 2018 @ 20:05

    • Спасибі! Дуже гарний корпус у вас вийшов зі зручним інтерфейсом.

      Comment by maksymus — August 15, 2018 @ 20:14

      • Дякую! Там і ваших матеріалів багато є.

        Comment by Maria Shvedova — August 15, 2018 @ 20:19

  2. А що з цими корпусами робити? Як вони використовуються? Як словники, чи як референція для змін правопису?

    Comment by Yulia_Peacedove — August 18, 2018 @ 10:30

    • Є мій старий запис на тему корпусів, переніс на цю платформу: Корпусна лінґвістика. Для правописних питань, визначення справді проблемних моментів дані корпусів теж дуже потрібні.

      Comment by maksymus — August 18, 2018 @ 10:40

  3. Графіки (ГРАК): http://batchman.parasolcorpus.org/NGyears.html

    Comment by maksymus — June 16, 2019 @ 05:39


RSS feed for comments on this post. TrackBack URI

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: