R для антиковедов. Часть 2: Токенизация и разведывательный анализ

На “Ярмарке проектов” открылась запись на второй модуль курса “R для антиковедов”. Проект посвящен методам токенизации в R. Токен — это отдельное наблюдение; применительно к тексту это может быть слово или сочетание слов, символ или сочетание символов, может быть даже параграф или предложение — все зависит от того, что мы намерены посчитать.

Делить текст на токены мы будем с использованием различных пакетов для text-mining, научимся конвертировать данные из одного формата в другой, удалять стоп-слова, а также визуализировать результаты в ggplot2. Практическим результатом проекта станет публикация на площадке RPubs результатов анализа выбранного греческого или латинского источника (источников).

Записываться можно до 3 июля, срок реализации проекта: 4 июля – 11 сентября 2022 г. Ссылка для записи.