R для антиковедов. Часть 2: Токенизация и разведывательный анализ

На “Ярмарке проектов” открылась запись на второй модуль курса “R для антиковедов”. Проект посвящен методам токенизации в R. Токен — это отдельное наблюдение; применительно к тексту это может быть слово или сочетание слов, символ или сочетание символов, может быть даже параграф или предложение — все зависит от того, что мы намерены посчитать.

Делить текст на токены мы будем с использованием различных пакетов для text-mining, научимся конвертировать данные из одного формата в другой, удалять стоп-слова, а также визуализировать результаты в ggplot2. Практическим результатом проекта станет публикация на площадке RPubs результатов анализа выбранного греческого или латинского источника (источников).

Записываться можно до 3 июля, срок реализации проекта: 4 июля – 11 сентября 2022 г. Ссылка для записи.

R для антиковедов. Часть 1: Извлечение данных из HTML & XML

Любое количественное исследование в гуманитаристике начинается с поиска и обработки необходимого текста или корпуса текстов. Многие античные источники сегодня доступны в форматах html/xml, которые позволяют извлечь не только сам текст, но и метаданные, леммы (начальные формы слов) и др. Умение работать с документами в таких форматах — первый шаг на пути к компьютерному анализу текстов. В рамках проекта участники овладеют навыками парсинга html/xml в R и подготовят выбранный источник для дальнейшего изучения. Работа осуществляется дистанционно, асинхронно. Для студентов ВШЭ запись по ссылке открыта до 17 марта: https://pf.hse.ru/568022956.html