R для антиковедов. Часть 1: Извлечение данных из HTML & XML

Любое количественное исследование в гуманитаристике начинается с поиска и обработки необходимого текста или корпуса текстов. Многие античные источники сегодня доступны в форматах html/xml, которые позволяют извлечь не только сам текст, но и метаданные, леммы (начальные формы слов) и др. Умение работать с документами в таких форматах — первый шаг на пути к компьютерному анализу текстов. В рамках проекта участники овладеют навыками парсинга html/xml в R и подготовят выбранный источник для дальнейшего изучения. Работа осуществляется дистанционно, асинхронно. Для студентов ВШЭ запись по ссылке открыта до 17 марта: https://pf.hse.ru/568022956.html