Светлана Яцык: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты

About Share Download Add to

За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы. На заседании клуба 17 мая 2023 мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют. В частности, на примере платформы eScriptorium мы разберем, как - готовить данные для тренировки; - обучать модели и делать их тонкую настройку (fine-tuning); - оценивать качество транскрипции; - использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач.

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/aHZrZm1QNlFZcnUySXpUbTdFZDVvQ2k5YmpqcXBNekIxeUZyd0hPakxWWT0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>