Я работаю в университете, и бывает так, что мои друзья защищают диссертации. Сама защита — это не только блестящее выступление соискателя на диссовете и торжественный банкет после. Это ещё и куча рутины: например, согласно требованиям ВАК, во время защиты необходимо вести аудиофиксацию всего процесса, а затем долго и мучительно расшифровывать аудио и записывать его в виде текста стенограммы. И я решил помочь своим друзьям и коллегам, разработав для них «Писец» — штуку, которая преобразует речь из аудиофайла (или звуковой дорожки видеофайла) в нормальный текст с таймингами, представленный в человекочитаемом формате субтитров SubRip. На основе таких субтитров составлять стенограмму звукозаписи гораздо веселее и приятнее. Существует ряд алгоритмов и открытых систем автоматического преобразования русской речи в текст, включая нашумевший в 2022 году Whisper от OpenAI, но я решил сделать свой «велосипед» и обучить собственную модель распознавания речи. Зачем? Есть ли у такого «велосипеда» свои полезные особенности? И можно ли обобщить данный подход на другие задачи — например, стенограмму дейлика или автогенерацию фоллоу-ап по итогам еженедельного созвона? В своём рассказе я постараюсь обсудить с вами эти и другие вопросы построения практически полезных систем для русского speech-to-text из опенсорсных «кирпичиков». Презентация – Сайт –
Hide player controls
Hide resume playing