Иван Бондаренко. Полныи Писец, или как записать вашу речь в текст бесплатно, без смс и Whisper

About Share Download Add to

Я работаю в университете, и бывает так, что мои друзья защищают диссертации. Сама защита — это не только блестящее выступление соискателя на диссовете и торжественный банкет после. Это ещё и куча рутины: например, согласно требованиям ВАК, во время защиты необходимо вести аудиофиксацию всего процесса, а затем долго и мучительно расшифровывать аудио и записывать его в виде текста стенограммы. И я решил помочь своим друзьям и коллегам, разработав для них «Писец» — штуку, которая преобразует речь из аудиофайла (или звуковой дорожки видеофайла) в нормальный текст с таймингами, представленный в человекочитаемом формате субтитров SubRip. На основе таких субтитров составлять стенограмму звукозаписи гораздо веселее и приятнее. Существует ряд алгоритмов и открытых систем автоматического преобразования русской речи в текст, включая нашумевший в 2022 году Whisper от OpenAI, но я решил сделать свой «велосипед» и обучить собственную модель распознавания речи. Зачем? Есть ли у такого «велосипеда» свои полезные особенности? И можно ли обобщить данный подход на другие задачи — например, стенограмму дейлика или автогенерацию фоллоу-ап по итогам еженедельного созвона? В своём рассказе я постараюсь обсудить с вами эти и другие вопросы построения практически полезных систем для русского speech-to-text из опенсорсных «кирпичиков». Презентация – Сайт –

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/QnU4TzdYOXlnRGg1eWdpOEQ1eVNUYnlRMHRVVzg5SHh6STV4S1JBTGo0ND0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later