Myvideo

Guest

Login

Максим Пантелеев | Text deduplication on social media data

Uploaded By: Myvideo
1 view
0
0 votes
0

Data Fest Online 2021 NLP in Industry track Всем привет! Меня зовут Пантелеев Максим и в этом докладе я хочу рассказать об одной часто встречающейся задаче в обработке естественного языка - дедупликация текстового массива. Эта задача часто встречается в анализе пользовательских обращений, твитов, так и как один из этапов подготовки данных для тренировки сложных моделей, н/п BERT/GPT и тд. Расскажу сходствах и отличиях этой задачи от задачи кластеризации, об основанных на поиске ближайших соседях подходах и не только, сравню качество работы выбранных методов дедупликации на некоторых известных датасетах, а так же ответить на вопрос как влияют на качество дедубликации существующие эмбеддинги текстов, н/п такие как USE/fasttext/word2vec/glove/tfidf и т.д. Посмотреть эфир и список треков и организаторов: Зарегистрироваться на фест и получить доступ к трекам: Вступить в сообщество: Соцсети Data Fest:

Share with your friends

Link:

Embed:

Video Size:

Custom size:

x

Add to Playlist:

Favorites
My Playlist
Watch Later