Word2vec - алгоритм, который революционизировал датасайнс подходы к обработке естественных языков и лег в основу огромной массы последующих работ. Статья Миколова и соавторав 2013 года () цитируется более 28 тысяч раз, что очень много даже для датасайнс. В статье предложено построение “эмбединга“ слов - каждому слову языка сопоставляется вектор в многомерном пространстве, то есть язык вкладывается(=эмбедится) в векторное пространство. Близость в векторном пространстве при этом отражает некоторую смысловую близость слов. Сама идея эмбединга существовала и до этого, но авторы совершили прорыв показав, как каким образом ее можно успешно и эффективно реализовать. В последствии было предложено огромное количество обобщений - эмбединги для графов, гиперболические эмбединги (то есть в пространство Лобачевского), контекстно зависимые эмбединги и так далее. В докладе мы разберём основные идеи положенные в основу skip-gram алгоритма. На простом примере будет проиллюстрирован базов
Hide player controls
Hide resume playing