Language-Agnostic Representation Learning of Source Code from Structure and Context

About Share Download Add to

Векторизация кода используется во множестве задач, связанных с анализом кода: в задачах суммаризации по векторному представлению фрагмента кода генерируют документацию, в задачах поиска клонов дубликаты ищут по близости векторов, и т.д. Поэтому развитие моделей векторизации (encoder) логично и количество работ на эту тему с каждым годом увеличивается. При этом зачастую авторы пытаются обучить модели сразу под несколько прикладных задач или для нескольких языков программирования. Яркими представителями таких моделей являются CodeBERT или GREAT. Однако желание использовать несколько языков программирования и иметь модель сразу под несколько задач крайне сложно масштабируется в существующих реалиях. На этом собрании журнального клуба мы рассмотрим статью , в которой авторы пробуют решить эту проблему, объединяя идеи больших текстовых моделей на основе трансформеров и использование структурной информации из AST. Докладчик: Егор Спирин.

Share with your friends

Link:

Embed:

<iframe width="640" height="360" src="//myvideo.cc/embed/bnlYdnJtc3FiK25pRGF2bGZtc3Nwc3pPVjBWSUtvWVpnSkYzb1BZZUFLWT0" frameborder="0" webkitallowfullscreen mozallowfullscreen allowfullscreen></iframe>

Video Size:

Custom size:

Autoplay video

Hide player controls

Hide resume playing

Add to Playlist:

Favorites

My Playlist

Watch Later