На встрече поговорим об обучении с подкреплением (reinforcement learning) и об атаках на модели. Эти темы популярны сами по себе, а в применении к рекомендациям особенно интересны. От Дзена будет история о том, как возникла задача ранжирования по сложной негладкой метрике, какие подходы в ней пробовали и что заработало лучше всего.
Hide player controls
Hide resume playing