Это доклад Ирины Барской, руководителя службы аналитики и исследований в Яндекс Поиске, на Practical ML Conf 2024. В своём выступлении Екатерина рассмотрела важную проблему: почему чем лучше становятся LLM-модели, тем сложнее построить систему оценки их качества. Из доклада узнали, как с этим жить: как строить метрики, какие бенчмарки самые правильные и надёжные, нужны ли нам эксперты и как выстраивать процессы разметки данных. Подписывайтесь на телеграм-канал Яндекса для ML-специалистов:
Hide player controls
Hide resume playing