Anthropic: однажды ИИ может «саботировать» человечество. Он способен притворяться, что не способен что-то сделать, чтобы убедить тестировщиков, что он не опасен, а также намеренно допускать проникновение вредоносного контента в рамках злонамеренного плана. cointelegraph
Hide player controls
Hide resume playing