PyRIT — это инструмент для оценки надёжности LLM в широком спектре приносящих вред категорий. Его можно использовать для выявления приносящих вред категорий, в том числе сфабрикованного/необоснованного контента (например, галлюцинаций), неправильного использования (предубеждений, генерации зловредного ПО, джейлбрейкинга), запрещённого контента (например, оскорблений) и ущерба для конфиденциальности (кража личности). Этот инструмент автоматизирует задачи красной команды для базовых моделей, а потому делает вклад в усилия по обеспечению будущего развития ИИ.