Что именно тестировал:
- Один реальный diff: ~7000 строк, 29 файлов.
- Домейн: улучшения Memory Layer (несколько фаз, много асинхронщины, concurrency и инфраструктурного кода).
- 18 заранее известных багов, размеченных руками:
- CRIT/HIGH/MED/LOW;
- от банальных “перепутали поле в JSON” до гонок на dict, resource leak и N+1 запросов.
- 17 моделей:

