Hice mi primera "habilidad". Codex extrae los registros de errores recientes de producción donde el agente realizó llamadas a herramientas que fallaron. Los registros incluyen suficiente estado para que Codex: - clasifique cada caso - lo reproduzca localmente - depure y solucione, si es un error del producto ha solucionado algunos errores oscuros.
a veces los errores son solo LLMs siendo tontos, como llamar a mi herramienta "reemplazar" con cadenas idénticas para la coincidencia y el reemplazo. pero a menudo, es un error en mi código. Puedo ejecutar "$tool-failure-triage" en Codex cuando quiera. es tan increíble.
cuando lo tengo así, realmente se siente como un empleado
20 minutos de trabajo, es increíblemente asombroso
62