Este es un resumen en inglés sencillo de un artículo de investigación llamado <a href=" A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation</a>. Si te gustan este tipo de análisis, únete <a href=" o síguenos en <a href=" <h2>El intercambio imposible</h2> <p>Durante años, cualquier persona que construyera un sistema de recomendación enfrentó un dilema genuino. Las secuencias de comportamiento del usuario pueden extenderse a miles o decenas de miles de interacciones. Dar sentido a esa historia requiere responder a una pregunta engañosamente simple: dado todo lo que un usuario ha hecho antes, ¿qué deberíamos recomendar a continuación?</p> <p>El enfoque estándar utiliza atención softmax, un mecanismo que calcula comparaciones detalladas entre el momento actual y cada interacción pasada. Matemáticamente es elegante. Funciona maravillosamente. Pero el costo computacional escala cuadráticamente con la longitud de la secuencia. Con 10,000 interacciones, estás realizando aproximadamente 100 millones de comparaciones solo para hacer una recomendación. Escala eso a millones de usuarios y miles de recomendaciones por segundo, y tus costos de infraestructura se vuelven prohibitivos.</p> <p>Así que los practicantes comprometen. Se vuelven hacia mecanismos de atención lineales, que reducen la complejidad computacional de cuadrática a lineal. Las matemáticas son ingeniosas, y las ganancias de velocidad son reales. El problema: esa velocidad tiene un costo. Estos mecanismos mantienen un "estado" en ejecución que se actualiza con cada nueva interacción, pero este estado tiene una capacidad limitada. Es como un bibliotecario que solo puede anotar patrones generales en un pequeño portapapeles en lugar de consultar registros completos. Pierdes la precisión necesaria para reconocer secuencias de comportamiento específicas que indican la intención del usuario.
Este intercambio ha definido el campo. Los métodos eficientes sacrifican precisión. Los métodos precisos sacrifican velocidad. Y los usuarios que más sufren son aquellos con secuencias ultra-largas, los usuarios avanzados y los que interactúan mucho, que tienen el comportamiento más interesante del que aprender.
Los investigadores detrás de HyTRec observaron esto y se hicieron una pregunta diferente: ¿Qué pasaría si esto no fuera en realidad un solo problema que requiere una sola solución?
Cómo piensan realmente los usuarios
La idea comienza con una simple observación sobre cómo funcionan realmente las preferencias de los usuarios. Tienes dos tipos de señales de preferencia fundamentalmente diferentes, y operan en escalas de tiempo completamente diferentes.
Tus preferencias estables a largo plazo provienen de una historia profunda. Si has hecho clic en gadgets tecnológicos 500 veces en dos años, eso es una fuerte evidencia de que te gusta la tecnología. Esta preferencia no fluctúa mucho de semana a semana. Importante, no necesitas cada una de esas 500 interacciones para entender el patrón. Podrías aprender lo mismo de 50 de ellas, o incluso de un resumen estadístico aproximado. Ser aproximado sobre esta señal no pierde casi nada.
Tus picos de intención a corto plazo provienen de un comportamiento reciente. Si has hecho clic en tres abrigos de invierno en las últimas dos horas, estás comprando abrigos en este momento. Esta señal es frágil. Es fácil de perder si la promedias con miles de otras interacciones de hace meses. Pero es increíblemente predictiva de lo que harás en los próximos cinco minutos.
Estas no son solo diferentes en grado, son diferentes en tipo. Una es estable y puede tolerar aproximaciones. La otra es volátil y requiere precisión. Sin embargo, los métodos existentes intentan manejar ambas con un solo mecanismo de atención, inevitablemente optimizando una a expensas de la otra.
La solución híbrida
El movimiento elegante es dejar de intentar construir un mecanismo que lo haga todo. En su lugar, divide el trabajo de una manera que refleje cómo los usuarios realmente navegan.
La arquitectura ejecuta dos caminos paralelos. En el primero, toda tu secuencia histórica, incluso si contiene 9,000 interacciones de los últimos seis meses, pasa por una rama de atención lineal. Esta rama no necesita ser precisa. Está construyendo una comprensión amplia de tu categoría de gusto general. Debido a que utiliza atención lineal, se completa en un tiempo proporcional a la longitud de la secuencia, no al cuadrado de la longitud de la secuencia. Es rápida.
En el segundo camino, tus interacciones recientes, quizás 1,000 de las últimas dos semanas, pasan por una rama de atención softmax. Esta rama puede permitirse ser costosa porque opera en una pequeña porción de datos. Produce representaciones precisas de lo que podrías querer en este momento. Estás haciendo cálculos costosos, pero en una pequeña ventana.
Cada rama produce una representación de "¿qué deberíamos recomendar?" Luego, la arquitectura las combina inteligentemente. Has restaurado la precisión de la atención softmax mientras mantienes la velocidad de la atención lineal, porque cada una ahora opera en su dominio adecuado.
HyTRec divide largas secuencias de comportamiento del usuario entre dos mecanismos de atención especializados, permitiendo que las preferencias estables y los picos de intención recientes se manejen de forma independiente.
Esto no es un ajuste menor. La complejidad computacional sigue siendo lineal en la longitud de la secuencia mientras opera en secuencias 10 veces más largas de lo que los enfoques anteriores podían manejar de manera eficiente. Pero hay un truco escondido en la arquitectura.
Hacer que las señales recientes importen
El desafío con un sistema híbrido es que la rama de atención lineal ha visto miles de interacciones. La rama softmax ha visto cientos. Por volumen, la señal de la rama lineal es más fuerte. Pero en la recomendación, la recencia importa más que el volumen. Un clic de hoy te dice más sobre lo que alguien quiere que un clic de hace seis meses.
Si tratas ambas ramas por igual, los datos obsoletos ahogan los datos frescos. Has resuelto el problema computacional pero creado un problema de capacidad de respuesta.
La solución se llama la Red Delta Consciente del Tiempo, o TADN. El mecanismo hace algo sencillo: pondera dinámicamente las señales de comportamiento frescas mientras suprime el ruido histórico.
Imagina un mecanismo de compuerta que pregunta a cada parte de la secuencia: "¿Cuántos años tienes?" Las interacciones frescas obtienen pesos más altos. Las interacciones antiguas obtienen pesos más bajos. Esto no sucede en un horario fijo, se aprende de los datos. La red descubre patrones como: "Para este usuario, los patrones de comportamiento cambian cada pocos días, así que las interacciones de más de una semana deberían ponderarse a la mitad de su fuerza."
Sin TADN, el sistema híbrido haría recomendaciones cada vez más obsoletas a medida que las preferencias de un usuario cambian. Con él, el sistema se mantiene receptivo al cambio. Las señales recientes tienen naturalmente más influencia sobre las recomendaciones, pero la red aprende exactamente cuánta influencia tiene sentido para cada usuario y tipo de interacción.
Resultados en el mundo real
Los investigadores probaron HyTRec en conjuntos de datos masivos con secuencias de comportamiento de usuarios reales que se extienden a decenas de miles de interacciones por usuario. No son datos académicos limpios, es desorden real a escala de producción.
En velocidad, los resultados importan. HyTRec mantiene una complejidad de inferencia lineal. Duplicar la longitud de la secuencia, y el tiempo de inferencia se duplica aproximadamente. No se cuadruplica como lo haría la atención softmax. Con secuencias de longitud 10,000, esta diferencia determina si puedes recomendar en 50 milisegundos o 5 segundos. En una plataforma que atiende a millones de usuarios, esa diferencia es la línea entre lo factible y lo imposible.
...