Este é um resumo em inglês simples de um artigo de pesquisa chamado <a href=" A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation</a>. Se você gosta desse tipo de análise, junte-se <a href=" ou siga-nos em <a href=" <h2>A troca impossível</h2> <p>Durante anos, qualquer pessoa que construísse um sistema de recomendação enfrentou um dilema genuíno. As sequências de comportamento do usuário podem se estender por milhares ou dezenas de milhares de interações. Fazer sentido dessa história requer responder a uma pergunta enganadoramente simples: dado tudo o que um usuário fez antes, o que devemos recomendar a seguir?</p> <p>A abordagem padrão usa atenção softmax, um mecanismo que computa comparações detalhadas entre o momento atual e cada interação passada. Matematicamente, é elegante. Funciona maravilhosamente. Mas o custo computacional escala quadraticamente com o comprimento da sequência. Com 10.000 interações, você está realizando cerca de 100 milhões de comparações apenas para fazer uma recomendação. Escale isso para milhões de usuários e milhares de recomendações por segundo, e seus custos de infraestrutura se tornam proibitivos.</p> <p>Portanto, os profissionais fazem concessões. Eles recorrem a mecanismos de atenção linear, que reduzem a complexidade computacional de quadrática para linear. A matemática é inteligente, e os ganhos de velocidade são reais. O problema: essa velocidade vem a um custo. Esses mecanismos mantêm um "estado" em execução que é atualizado com cada nova interação, mas esse estado tem capacidade limitada. É como um bibliotecário que só pode anotar padrões gerais em um pequeno bloco de notas em vez de consultar registros completos. Você perde a precisão necessária para reconhecer sequências comportamentais específicas que indicam a intenção do usuário.
Essa troca definiu o campo. Métodos eficientes sacrificam a precisão. Métodos precisos sacrificam a velocidade. E os usuários que mais sofrem são aqueles com sequências ultra-longas, os usuários power e os engajadores pesados que têm o comportamento mais interessante para aprender.
Os pesquisadores por trás do HyTRec observaram isso e fizeram uma pergunta diferente: E se isso não for realmente um único problema que requer uma única solução?
Como os usuários realmente pensam
A percepção começa com uma observação simples sobre como as preferências dos usuários realmente funcionam. Você tem dois tipos fundamentalmente diferentes de sinais de preferência, e eles operam em escalas de tempo completamente diferentes.
Suas preferências estáveis de longo prazo vêm de uma história profunda. Se você clicou em gadgets tecnológicos 500 vezes ao longo de dois anos, isso é uma forte evidência de que você gosta de tecnologia. Essa preferência não flutua muito de semana para semana. Importante, você não precisa de cada uma dessas 500 interações para entender o padrão. Você poderia aprender a mesma coisa com 50 delas, ou até mesmo a partir de um resumo estatístico aproximado. Ser aproximado sobre esse sinal não perde quase nada.
Seus picos de intenção de curto prazo vêm do comportamento recente. Se você clicou em três casacos de inverno nas últimas duas horas, você está comprando casacos agora. Esse sinal é frágil. É fácil de perder se você estiver fazendo uma média com milhares de outras interações de meses atrás. Mas é incrivelmente preditivo do que você fará nos próximos cinco minutos.
Esses não são apenas diferentes em grau, são diferentes em tipo. Um é estável e pode tolerar aproximação. O outro é volátil e requer precisão. No entanto, os métodos existentes tentam lidar com ambos com um único mecanismo de atenção, inevitavelmente otimizando um em detrimento do outro.
A solução híbrida
A jogada elegante é parar de tentar construir um mecanismo que faça tudo. Em vez disso, divida o trabalho de uma maneira que reflita como os usuários realmente navegam.
A arquitetura executa dois caminhos paralelos. No primeiro, toda a sua sequência histórica, mesmo que contenha 9.000 interações dos últimos seis meses, passa por um ramo de atenção linear. Esse ramo não precisa ser preciso. Ele está construindo uma compreensão ampla da sua categoria de gosto geral. Como usa atenção linear, completa em tempo proporcional ao comprimento da sequência, não ao quadrado do comprimento da sequência. É rápido.
No segundo caminho, suas interações recentes, talvez 1.000 das últimas duas semanas, passam por um ramo de atenção softmax. Esse ramo pode se dar ao luxo de ser caro porque opera em uma pequena fatia de dados. Ele produz representações precisas do que você pode querer agora. Você está fazendo computação cara, mas em uma pequena janela.
Cada ramo produz uma representação de "o que devemos recomendar". Então, a arquitetura combina-as de forma inteligente. Você restaurou a precisão da atenção softmax enquanto mantém a velocidade da atenção linear, porque cada uma agora opera em seu domínio adequado.
HyTRec divide longas sequências de comportamento do usuário entre dois mecanismos de atenção especializados, permitindo que preferências estáveis e picos de intenção recentes sejam tratados de forma independente.
Isso não é um ajuste menor. A complexidade computacional permanece linear em relação ao comprimento da sequência enquanto opera em sequências 10 vezes mais longas do que as abordagens anteriores poderiam lidar de forma eficiente. Mas há um detalhe escondido na arquitetura.
Fazendo sinais recentes importarem
O desafio com um sistema híbrido é que o ramo de atenção linear viu milhares de interações. O ramo softmax viu centenas. Por volume, o sinal do ramo linear é mais alto. Mas na recomendação, a recência importa mais do que o volume. Um clique de hoje diz mais sobre o que alguém quer do que um clique de seis meses atrás.
Se você tratar ambos os ramos igualmente, os dados antigos abafam os dados frescos. Você resolveu o problema computacional, mas criou um problema de responsividade.
A solução é chamada de Rede Delta Consciente do Tempo, ou TADN. O mecanismo faz algo simples: aumenta dinamicamente os sinais comportamentais frescos enquanto suprime o ruído histórico.
Imagine um mecanismo de controle que pergunta a cada parte da sequência: "Quão velho você é?" Interações frescas recebem pesos mais altos. Interações antigas recebem pesos mais baixos. Isso não acontece em um cronograma fixo, é aprendido a partir dos dados. A rede descobre padrões como: "Para este usuário, os padrões de comportamento mudam a cada poucos dias, então interações mais antigas que uma semana devem ser ponderadas com metade da força."
Sem o TADN, o sistema híbrido faria recomendações cada vez mais antigas à medida que as preferências de um usuário mudam. Com ele, o sistema permanece responsivo à mudança. Sinais recentes naturalmente têm mais influência sobre as recomendações, mas a rede aprende exatamente quanta influência faz sentido para cada usuário e tipo de interação.
Resultados do mundo real
Os pesquisadores testaram o HyTRec em conjuntos de dados massivos com sequências de comportamento de usuários reais que se estendem a dezenas de milhares de interações por usuário. Isso não são dados acadêmicos limpos, é a bagunça em escala de produção.
Em termos de velocidade, os resultados importam. O HyTRec mantém a complexidade de inferência linear. Dobre o comprimento da sequência, e o tempo de inferência dobra aproximadamente. Não quadruplica como a atenção softmax faria. Com sequências de 10.000 de comprimento, essa diferença determina se você pode recomendar em 50 milissegundos ou 5 segundos. Em uma plataforma que atende milhões de usuários, essa diferença é a linha entre o viável e o impossível.
...