sim. mas eu não acho que isso resultará no mesmo modelo. a política que o sonnet 3.6 aprendeu com RL é otimizada para sua própria arquitetura/inicialização
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
11 Curtidas
Recompensa
11
5
Repostar
Compartilhar
Comentário
0/400
CryptoSourGrape
· 9h atrás
Se eu soubesse que poderia otimizar a este nível, teria sido ótimo. Uhuu.
Ver originalResponder0
ArbitrageBot
· 9h atrás
Otimize o quê? Quem é que vê quando dá errado?
Ver originalResponder0
alpha_leaker
· 9h atrás
A inicialização é diferente, não consegui entender muito bem.
Ver originalResponder0
NFTFreezer
· 9h atrás
É uma pena, apenas otimizou para 3.6.
Ver originalResponder0
GmGmNoGn
· 9h atrás
Ah, você está certo, essa parte do modelo é bem confusa.
sim. mas eu não acho que isso resultará no mesmo modelo. a política que o sonnet 3.6 aprendeu com RL é otimizada para sua própria arquitetura/inicialização