Consulta

#14
by velicomen58 - opened

Que puede hacer DeepSeek Speciale

Mis 2 granitos de sal: el speciale tuvo un pretraining y RL un poco diferente al v3.2 "normal" (más agresivo en áreas como código y matemáticas, entre otras cosas), y también genera muchos más tokens de razonamiento, o si se quiere, "razona" por más tiempo/tokens.

El paper está genial. Aparte del tema de DSA (deepseek sparse attention), los datos que destinaron de sus LLM expertos en ciertas áreas esta interesantísimo. Esta genial que los autores también señalan que el "token efficiency" es un area muy importante y que necesita atención.

Espero sirva :D

Sign up or log in to comment