Consulta

#14

by velicomen58 - opened Dec 7, 2025

Discussion

velicomen58

Dec 7, 2025

Que puede hacer DeepSeek Speciale

fsaudm

Dec 29, 2025

Mis 2 granitos de sal: el speciale tuvo un pretraining y RL un poco diferente al v3.2 "normal" (más agresivo en áreas como código y matemáticas, entre otras cosas), y también genera muchos más tokens de razonamiento, o si se quiere, "razona" por más tiempo/tokens.

El paper está genial. Aparte del tema de DSA (deepseek sparse attention), los datos que destinaron de sus LLM expertos en ciertas áreas esta interesantísimo. Esta genial que los autores también señalan que el "token efficiency" es un area muy importante y que necesita atención.

Espero sirva :D

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment