new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 30

Submitted by

AngLv

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

ByteDance-Seed

Submitted by

ethanchern

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

·
7 authors

Submitted by

kpzhang996

Yume-1.5: A Text-Controlled Interactive World Generation Model

·
9 authors

Submitted by

yolay

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

tencent

Submitted by

Daniellesry

Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

BAAI

Beijing Academy of Artificial Intelligence

Submitted by

yulunliu

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

·
7 authors

Submitted by

Sansa

Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

hkuhk

The University of Hong Kong

Submitted by

Yuanshi

SpotEdit: Selective Region Editing in Diffusion Transformers

NationalUniversityofSingapore

National University of Singapore

Submitted by

zooblastlbz

GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

KlingTeam

Submitted by

sundrops

Act2Goal: From World Model To General Goal-conditioned Policy

agibot-world

Submitted by

yifAI

Web World Models

princeton-ai

Princeton AI Lab

Submitted by

SII-xrliu

DiRL: An Efficient Post-Training Framework for Diffusion Language Models

OpenMOSS-Team

Submitted by

shash42

Training AI Co-Scientists Using Rubric Rewards

Submitted by

gatilin

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

tencent

Submitted by

taesiri

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

·
9 authors

Submitted by

callanwu

Nested Browser-Use Learning for Agentic Information Seeking

AlibabaTongyiLab

Submitted by

KD-TAO

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

·
6 authors

Submitted by

taesiri

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

nvidia

Submitted by

taiwang

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

·
9 authors

Submitted by

taesiri

Monadic Context Engineering

princetonu

Princeton University

Submitted by

taesiri

An Information Theoretic Perspective on Agentic System Design

StanfordUniversity

Stanford University

Submitted by

jchoe

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

nvidia

2

Submitted by

tanhuajie2001

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

·
15 authors

Submitted by

ChenyangSi

ProGuard: Towards Proactive Multimodal Safeguard

·
5 authors

Submitted by

taesiri

Bridging Your Imagination with Audio-Video Generation via a Unified Director

ByteDance

Submitted by

ZihanWang99

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

AlibabaTongyiLab

Submitted by

gangliao

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

metaresearch

Submitted by

BayanDuygu

Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis

turkish-nlp-suite

Turkish NLP Suite

Submitted by

Andyx

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

adobe-research

Submitted by

abhranil14

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

UWaterloo

University of Waterloo

Submitted by

hkung

Reverse Personalization

·
3 authors