8 23 20

Zhongang Cai

caizhongang

http://caizhongang.com/

AI & ML interests

Multimodal, Spatial Intelligence, Embodied AI, Virtual Humans.

Recent Activity

liked a dataset 2 days ago

Video-Reason/VBVR-Dataset

liked a Space 7 days ago

Video-Reason/VBVR-Bench-Leaderboard

authored a paper 7 days ago

The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

View all activity

Organizations

liked a dataset 2 days ago

Video-Reason/VBVR-Dataset

Viewer • Updated 4 days ago • 1M • 1.43k • 38

liked a Space 7 days ago

VBVR Bench Leaderboard

🥇

Leaderboard for VBVR-Bench

authored 3 papers 7 days ago

liked a model 8 days ago

Video-Reason/VBVR-Wan2.2

Image-to-Video • Updated about 14 hours ago • 91 • 86

upvoted a paper 8 days ago

A Very Big Video Reasoning Suite

Paper • 2602.20159 • Published 8 days ago • 503

upvoted a paper 22 days ago

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Paper • 2602.08439 • Published 22 days ago • 28

upvoted a paper about 1 month ago

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Paper • 2601.22153 • Published Jan 29 • 71

updated a model about 1 month ago

caizhongang/SMPLer-X

Updated Jan 22 • 6

liked a model about 1 month ago

caizhongang/SMPLer-X

Updated Jan 22 • 6

liked a dataset about 2 months ago

sensenova/MessyTable-SI

Preview • Updated Jan 7 • 123 • 3

liked 5 models about 2 months ago

sensenova/SenseNova-SI-1.1-Qwen2.5-VL-3B

Image-Text-to-Text • 4B • Updated Dec 9, 2025 • 1.07k • 4

sensenova/SenseNova-SI-1.1-InternVL3-8B-800K

Image-Text-to-Text • 8B • Updated Dec 23, 2025 • 2

sensenova/SenseNova-SI-1.1-Qwen2.5-VL-7B

Image-Text-to-Text • 8B • Updated Dec 9, 2025 • 1.08k • 4

sensenova/SenseNova-SI-1.1-BAGEL-7B-MoT

Image-Text-to-Text • Updated Jan 13 • 980 • 3

sensenova/SenseNova-SI-1.3-InternVL3-8B

Image-Text-to-Text • 8B • Updated Jan 9 • 2.9k • 7

updated a dataset 2 months ago

sensenova/MessyTable-SI

Preview • Updated Jan 7 • 123 • 3

upvoted a paper 2 months ago

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Paper • 2512.19693 • Published Dec 22, 2025 • 66

liked a dataset 2 months ago

sensenova/SenseNova-SI-800K

Viewer • Updated Dec 23, 2025 • 832k • 925 • 13

Zhongang Cai

AI & ML interests

Recent Activity

Organizations

caizhongang's activity

VBVR Bench Leaderboard