J C

dark-pen

AI & ML interests

None yet

Recent Activity

upvoted a collection about 10 hours ago

k-steering

liked a dataset about 10 hours ago

withmartian/DEBATEMIX

liked a model about 14 hours ago

kernels-community/quantization-bitsandbytes

View all activity

Organizations

upvoted a collection about 10 hours ago

k-steering

Collection

Collecting datasets used for our paper on multi-attribute steering using gradient descent. • 7 items • Updated Nov 3, 2025 • 2

liked a dataset about 10 hours ago

withmartian/DEBATEMIX

Viewer • Updated Nov 3, 2025 • 200 • 11 • 1

liked 3 models about 14 hours ago

kernels-community/quantization-bitsandbytes

Updated about 15 hours ago • 4.06k • 3

llm-semantic-router/mmbert32k-modality-router-lora

Text Classification • Updated Feb 10 • 7 • 1

nvidia/llama-nemotron-embed-vl-1b-v2

liked 2 datasets about 14 hours ago

DonJoey/mix-grm-sft-9k

Viewer • Updated Feb 27 • 8.99k • 17 • 1

DonJoey/mix-grm-rl-21k

Viewer • Updated Feb 27 • 21.9k • 12 • 1

upvoted a paper about 14 hours ago

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Paper • 2603.01571 • Published Mar 2 • 34

liked a dataset about 14 hours ago

DonJoey/rubricbench

Viewer • Updated Mar 1 • 1.15k • 49 • 9

upvoted a paper about 14 hours ago

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Paper • 2603.01562 • Published Mar 2 • 64

upvoted a collection about 15 hours ago

Reasoning

Collection

128 items • Updated about 16 hours ago • 5

upvoted a paper about 15 hours ago

Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

Paper • 2606.05922 • Published 8 days ago • 52

liked a model about 15 hours ago

OpenWebRL/OpenWebRL-Judge-4B

4B • Updated May 1 • 8 • 1

liked a dataset about 15 hours ago

OpenWebRL/OpenWebRL-Judge-13K

Viewer • Updated 19 days ago • 9.3k • 6 • 1

upvoted a paper about 15 hours ago

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

Paper • 2606.02031 • Published 11 days ago • 20

upvoted a collection about 15 hours ago

Post training

Collection

32 items • Updated 1 day ago • 1

liked a dataset about 15 hours ago

OpenRubrics/RubricARROW-Judge-SFT

Viewer • Updated 13 days ago • 119k • 139 • 4

upvoted a paper about 15 hours ago

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

Paper • 2605.29156 • Published 16 days ago • 14

liked a dataset about 15 hours ago

McGill-NLP/AI-For-Science-Retreat-Data

Updated Apr 12 • 843 • 1

upvoted a paper about 15 hours ago

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Paper • 2504.08942 • Published Apr 11, 2025 • 29

J C

AI & ML interests

Recent Activity

Organizations

dark-pen's activity