zhangyiwan's picture

6

zhangyiwan

WindYiWan

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

updated a collection about 2 months ago

upvoted a paper 2 months ago

Deep Research: A Systematic Survey

View all activity

Organizations

None yet

upvoted a paper about 1 month ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 225

updated a collection about 2 months ago

RL

强化学习有关 • 1 item • Updated Dec 25, 2025

upvoted a paper 2 months ago

Deep Research: A Systematic Survey

Paper • 2512.02038 • Published Nov 24, 2025 • 72

upvoted a paper 3 months ago

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Paper • 2511.07327 • Published Nov 10, 2025 • 78

upvoted a paper 4 months ago

Deconstructing Attention: Investigating Design Principles for Effective Language Modeling

Paper • 2510.11602 • Published Oct 13, 2025 • 15

upvoted 2 papers 6 months ago

Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

Paper • 2508.07101 • Published Aug 9, 2025 • 14

RecGPT Technical Report

Paper • 2507.22879 • Published Jul 30, 2025 • 38