new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Apr 10

Submitted by

taesiri

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

·
8 authors

Submitted by

jasonrqh

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

AI45Research

Submitted by

Zuyan

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

dkliang

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

H-EmbodVis

Submitted by

AgPerry

ClawBench: Can AI Agents Complete Everyday Online Tasks?

NAIL-Group

Natural and Artificial Intelligence Lab

Submitted by

Gaojunyao

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

tencent

8

Submitted by

taesiri

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

uclanlp

Submitted by

alkxncda

LPM 1.0: Video-based Character Performance Model

·
25 authors

Submitted by

LZXzju

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

·
16 authors

Submitted by

Zigeng

DMax: Aggressive Parallel Decoding for dLLMs

NationalUniversityofSingapore

National University of Singapore

Submitted by

Chenyu-Zhou

Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

·
21 authors

Submitted by

shilinyan

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Accio-Lab

Submitted by

taesiri

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

·
16 authors

Submitted by

fenglinglwb

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

JoyFutureAcademy

Joy Future Academy

Submitted by

zli12321

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

Latitude-Attitude

University of Pennsylvania

Submitted by

Z-MU-Z

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

zju

Zhejiang University

Submitted by

xhluca

Structured Distillation of Web Agent Capabilities Enables Generalization

McGill-NLP

McGill NLP Group

Submitted by

jskarras

FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

google

Submitted by

weizhoudb

Automating Database-Native Function Code Synthesis with LLMs

SJTU

Shanghai Jiao Tong University

Submitted by

Jeff-Wang

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

GigaAI-Research

GigaAI-Research

Submitted by

YunsongZhou

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

InternRobotics

Intern Robotics

Submitted by

FeiElysia

Small Vision-Language Models are Smart Compressors for Long Video Understanding

·
16 authors

Submitted by

QQTang1223

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

LCM-Lab

Long-Context Model Laboratory

Submitted by

Bowieee

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

·
14 authors

Submitted by

taesiri

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

·
5 authors

Submitted by

GhostCai

Lighting-grounded Video Generation with Renderer-based Agent Reasoning

·
7 authors

Submitted by

adi8196

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

microsoft

2

Submitted by

taesiri

PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

·
8 authors

Submitted by

tuvllms

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

·
9 authors

Submitted by

MaticFuc

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

vicoslab

Visual Cognitive Systems Laboratory

Submitted by

lime-j

On the Global Photometric Alignment for Low-Level Vision

·
5 authors

Submitted by

J017athan

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

hkuhk

The University of Hong Kong

2

Submitted by

Nothing2Say

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

·
6 authors

Submitted by

isminoula

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

PLAN-Lab

Perception and LANguage Lab @UIUC

Submitted by

CarolynJiang

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

2

Submitted by

jiyunwon

POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP

·
5 authors

Submitted by

Satyamk098

QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

·
2 authors

2

Submitted by

PardisTaghavi

Training a Student Expert via Semi-Supervised Foundation Model Distillation

TexasAMUniversity

Texas A&M University

Submitted by

h-h-y

Structural Graph Probing of Vision-Language Models

Northeastern

Northeastern University

Submitted by

isminoula

RewardFlow: Generate Images by Optimizing What You Reward

PLAN-Lab

Perception and LANguage Lab @UIUC

Submitted by

samerabualhanud

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

lunihannover

Leibniz Universität Hannover

Submitted by

shyamgopal

Personalizing Text-to-Image Generation to Individual Taste

bethgelab

2