new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 17

Submitted by

lmwang

VideoChat3: Fully Open Video MLLM for Efficient and Generalist Video Understanding

MCG-NJU

Multimedia Computing Group-Nanjing University

Submitted by

xtma

LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

mindlab-research

Submitted by

Jinyang23

SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

·
11 authors

Submitted by

taesiri

SearchOS-V1: Towards Robust Open-Domain Information-Seeking Agent Collaboration

antgroup

Submitted by

LIQIIIII

BadWAM: When World-Action Models Dream Right but Act Wrong

·
3 authors

Submitted by

DogNeverSleep

KeyFrame-Compass: Towards Comprehensive Evaluation of Keyframe-Conditioned Video Generation

KlingTeam

Submitted by

DogNeverSleep

MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

KlingTeam

Submitted by

kpzhang996

From Pixels to States: Rethinking Interactive World Models as Game Engines

AlayaLab

Submitted by

maverickrzw

UniVR: Thinking in Visual Space for Unified Visual Reasoning

ByteDance

Submitted by

lmquan

Concurrent Image Understanding and Generation: Self-Correcting Coupled Markov Jump Processes

google

Submitted by

c7w

Spectral Rewiring for Exploration, Purification, and Model Merging

·
8 authors

Submitted by

lhhuang

Video = World + Event Stream

Wan-AI

Submitted by

Ray121381

Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

·
7 authors

Submitted by

hhyhrhy

RxBrain: Embodied Cognition Foundation Model with Joint Language-Visual Reasoning and Imagination

·
30 authors

Submitted by

taesiri

RoboTTT: Context Scaling for Robot Policies

nvidia

Submitted by

taesiri

MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

taesiri

WanSong v1.0 Technical Report

Wan-AI

Submitted by

yifAI

DeepLoop: Depth Scaling for Looped Transformers

·
5 authors

Submitted by

Lanxingxuan

VIABench: A Comprehensive Video Benchmark Collected from Blind Individuals for Visual Impairment Assistance

NJU

Nanjing University

Submitted by

Corbenic

Smarter and Cheaper at Once: Byte-Exact KV-Cache Grafting Turns a Frozen Small Model into a Verified-Knowledge Flywheel

Corbenci

Submitted by

patrikwolf

Partition, Prompt, Aggregate: Statistical Self-Consistency in Language Models

·
4 authors

Submitted by

zzhongyj

AsySplat: Efficient Asymmetric 3D Gaussian Splatting for Long-Sequence Scene Modeling

Submitted by

Franck-Dernoncourt

GRASP: GRanularity-Aware Search Policy for Agentic RAG

·
7 authors

Submitted by

saadejazz

SUFLECA: Scaling Up Feature Learning for CAD-to-image Alignment

·
5 authors

Submitted by

pbansal

Token Time Continuous Diffusion for Language Modeling

UTEXAS

University of Texas at Austin

Submitted by

Mark7121983123

Hierarchical Denoising For Multi-Step Visual Reasoning

·
12 authors

Submitted by

Yuan-avs

Chat2Scenic: An Iterative RAG-Based Framework for Scenario Generation in Autonomous Driving

TUM-AVS

TUM - Professorship of Autonomous Vehicle Systems

Submitted by

TTTXXX01

Rethinking the Evaluation of Harness Evolution for Agents

University of Washington

Submitted by

rezaebrahimi

On Locality and Length Generalization in Visual Reasoning

qualcomm