Andreas Stöffelbauer

andreasskyscanner

23

AI & ML interests

None yet

Recent Activity

upvoted a paper 11 days ago

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

upvoted a paper 12 days ago

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

upvoted a paper 19 days ago

Trajectory-Refined Distillation

View all activity

Organizations

None yet

models 2

andreasskyscanner/llama-31-hhrlhf-squad-rlhf-policy-model

Text Generation • 1B • Updated Jul 1, 2025 • 3

andreasskyscanner/llama-32-hhrlhf-reward-adapter

Updated Jul 1, 2025

datasets 0

None public yet