AutoDecompiler-30B-pscode / trainer_state.json

Upload 21 files

bee38f2 verified 4 days ago

23.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.20048019207683074,
	"eval_steps": 500,
	"global_step": 167,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01041666679084301,
	"completions/max_length": 2827.7,
	"completions/max_terminated_length": 2365.2,
	"completions/mean_length": 630.6958435058593,
	"completions/mean_terminated_length": 594.2115203857422,
	"completions/min_length": 132.0,
	"completions/min_terminated_length": 132.0,
	"entropy": 0.11724737156182527,
	"epoch": 0.012004801920768308,
	"frac_reward_zero_std": 0.13333333507180214,
	"grad_norm": 0.038755763322114944,
	"learning_rate": 5.389221556886228e-07,
	"loss": 0.0113,
	"num_tokens": 799206.0,
	"reward": -0.18518302096053957,
	"reward_std": 0.20015475898981094,
	"rewards/grpo_reward_function/mean": -0.18518302938900888,
	"rewards/grpo_reward_function/std": 0.6885311886668205,
	"sampling/importance_sampling_ratio/max": 2.1990586280822755,
	"sampling/importance_sampling_ratio/mean": 0.4647279143333435,
	"sampling/importance_sampling_ratio/min": 0.0005068443759228102,
	"sampling/sampling_logp_difference/max": 2.5390082478523253,
	"sampling/sampling_logp_difference/mean": 0.013516949955374002,
	"step": 10,
	"step_time": 569.2043406252749
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.010416666977107525,
	"completions/max_length": 2742.3,
	"completions/max_terminated_length": 2382.7,
	"completions/mean_length": 646.3521057128906,
	"completions/mean_terminated_length": 610.6208740234375,
	"completions/min_length": 131.6,
	"completions/min_terminated_length": 131.6,
	"entropy": 0.1267015876248479,
	"epoch": 0.024009603841536616,
	"frac_reward_zero_std": 0.1083333358168602,
	"grad_norm": 0.10266362875699997,
	"learning_rate": 1.1377245508982037e-06,
	"loss": -0.0225,
	"num_tokens": 1617099.0,
	"reward": 0.01770310625433922,
	"reward_std": 0.23654931634664536,
	"rewards/grpo_reward_function/mean": 0.0177031047642231,
	"rewards/grpo_reward_function/std": 0.8463600814342499,
	"sampling/importance_sampling_ratio/max": 1.9834328293800354,
	"sampling/importance_sampling_ratio/mean": 0.40317725837230683,
	"sampling/importance_sampling_ratio/min": 0.0032052009667828283,
	"sampling/sampling_logp_difference/max": 2.1022926926612855,
	"sampling/sampling_logp_difference/mean": 0.01352061601355672,
	"step": 20,
	"step_time": 548.7977518392727
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.014583333767950535,
	"completions/max_length": 3068.7,
	"completions/max_terminated_length": 2151.3,
	"completions/mean_length": 682.6271087646485,
	"completions/mean_terminated_length": 632.6335662841797,
	"completions/min_length": 188.7,
	"completions/min_terminated_length": 188.7,
	"entropy": 0.125905223749578,
	"epoch": 0.03601440576230492,
	"frac_reward_zero_std": 0.11666666939854622,
	"grad_norm": 0.06394433230161667,
	"learning_rate": 1.7365269461077847e-06,
	"loss": 0.0229,
	"num_tokens": 2465988.0,
	"reward": -0.18962360136210918,
	"reward_std": 0.19849726594984532,
	"rewards/grpo_reward_function/mean": -0.18962358720600606,
	"rewards/grpo_reward_function/std": 0.6894359931349754,
	"sampling/importance_sampling_ratio/max": 2.460964298248291,
	"sampling/importance_sampling_ratio/mean": 0.4253284126520157,
	"sampling/importance_sampling_ratio/min": 1.070212653598215e-05,
	"sampling/sampling_logp_difference/max": 2.8448187589645384,
	"sampling/sampling_logp_difference/mean": 0.013953791093081236,
	"step": 30,
	"step_time": 554.4699578347615
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01458333358168602,
	"completions/max_length": 2789.3,
	"completions/max_terminated_length": 1984.1,
	"completions/mean_length": 639.958349609375,
	"completions/mean_terminated_length": 589.7686553955078,
	"completions/min_length": 163.7,
	"completions/min_terminated_length": 163.7,
	"entropy": 0.11666738856583833,
	"epoch": 0.04801920768307323,
	"frac_reward_zero_std": 0.1166666679084301,
	"grad_norm": 0.08781701326370239,
	"learning_rate": 2.3353293413173654e-06,
	"loss": -0.0064,
	"num_tokens": 3297428.0,
	"reward": -0.03914917185902596,
	"reward_std": 0.21894535794854164,
	"rewards/grpo_reward_function/mean": -0.03914917148649692,
	"rewards/grpo_reward_function/std": 0.8605277180671692,
	"sampling/importance_sampling_ratio/max": 2.0170334696769716,
	"sampling/importance_sampling_ratio/mean": 0.4818507760763168,
	"sampling/importance_sampling_ratio/min": 0.0015486635098906688,
	"sampling/sampling_logp_difference/max": 2.52269823551178,
	"sampling/sampling_logp_difference/mean": 0.012881174683570862,
	"step": 40,
	"step_time": 541.3490906376392
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 4.2163060425082224e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 4.2163060425082224e-05,
	"completions/clipped_ratio": 0.016666667349636555,
	"completions/max_length": 2619.1,
	"completions/max_terminated_length": 2081.8,
	"completions/mean_length": 660.1000122070312,
	"completions/mean_terminated_length": 602.3141662597657,
	"completions/min_length": 205.5,
	"completions/min_terminated_length": 205.5,
	"entropy": 0.12803181819617748,
	"epoch": 0.060024009603841535,
	"frac_reward_zero_std": 0.1416666701436043,
	"grad_norm": 0.03966222703456879,
	"learning_rate": 2.9341317365269463e-06,
	"loss": 0.0112,
	"num_tokens": 4129824.0,
	"reward": -0.11274411627091467,
	"reward_std": 0.2275936236605048,
	"rewards/grpo_reward_function/mean": -0.1127441140357405,
	"rewards/grpo_reward_function/std": 0.8841595828533173,
	"sampling/importance_sampling_ratio/max": 2.008124852180481,
	"sampling/importance_sampling_ratio/mean": 0.46366433799266815,
	"sampling/importance_sampling_ratio/min": 0.0006394427657710367,
	"sampling/sampling_logp_difference/max": 2.58479106426239,
	"sampling/sampling_logp_difference/mean": 0.013615725003182888,
	"step": 50,
	"step_time": 545.8774313618429
	},
	{
	"clip_ratio/high_max": 4.673766961786896e-05,
	"clip_ratio/high_mean": 7.7896114817122e-06,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 7.7896114817122e-06,
	"completions/clipped_ratio": 0.01250000037252903,
	"completions/max_length": 2304.9,
	"completions/max_terminated_length": 1602.8,
	"completions/mean_length": 596.5750213623047,
	"completions/mean_terminated_length": 552.8821624755859,
	"completions/min_length": 150.0,
	"completions/min_terminated_length": 150.0,
	"entropy": 0.12017892487347126,
	"epoch": 0.07202881152460984,
	"frac_reward_zero_std": 0.14166666865348815,
	"grad_norm": 0.09313877671957016,
	"learning_rate": 3.5329341317365273e-06,
	"loss": -0.0307,
	"num_tokens": 4936176.0,
	"reward": -0.03057028874754906,
	"reward_std": 0.2686158835887909,
	"rewards/grpo_reward_function/mean": -0.03057028613984585,
	"rewards/grpo_reward_function/std": 0.8661522060632706,
	"sampling/importance_sampling_ratio/max": 2.2043559432029722,
	"sampling/importance_sampling_ratio/mean": 0.4847503274679184,
	"sampling/importance_sampling_ratio/min": 7.13271651690217e-05,
	"sampling/sampling_logp_difference/max": 2.4851160287857055,
	"sampling/sampling_logp_difference/mean": 0.013510057888925075,
	"step": 60,
	"step_time": 546.4311281181872
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 6.860105058876797e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 6.860105058876797e-05,
	"completions/clipped_ratio": 0.018750000558793545,
	"completions/max_length": 3205.2,
	"completions/max_terminated_length": 2270.1,
	"completions/mean_length": 702.3604431152344,
	"completions/mean_terminated_length": 636.497216796875,
	"completions/min_length": 131.8,
	"completions/min_terminated_length": 131.8,
	"entropy": 0.11768119670450687,
	"epoch": 0.08403361344537816,
	"frac_reward_zero_std": 0.1083333358168602,
	"grad_norm": 0.0433771014213562,
	"learning_rate": 4.131736526946108e-06,
	"loss": 0.0553,
	"num_tokens": 5841149.0,
	"reward": -0.0784481130540371,
	"reward_std": 0.23132488708943127,
	"rewards/grpo_reward_function/mean": -0.07844811640679836,
	"rewards/grpo_reward_function/std": 0.8492624998092652,
	"sampling/importance_sampling_ratio/max": 2.233333742618561,
	"sampling/importance_sampling_ratio/mean": 0.4808308959007263,
	"sampling/importance_sampling_ratio/min": 0.0008302704439188347,
	"sampling/sampling_logp_difference/max": 2.9827078700065615,
	"sampling/sampling_logp_difference/mean": 0.012630783580243587,
	"step": 70,
	"step_time": 561.5568902881816
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 8.41788569232449e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 8.41788569232449e-05,
	"completions/clipped_ratio": 0.01250000037252903,
	"completions/max_length": 2541.9,
	"completions/max_terminated_length": 2033.2,
	"completions/mean_length": 612.5875213623046,
	"completions/mean_terminated_length": 569.556509399414,
	"completions/min_length": 149.1,
	"completions/min_terminated_length": 149.1,
	"entropy": 0.13153507560491562,
	"epoch": 0.09603841536614646,
	"frac_reward_zero_std": 0.10833333656191826,
	"grad_norm": 0.08665835857391357,
	"learning_rate": 4.730538922155689e-06,
	"loss": 0.0701,
	"num_tokens": 6606395.0,
	"reward": -0.011540251970291137,
	"reward_std": 0.19073452726006507,
	"rewards/grpo_reward_function/mean": -0.011540257930755615,
	"rewards/grpo_reward_function/std": 0.784630474448204,
	"sampling/importance_sampling_ratio/max": 2.1984647274017335,
	"sampling/importance_sampling_ratio/mean": 0.5050391256809235,
	"sampling/importance_sampling_ratio/min": 0.00014755414913452113,
	"sampling/sampling_logp_difference/max": 1.8997669577598573,
	"sampling/sampling_logp_difference/mean": 0.013426258694380522,
	"step": 80,
	"step_time": 551.2647462010384
	},
	{
	"clip_ratio/high_max": 2.2563176753465086e-05,
	"clip_ratio/high_mean": 3.760529580176808e-06,
	"clip_ratio/low_mean": 1.3224284339230508e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 1.6984813919407314e-05,
	"completions/clipped_ratio": 0.01041666679084301,
	"completions/max_length": 2347.6,
	"completions/max_terminated_length": 2078.4,
	"completions/mean_length": 621.4354370117187,
	"completions/mean_terminated_length": 586.118701171875,
	"completions/min_length": 163.2,
	"completions/min_terminated_length": 163.2,
	"entropy": 0.1206895818002522,
	"epoch": 0.10804321728691477,
	"frac_reward_zero_std": 0.1083333358168602,
	"grad_norm": 0.034579165279865265,
	"learning_rate": 5.32934131736527e-06,
	"loss": 0.0011,
	"num_tokens": 7424828.0,
	"reward": 0.02708094713743776,
	"reward_std": 0.23181376457214356,
	"rewards/grpo_reward_function/mean": 0.027080959058366716,
	"rewards/grpo_reward_function/std": 0.8183064997196198,
	"sampling/importance_sampling_ratio/max": 2.499999237060547,
	"sampling/importance_sampling_ratio/mean": 0.486982923746109,
	"sampling/importance_sampling_ratio/min": 0.000999147113179788,
	"sampling/sampling_logp_difference/max": 2.079863798618317,
	"sampling/sampling_logp_difference/mean": 0.012986462097615004,
	"step": 90,
	"step_time": 550.7672496054322
	},
	{
	"clip_ratio/high_max": 0.00031043787457747386,
	"clip_ratio/high_mean": 5.173964618734317e-05,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 5.173964618734317e-05,
	"completions/clipped_ratio": 0.01666666716337204,
	"completions/max_length": 2765.9,
	"completions/max_terminated_length": 1842.8,
	"completions/mean_length": 675.4458435058593,
	"completions/mean_terminated_length": 618.1135345458985,
	"completions/min_length": 178.2,
	"completions/min_terminated_length": 178.2,
	"entropy": 0.149181258212775,
	"epoch": 0.12004801920768307,
	"frac_reward_zero_std": 0.1416666701436043,
	"grad_norm": 0.13291294872760773,
	"learning_rate": 5.928143712574851e-06,
	"loss": 0.0212,
	"num_tokens": 8278282.0,
	"reward": 0.0703774506226182,
	"reward_std": 0.2336222641170025,
	"rewards/grpo_reward_function/mean": 0.07037745183333755,
	"rewards/grpo_reward_function/std": 0.8314530551433563,
	"sampling/importance_sampling_ratio/max": 2.2870466232299806,
	"sampling/importance_sampling_ratio/mean": 0.4643064886331558,
	"sampling/importance_sampling_ratio/min": 2.921815394074656e-05,
	"sampling/sampling_logp_difference/max": 1.9242668151855469,
	"sampling/sampling_logp_difference/mean": 0.014198462665081023,
	"step": 100,
	"step_time": 547.0480061549694
	},
	{
	"clip_ratio/high_max": 0.0003238706885895226,
	"clip_ratio/high_mean": 5.397844997787615e-05,
	"clip_ratio/low_mean": 7.069677012623287e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.00012467522010410902,
	"completions/clipped_ratio": 0.020833334513008596,
	"completions/max_length": 2925.3,
	"completions/max_terminated_length": 2297.9,
	"completions/mean_length": 680.045849609375,
	"completions/mean_terminated_length": 605.8596954345703,
	"completions/min_length": 186.9,
	"completions/min_terminated_length": 186.9,
	"entropy": 0.1511568833142519,
	"epoch": 0.13205282112845138,
	"frac_reward_zero_std": 0.08333333507180214,
	"grad_norm": 0.0421764962375164,
	"learning_rate": 6.526946107784432e-06,
	"loss": -0.0031,
	"num_tokens": 9165800.0,
	"reward": 0.04289367534220219,
	"reward_std": 0.24053554534912108,
	"rewards/grpo_reward_function/mean": 0.042893677949905396,
	"rewards/grpo_reward_function/std": 0.835248938202858,
	"sampling/importance_sampling_ratio/max": 2.332168984413147,
	"sampling/importance_sampling_ratio/mean": 0.4403663039207458,
	"sampling/importance_sampling_ratio/min": 0.0001706225667930994,
	"sampling/sampling_logp_difference/max": 2.4483426809310913,
	"sampling/sampling_logp_difference/mean": 0.014532316662371158,
	"step": 110,
	"step_time": 548.8019280240871
	},
	{
	"clip_ratio/high_max": 0.00012998266611248256,
	"clip_ratio/high_mean": 2.16637781704776e-05,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 2.16637781704776e-05,
	"completions/clipped_ratio": 0.002083333395421505,
	"completions/max_length": 1812.6,
	"completions/max_terminated_length": 1592.9,
	"completions/mean_length": 602.1333526611328,
	"completions/mean_terminated_length": 594.61220703125,
	"completions/min_length": 179.7,
	"completions/min_terminated_length": 179.7,
	"entropy": 0.16710406728088856,
	"epoch": 0.14405762304921968,
	"frac_reward_zero_std": 0.0833333358168602,
	"grad_norm": 0.07664494961500168,
	"learning_rate": 7.125748502994012e-06,
	"loss": -0.0309,
	"num_tokens": 9975204.0,
	"reward": 0.0826782912015915,
	"reward_std": 0.23934805542230606,
	"rewards/grpo_reward_function/mean": 0.0826782874763012,
	"rewards/grpo_reward_function/std": 0.8862796187400818,
	"sampling/importance_sampling_ratio/max": 2.2503564238548277,
	"sampling/importance_sampling_ratio/mean": 0.4635925680398941,
	"sampling/importance_sampling_ratio/min": 0.0009416027547558823,
	"sampling/sampling_logp_difference/max": 2.073215699195862,
	"sampling/sampling_logp_difference/mean": 0.01480921907350421,
	"step": 120,
	"step_time": 539.0031213279814
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 1.9831826648442074e-06,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 1.9831826648442074e-06,
	"completions/clipped_ratio": 0.006250000186264515,
	"completions/max_length": 2290.7,
	"completions/max_terminated_length": 1880.6,
	"completions/mean_length": 599.5916900634766,
	"completions/mean_terminated_length": 578.0104217529297,
	"completions/min_length": 168.6,
	"completions/min_terminated_length": 168.6,
	"entropy": 0.16012020353227854,
	"epoch": 0.15606242496998798,
	"frac_reward_zero_std": 0.11666667014360428,
	"grad_norm": 0.05220530927181244,
	"learning_rate": 7.724550898203594e-06,
	"loss": -0.0377,
	"num_tokens": 10768324.0,
	"reward": -0.0507307555526495,
	"reward_std": 0.18351687043905257,
	"rewards/grpo_reward_function/mean": -0.05073075201362372,
	"rewards/grpo_reward_function/std": 0.7544578343629837,
	"sampling/importance_sampling_ratio/max": 2.375898337364197,
	"sampling/importance_sampling_ratio/mean": 0.524286350607872,
	"sampling/importance_sampling_ratio/min": 0.00018855740054277704,
	"sampling/sampling_logp_difference/max": 2.009746181964874,
	"sampling/sampling_logp_difference/mean": 0.01376222250983119,
	"step": 130,
	"step_time": 548.6409472068772
	},
	{
	"clip_ratio/high_max": 0.00017211703816428782,
	"clip_ratio/high_mean": 2.86861730273813e-05,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 2.86861730273813e-05,
	"completions/clipped_ratio": 0.00833333358168602,
	"completions/max_length": 3136.9,
	"completions/max_terminated_length": 2221.0,
	"completions/mean_length": 684.8500244140625,
	"completions/mean_terminated_length": 655.5515625,
	"completions/min_length": 168.7,
	"completions/min_terminated_length": 168.7,
	"entropy": 0.12020768839865922,
	"epoch": 0.16806722689075632,
	"frac_reward_zero_std": 0.09166666939854622,
	"grad_norm": 0.058197326958179474,
	"learning_rate": 8.323353293413174e-06,
	"loss": -0.0342,
	"num_tokens": 11642436.0,
	"reward": 0.04102597634773701,
	"reward_std": 0.2864942252635956,
	"rewards/grpo_reward_function/mean": 0.041025977826211604,
	"rewards/grpo_reward_function/std": 0.8844284832477569,
	"sampling/importance_sampling_ratio/max": 2.37525737285614,
	"sampling/importance_sampling_ratio/mean": 0.46323378682136535,
	"sampling/importance_sampling_ratio/min": 2.6157076149502247e-08,
	"sampling/sampling_logp_difference/max": 2.5657184720039368,
	"sampling/sampling_logp_difference/mean": 0.012760929018259048,
	"step": 140,
	"step_time": 550.6772611703724
	},
	{
	"clip_ratio/high_max": 0.00029233113455120476,
	"clip_ratio/high_mean": 4.872185563726816e-05,
	"clip_ratio/low_mean": 4.4254150270717216e-05,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 9.297600590798538e-05,
	"completions/clipped_ratio": 0.01041666679084301,
	"completions/max_length": 2211.6,
	"completions/max_terminated_length": 1961.7,
	"completions/mean_length": 601.2291839599609,
	"completions/mean_terminated_length": 565.5705291748047,
	"completions/min_length": 143.6,
	"completions/min_terminated_length": 143.6,
	"entropy": 0.10819828314706684,
	"epoch": 0.18007202881152462,
	"frac_reward_zero_std": 0.10833333656191826,
	"grad_norm": 0.04749957472085953,
	"learning_rate": 8.922155688622756e-06,
	"loss": -0.0236,
	"num_tokens": 12486318.0,
	"reward": 0.03778684511780739,
	"reward_std": 0.25178585574030876,
	"rewards/grpo_reward_function/mean": 0.03778683394193649,
	"rewards/grpo_reward_function/std": 0.7447861909866333,
	"sampling/importance_sampling_ratio/max": 2.481464517116547,
	"sampling/importance_sampling_ratio/mean": 0.5163449585437775,
	"sampling/importance_sampling_ratio/min": 3.668112331070006e-05,
	"sampling/sampling_logp_difference/max": 2.379316544532776,
	"sampling/sampling_logp_difference/mean": 0.012185737490653992,
	"step": 150,
	"step_time": 551.4488250606694
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 5.082125426270068e-06,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 5.082125426270068e-06,
	"completions/clipped_ratio": 0.002083333395421505,
	"completions/max_length": 2301.5,
	"completions/max_terminated_length": 2174.7,
	"completions/mean_length": 625.8979309082031,
	"completions/mean_terminated_length": 618.7978820800781,
	"completions/min_length": 170.2,
	"completions/min_terminated_length": 170.2,
	"entropy": 0.10213978644460439,
	"epoch": 0.19207683073229292,
	"frac_reward_zero_std": 0.08333333507180214,
	"grad_norm": 0.05615560710430145,
	"learning_rate": 9.520958083832336e-06,
	"loss": 0.0043,
	"num_tokens": 13325121.0,
	"reward": 0.06630225274711847,
	"reward_std": 0.18489644899964333,
	"rewards/grpo_reward_function/mean": 0.0663022572407499,
	"rewards/grpo_reward_function/std": 0.7666326016187668,
	"sampling/importance_sampling_ratio/max": 2.1301008343696592,
	"sampling/importance_sampling_ratio/mean": 0.44916791915893556,
	"sampling/importance_sampling_ratio/min": 7.07070047610614e-05,
	"sampling/sampling_logp_difference/max": 2.524372959136963,
	"sampling/sampling_logp_difference/mean": 0.013301923777908087,
	"step": 160,
	"step_time": 538.0738848904148
	}
	],
	"logging_steps": 10,
	"max_steps": 833,
	"num_input_tokens_seen": 13935881,
	"num_train_epochs": 1,
	"save_steps": 167,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}