/* * ,; * \@@#\: :/. .:;;: * _@@@@@@#+\|/!;;!-@@@--; ,@@@@@; * .!_*@@@@@@@@@@@@@@@@@@@; |@@@@@\ * .:!|+@@@@@##@@@@@@@#! -@@@@@#, * .\@@@*;,\@@@@@@@@+,*@@@@@@+. * :*#@@@@@@@@@@@@@@-+@@@@@@@\@@@@-. * .#@@@@@#@@@@#*@@@+ /@@@@@@;\@@@@+. * ;\/:, -@@@@;|@@@\ ,+@@@@!.+@@@@*: * ,@@@@#*@@@@@#+__!. ,*@@@@@/ * \##+_@@@@@@@@, ,+@@@_: * ;;,,..,: !;. */ var __defProp = Object.defineProperty; var __name = (target, value) => __defProp(target, "name", { value, configurable: true }); var __export = (target, all) => { for (var name in all) __defProp(target, name, { get: all[name], enumerable: true }); }; // src/config.js var QWEN25_3B = { hiddenSize: 2048, numLayers: 36, numHeads: 16, numKVHeads: 2, headDim: 128, intermediateSize: 11008, vocabSize: 151936, rmsNormEps: 1e-6, ropeTheta: 1e6, /* * TECHNIQUE: Tie word embeddings * input embedding == output head. * Simplifies loading (one tensor), schema, and final projection math. * Required by the current model_uploader + schema. */ tieWordEmbeddings: true, // QKV projections carry a bias in Qwen2.5; o_proj and the MLP do not. attentionBias: true }; // src/readers.js function urlReader(baseUrl, headers = {}) { const base = baseUrl.endsWith("/") ? baseUrl : baseUrl + "/"; return { async range(path, start, end) { const r = await fetch(base + path, { headers: { ...headers, Range: `bytes=${start}-${end - 1}` } }); if (!r.ok && r.status !== 206) { throw new Error(`range ${path} ${start}-${end}: ${r.status}`); } return await r.arrayBuffer(); }, async text(path) { const r = await fetch(base + path, { headers }); if (!r.ok) throw new Error(`fetch ${path}: ${r.status}`); return await r.text(); } }; } __name(urlReader, "urlReader"); function hfReader(repo, token = "", rev = "main") { return urlReader( `https://huggingface.co/${repo}/resolve/${rev}`, token ? { Authorization: `Bearer ${token}` } : {} ); } __name(hfReader, "hfReader"); function fileReader(fileMap) { const pick = /* @__PURE__ */ __name((path) => fileMap[path] || fileMap[path.split("/").pop()], "pick"); return { async range(path, start, end) { const f = pick(path); if (!f) throw new Error(`file not provided: ${path}`); return await f.slice(start, end).arrayBuffer(); }, async text(path) { const f = pick(path); if (!f) throw new Error(`file not provided: ${path}`); return await f.text(); } }; } __name(fileReader, "fileReader"); // src/services/adapter_registry.js var AdapterRegistry = class { static { __name(this, "AdapterRegistry"); } constructor() { this.adapters = { none: null }; } add(name, modules) { this.adapters[name] = { modules }; return this.adapters[name]; } get(name) { return this.adapters[name] || null; } /* * TECHNIQUE: Runtime adapter swapping via setLora * Registry holds pre-uploaded A/B buffers. applyToRuntime calls * rt.setLora which just swaps references — no weight reload. */ applyToRuntime(name, rt) { const adapter = this.get(name); if (adapter) rt.setLora(adapter); else rt.clearLora(); return adapter; } }; // src/qwgpu/kernels.js var GEMV = ` enable subgroups; requires immediate_address_space; requires subgroup_id; struct Meta { K:u32, N:u32, rank:u32, hasBias:u32, hasLora:u32, gridX:u32, scaleLo:f32, gpr:u32 }; @group(0) @binding(0) var x: array; @group(0) @binding(1) var w: array; // [N][K/4] int8 @group(0) @binding(2) var scale: array; // [N] @group(0) @binding(3) var bias: array; // [N] or dummy @group(0) @binding(4) var loraD: array; // [rank] precomputed x@A (or dummy) @group(0) @binding(5) var loraB: array; // [rank][N] (or dummy) @group(0) @binding(6) var y: array; // [N] var m: Meta; var part: array; // one slot per subgroup @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32, @builtin(subgroup_id) sgroup: u32) { let n = wid.x + wid.y * m.gridX; let tid = lid.x; if (n >= m.N) { return; } // workgroup-uniform: whole group exits together let K4 = m.K/4u; let rb = n*K4; var acc = 0.0; for (var k = tid; k < K4; k = k + 64u) { let p = w[rb+k]; let v = unpack4xI8(p); // vec4 let kk = k*4u; acc = acc + x[kk]*f32(v.x) + x[kk+1u]*f32(v.y) + x[kk+2u]*f32(v.z) + x[kk+3u]*f32(v.w); } let ssum = subgroupAdd(acc); // reduce within subgroup (no barrier) if (sgid == 0u) { part[tid / sgsz] = ssum; } workgroupBarrier(); if (tid == 0u) { let nsg = (64u + sgsz - 1u) / sgsz; var red = 0.0; for (var i = 0u; i < nsg; i = i + 1u) { red = red + part[i]; } var o = red * scale[n]; if (m.hasBias == 1u) { o = o + bias[n]; } if (m.hasLora == 1u) { var dl = 0.0; for (var r = 0u; r < m.rank; r = r + 1u) { dl = dl + loraD[r] * loraB[r*m.N + n]; } o = o + m.scaleLo * dl; } y[n] = o; } }`; var LORA_A = ` enable subgroups; requires immediate_address_space; @group(0) @binding(0) var x: array; // [K] @group(0) @binding(1) var A: array; // [rank][K] (transposed) @group(0) @binding(2) var d: array; // [rank] var m: vec2; // K, rank var part: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let r = wid.x; let K = m.x; if (r >= m.y) { return; } let rb = r*K; var acc = 0.0; for (var k = lid.x; k < K; k = k + 64u) { acc = acc + x[k]*A[rb + k]; } let s = subgroupAdd(acc); if (sgid == 0u) { part[lid.x / sgsz] = s; } workgroupBarrier(); if (lid.x == 0u) { let nsg=(64u+sgsz-1u)/sgsz; var o=0.0; for(var i=0u;i x: array; // [T][K] @group(0) @binding(1) var A: array; // [rank][K] @group(0) @binding(2) var d: array; // [T][rank] var m: vec4; // K, rank, T, _ var part: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let r = wid.x; let t = wid.y; let K = m.x; let rank = m.y; if (r >= rank || t >= m.z) { return; } let xb = t*K; let ab = r*K; var acc = 0.0; for (var k = lid.x; k < K; k = k + 64u) { acc = acc + x[xb + k]*A[ab + k]; } let s = subgroupAdd(acc); if (sgid == 0u) { part[lid.x / sgsz] = s; } workgroupBarrier(); if (lid.x == 0u) { let nsg=(64u+sgsz-1u)/sgsz; var o=0.0; for(var i=0u;i d: array; // [T][rank] @group(0) @binding(1) var B: array; // [rank][N] @group(0) @binding(2) var Y: array; // [T][N] var m: Meta; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let i = gid.y * (m.gx * 256u) + gid.x; if (i >= m.T * m.N) { return; } let t = i / m.N; let n = i % m.N; var acc = 0.0; for (var r = 0u; r < m.rank; r = r + 1u) { acc = acc + d[t*m.rank + r] * B[r*m.N + n]; } Y[i] = Y[i] + m.scale * acc; }`; var LORA_B_ADD = ` requires immediate_address_space; struct Meta { N:u32, rank:u32, p0:u32, p1:u32, scale:f32, f0:f32, f1:f32, f2:f32 }; @group(0) @binding(0) var d: array; // [rank] @group(0) @binding(1) var B: array; // [rank][N] @group(0) @binding(2) var y: array; // [N] var m: Meta; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let n = gid.x; if (n >= m.N) { return; } var acc = 0.0; for (var r = 0u; r < m.rank; r = r + 1u) { acc = acc + d[r] * B[r*m.N + n]; } y[n] = y[n] + m.scale * acc; }`; var RMSNORM = ` requires immediate_address_space; override WG: u32 = 256u; @group(0) @binding(0) var x: array; @group(0) @binding(1) var g: array; @group(0) @binding(2) var y: array; var m: vec2; // K, eps var part: array; @compute @workgroup_size(WG) fn main(@builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let K = u32(m.x); var s = 0.0; for (var k = tid; k < K; k = k + WG) { let v = x[k]; s = s + v*v; } part[tid] = s; workgroupBarrier(); for (var t = WG / 2u; t > 0u; t = t/2u) { if (tid < t) { part[tid] = part[tid] + part[tid+t]; } workgroupBarrier(); } let inv = inverseSqrt(part[0]/m.x + m.y); for (var k = tid; k < K; k = k + WG) { y[k] = x[k]*inv*g[k]; } }`; var RMSNORM_F16 = ` requires immediate_address_space; enable f16; override WG: u32 = 256u; @group(0) @binding(0) var x: array; @group(0) @binding(1) var g: array; @group(0) @binding(2) var y: array; var m: vec2; // K, eps // Reduction accumulates in f32 even though the normalize is f16: summing v*v over // thousands of dims overflows f16 (>65504) at high-magnitude tokens (the attention // sink), which collapses inv to 0. Keeping the sum in f32 is the overflow-safe path. var part: array; @compute @workgroup_size(WG) fn main(@builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let K = u32(m.x); var s = 0.0; for (var k = tid; k < K; k = k + WG) { let v = f32(x[k]); s = s + v*v; } part[tid] = s; workgroupBarrier(); for (var t = WG / 2u; t > 0u; t = t/2u) { if (tid < t) { part[tid] = part[tid] + part[tid+t]; } workgroupBarrier(); } let inv = f16(inverseSqrt(part[0]/m.x + m.y)); for (var k = tid; k < K; k = k + WG) { y[k] = f32( f16(x[k]) * inv * f16(g[k]) ); } }`; var ROPE = ` requires immediate_address_space; @group(0) @binding(0) var x: array; @group(0) @binding(1) var cosT: array; @group(0) @binding(2) var sinT: array; var m: vec3; // nHeads, headDim, pos @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let H = m.x; let D = m.y; let pos = m.z; let half = D/2u; if (g >= H*half) { return; } let h = g / half; let j = g % half; let lo = h*D + j; let hi = lo + half; let off = pos*D + j; let c = cosT[off]; let s = sinT[off]; let xl = x[lo]; let xh = x[hi]; // EXACT rotate-half: separately-rounded products (fma(a,b,0)) prevent the // compiler from contracting x*c - x*s into a single fma, matching the PyTorch // reference rounding exactly. x[lo] = fma(xl, c, 0.0) + fma(-xh, s, 0.0); x[hi] = fma(xh, c, 0.0) + fma(xl, s, 0.0); }`; var ROPE_F16 = ` requires immediate_address_space; enable f16; @group(0) @binding(0) var x: array; @group(0) @binding(1) var cosT: array; @group(0) @binding(2) var sinT: array; var m: vec3; // nHeads, headDim, pos @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let H = m.x; let D = m.y; let pos = m.z; let half = D/2u; if (g >= H*half) { return; } let h = g / half; let j = g % half; let lo = h*D + j; let hi = lo + half; let off = pos*D + j; let c = f16(cosT[off]); let s = f16(sinT[off]); let xl = f16(x[lo]); let xh = f16(x[hi]); x[lo] = f32( fma(xl, c, 0.0h) + fma(-xh, s, 0.0h) ); x[hi] = f32( fma(xh, c, 0.0h) + fma(xl, s, 0.0h) ); }`; var ROPE_QK = ` requires immediate_address_space; @group(0) @binding(0) var q: array; @group(0) @binding(1) var k: array; @group(0) @binding(2) var cosT: array; @group(0) @binding(3) var sinT: array; var m: vec4; // qHeads, kvHeads, headDim, pos @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let qH = m.x; let kH = m.y; let D = m.z; let pos = m.w; let half = D/2u; let qPairs = qH * half; let kPairs = kH * half; let total = qPairs + kPairs; if (g >= total) { return; } let isK = g >= qPairs; var r = g; if (isK) { r = g - qPairs; } let h = r / half; let j = r % half; let lo = h*D + j; let hi = lo + half; let off = pos*D + j; let c = cosT[off]; let s = sinT[off]; if (isK) { let xl = k[lo]; let xh = k[hi]; k[lo] = fma(xl, c, 0.0) + fma(-xh, s, 0.0); k[hi] = fma(xh, c, 0.0) + fma(xl, s, 0.0); } else { let xl = q[lo]; let xh = q[hi]; q[lo] = fma(xl, c, 0.0) + fma(-xh, s, 0.0); q[hi] = fma(xh, c, 0.0) + fma(xl, s, 0.0); } }`; var ROPE_QK_F16 = ` requires immediate_address_space; enable f16; @group(0) @binding(0) var q: array; @group(0) @binding(1) var k: array; @group(0) @binding(2) var cosT: array; @group(0) @binding(3) var sinT: array; var m: vec4; // qHeads, kvHeads, headDim, pos @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let qH = m.x; let kH = m.y; let D = m.z; let pos = m.w; let half = D/2u; let qPairs = qH * half; let kPairs = kH * half; let total = qPairs + kPairs; if (g >= total) { return; } let isK = g >= qPairs; var r = g; if (isK) { r = g - qPairs; } let h = r / half; let j = r % half; let lo = h*D + j; let hi = lo + half; let off = pos*D + j; let c = f16(cosT[off]); let s = f16(sinT[off]); if (isK) { let xl = f16(k[lo]); let xh = f16(k[hi]); k[lo] = f32( fma(xl, c, 0.0h) + fma(-xh, s, 0.0h) ); k[hi] = f32( fma(xh, c, 0.0h) + fma(xl, s, 0.0h) ); } else { let xl = f16(q[lo]); let xh = f16(q[hi]); q[lo] = f32( fma(xl, c, 0.0h) + fma(-xh, s, 0.0h) ); q[hi] = f32( fma(xh, c, 0.0h) + fma(xl, s, 0.0h) ); } }`; var ATTN_PARTIAL = ` requires immediate_address_space; enable subgroups; override WG: u32 = 128u; struct AttnP { nHeads: u32, nKV: u32, ctx: u32, hd: u32, nsplit: u32, chunk: u32 }; @group(0) @binding(0) var q: array; @group(0) @binding(1) var kc: array; @group(0) @binding(2) var vc: array; @group(0) @binding(3) var pm: array; // [nHeads*nsplit] per-split max @group(0) @binding(4) var pz: array; // [nHeads*nsplit] per-split sum @group(0) @binding(5) var po: array; // [nHeads*nsplit*hd] unnorm weighted V var m: AttnP; var sc: array; var red: array; @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let h = wid.x; let s = wid.y; let tid = lid.x; let nHeads = m.nHeads; let nKV = m.nKV; let ctx = m.ctx; let hd = m.hd; let nsplit = m.nsplit; let chunk = m.chunk; let kvh = h / (nHeads / nKV); let qbase = h*hd; let stride = nKV*hd; let hoff = kvh*hd; let scale = 1.0/sqrt(f32(hd)); let nsg = (128u + sgsz - 1u) / sgsz; let t0 = s*chunk; var t1 = t0 + chunk; if (t1 > ctx) { t1 = ctx; } let t = t0 + tid; var sv = -1e30; if (t < t1) { var dot = 0.0; let kb = t*stride + hoff; for (var d = 0u; d < hd; d = d + 1u) { dot = dot + q[qbase+d]*kc[kb+d]; } sv = dot*scale; } let sgm = subgroupMax(sv); if (sgid == 0u) { red[tid/sgsz] = sgm; } workgroupBarrier(); var M = -1e30; for (var i = 0u; i < nsg; i = i + 1u) { M = max(M, red[i]); } workgroupBarrier(); var ev = 0.0; if (t < t1) { ev = exp(sv - M); } sc[tid] = ev; let sgs = subgroupAdd(ev); if (sgid == 0u) { red[tid/sgsz] = sgs; } workgroupBarrier(); var Z = 0.0; for (var i = 0u; i < nsg; i = i + 1u) { Z = Z + red[i]; } workgroupBarrier(); let len = t1 - t0; let pbase = (h*nsplit + s)*hd; for (var d = tid; d < hd; d = d + 128u) { var acc = 0.0; for (var tt = 0u; tt < len; tt = tt + 1u) { acc = acc + sc[tt]*vc[(t0+tt)*stride + hoff + d]; } po[pbase + d] = acc; } if (tid == 0u) { pm[h*nsplit + s] = M; pz[h*nsplit + s] = Z; } }`; var ATTN_PARTIAL_F16 = ` requires immediate_address_space; enable subgroups; enable f16; override WG: u32 = 128u; struct AttnP { nHeads: u32, nKV: u32, ctx: u32, hd: u32, nsplit: u32, chunk: u32 }; @group(0) @binding(0) var q: array; @group(0) @binding(1) var kc: array; @group(0) @binding(2) var vc: array; @group(0) @binding(3) var pm: array; // [nHeads*nsplit] per-split max @group(0) @binding(4) var pz: array; // [nHeads*nsplit] per-split sum @group(0) @binding(5) var po: array; // [nHeads*nsplit*hd] unnorm weighted V var m: AttnP; // f16 "staging" mode: Q/K/V values are read through f16 (so they carry f16 rounding, // modelling an f16 KV cache), but every REDUCTION \u2014 the QK dot, the softmax max/sum, // and the weighted-V accumulation \u2014 runs in f32. Accumulating scores in f16 overflows // at long context / high-magnitude tokens; f32 accumulation is the overflow-safe path // (matches the Gemma-4 "scores/PV accumulate in f32, only K/V carry f16 rounding"). var sc: array; var red: array; @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let h = wid.x; let s = wid.y; let tid = lid.x; let nHeads = m.nHeads; let nKV = m.nKV; let ctx = m.ctx; let hd = m.hd; let nsplit = m.nsplit; let chunk = m.chunk; let kvh = h / (nHeads / nKV); let qbase = h*hd; let stride = nKV*hd; let hoff = kvh*hd; let scale = 1.0 / sqrt(f32(hd)); let nsg = (WG + sgsz - 1u) / sgsz; let t0 = s*chunk; var t1 = t0 + chunk; if (t1 > ctx) { t1 = ctx; } let t = t0 + tid; var sv = -1e30; if (t < t1) { var dot = 0.0; let kb = t*stride + hoff; for (var d = 0u; d < hd; d = d + 1u) { dot = dot + f32(f16(q[qbase+d])) * f32(f16(kc[kb+d])); } sv = dot*scale; } let sgm = subgroupMax(sv); if (sgid == 0u) { red[tid/sgsz] = sgm; } workgroupBarrier(); var M = -1e30; for (var i = 0u; i < nsg; i = i + 1u) { M = max(M, red[i]); } workgroupBarrier(); var ev = 0.0; if (t < t1) { ev = exp(sv - M); } sc[tid] = ev; let sgs = subgroupAdd(ev); if (sgid == 0u) { red[tid/sgsz] = sgs; } workgroupBarrier(); var Z = 0.0; for (var i = 0u; i < nsg; i = i + 1u) { Z = Z + red[i]; } workgroupBarrier(); let len = t1 - t0; let pbase = (h*nsplit + s)*hd; for (var d = tid; d < hd; d = d + WG) { var acc = 0.0; for (var tt = 0u; tt < len; tt = tt + 1u) { acc = acc + sc[tt] * f32(f16(vc[(t0+tt)*stride + hoff + d])); } po[pbase + d] = acc; } if (tid == 0u) { pm[h*nsplit + s] = M; pz[h*nsplit + s] = Z; } }`; var ATTN_COMBINE = ` requires immediate_address_space; override WG: u32 = 128u; @group(0) @binding(0) var pm: array; @group(0) @binding(1) var pz: array; @group(0) @binding(2) var po: array; @group(0) @binding(3) var o: array; var m: vec4; // nHeads, hd, nsplit, _ @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let h = wid.x; let tid = lid.x; let hd = m.y; let nsplit = m.z; let base = h*nsplit; var M = -1e30; for (var s = 0u; s < nsplit; s = s + 1u) { M = max(M, pm[base+s]); } var Z = 0.0; for (var s = 0u; s < nsplit; s = s + 1u) { Z = Z + pz[base+s]*exp(pm[base+s]-M); } let invZ = 1.0 / Z; for (var d = tid; d < hd; d = d + WG) { var acc = 0.0; for (var s = 0u; s < nsplit; s = s + 1u) { acc = acc + exp(pm[base+s]-M)*po[(base+s)*hd + d]; } o[h*hd + d] = acc * invZ; } }`; var ATTN_COMBINE_F16 = ` requires immediate_address_space; enable f16; override WG: u32 = 128u; @group(0) @binding(0) var pm: array; @group(0) @binding(1) var pz: array; @group(0) @binding(2) var po: array; @group(0) @binding(3) var o: array; var m: vec4; // nHeads, hd, nsplit, _ @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let h = wid.x; let tid = lid.x; let hd = m.y; let nsplit = m.z; let base = h*nsplit; // Cross-split softmax merge accumulates max/sum in f32 (overflow-safe); only the // final per-element weighting carries f16 rounding. var M = -1e30; for (var s = 0u; s < nsplit; s = s + 1u) { M = max(M, pm[base+s]); } var Z = 0.0; for (var s = 0u; s < nsplit; s = s + 1u) { Z = Z + pz[base+s] * exp(pm[base+s] - M); } let invZ = 1.0 / Z; for (var d = tid; d < hd; d = d + WG) { var acc = 0.0; for (var s = 0u; s < nsplit; s = s + 1u) { acc = acc + exp(pm[base+s] - M) * f32(f16(po[(base+s)*hd + d])); } o[h*hd + d] = acc * invZ; } }`; var GEMM4 = ` requires immediate_address_space; struct Meta { K:u32, N:u32, T:u32, gpr:u32, hasBias:u32, p0:u32, p1:u32, p2:u32 }; @group(0) @binding(0) var A: array; // [T][K] @group(0) @binding(1) var W: array; // [N][K/8] int4 @group(0) @binding(2) var scale: array; // [N][gpr] @group(0) @binding(3) var bias: array; // [N] or dummy @group(0) @binding(4) var Y: array; // [T][N] var m: Meta; const BM = 16u; const BN = 64u; var As: array; // BM*8 \u2014 A staged for one 8-wide K chunk @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let tTile = wid.y * BM; let col = wid.x * BN + lid.x; let valid = col < m.N; let K8 = m.K/8u; let rb = col*K8; var acc: array; for (var i = 0u; i < BM; i = i + 1u) { acc[i] = 0.0; } for (var c = 0u; c < K8; c = c + 1u) { for (var l = lid.x; l < BM*8u; l = l + 64u) { let tt = l / 8u; let trow = tTile + tt; As[l] = select(0.0, A[trow*m.K + c*8u + (l % 8u)], trow < m.T); } workgroupBarrier(); if (valid) { let word = W[rb + c]; let sc = scale[col*m.gpr + ((c*8u) >> 7u)]; let w0=f32(i32(word<<28u)>>28u)*sc; let w1=f32(i32(word<<24u)>>28u)*sc; let w2=f32(i32(word<<20u)>>28u)*sc; let w3=f32(i32(word<<16u)>>28u)*sc; let w4=f32(i32(word<<12u)>>28u)*sc; let w5=f32(i32(word<<8u)>>28u)*sc; let w6=f32(i32(word<<4u)>>28u)*sc; let w7=f32(i32(word)>>28u)*sc; for (var t = 0u; t < BM; t = t + 1u) { let b = t*8u; acc[t] = acc[t] + As[b]*w0+As[b+1u]*w1+As[b+2u]*w2+As[b+3u]*w3+As[b+4u]*w4+As[b+5u]*w5+As[b+6u]*w6+As[b+7u]*w7; } } workgroupBarrier(); } if (valid) { let bv = select(0.0, bias[col], m.hasBias == 1u); for (var t = 0u; t < BM; t = t + 1u) { let trow = tTile + t; if (trow < m.T) { Y[trow*m.N + col] = acc[t] + bv; } } } }`; var GEMM4_ADD_T = ` requires immediate_address_space; struct Meta { K:u32, N:u32, T:u32, gpr:u32, hasBias:u32, p0:u32, p1:u32, p2:u32 }; @group(0) @binding(0) var A: array; @group(0) @binding(1) var W: array; @group(0) @binding(2) var scale: array; @group(0) @binding(3) var bias: array; @group(0) @binding(4) var Y: array; var m: Meta; const BM = 16u; const BN = 64u; var As: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let tTile = wid.y * BM; let col = wid.x * BN + lid.x; let valid = col < m.N; let K8 = m.K/8u; let rb = col*K8; var acc: array; for (var i = 0u; i < BM; i = i + 1u) { acc[i] = 0.0; } for (var c = 0u; c < K8; c = c + 1u) { for (var l = lid.x; l < BM*8u; l = l + 64u) { let tt = l / 8u; let trow = tTile + tt; As[l] = select(0.0, A[trow*m.K + c*8u + (l % 8u)], trow < m.T); } workgroupBarrier(); if (valid) { let word = W[rb + c]; let sc = scale[col*m.gpr + ((c*8u) >> 7u)]; let w0=f32(i32(word<<28u)>>28u)*sc; let w1=f32(i32(word<<24u)>>28u)*sc; let w2=f32(i32(word<<20u)>>28u)*sc; let w3=f32(i32(word<<16u)>>28u)*sc; let w4=f32(i32(word<<12u)>>28u)*sc; let w5=f32(i32(word<<8u)>>28u)*sc; let w6=f32(i32(word<<4u)>>28u)*sc; let w7=f32(i32(word)>>28u)*sc; for (var t = 0u; t < BM; t = t + 1u) { let b = t*8u; acc[t] = acc[t] + As[b]*w0+As[b+1u]*w1+As[b+2u]*w2+As[b+3u]*w3+As[b+4u]*w4+As[b+5u]*w5+As[b+6u]*w6+As[b+7u]*w7; } } workgroupBarrier(); } if (valid) { let bv = select(0.0, bias[col], m.hasBias == 1u); for (var t = 0u; t < BM; t = t + 1u) { let trow = tTile + t; if (trow < m.T) { Y[trow*m.N + col] = Y[trow*m.N + col] + acc[t] + bv; } } } }`; var ADD = ` requires immediate_address_space; requires linear_indexing; override WG: u32 = 256u; @group(0) @binding(0) var a: array; @group(0) @binding(1) var y: array; var n: u32; @compute @workgroup_size(WG) fn main(@builtin(global_invocation_index) gid: u32, @builtin(num_workgroups) nwg: vec3) { let stride = nwg.x * WG; for (var i = gid; i < n; i = i + stride) { y[i] = y[i] + a[i]; } }`; var ADD_F16 = ` requires immediate_address_space; requires linear_indexing; enable f16; override WG: u32 = 256u; @group(0) @binding(0) var a: array; @group(0) @binding(1) var y: array; var n: u32; @compute @workgroup_size(WG) fn main(@builtin(global_invocation_index) gid: u32, @builtin(num_workgroups) nwg: vec3) { let stride = nwg.x * WG; for (var i = gid; i < n; i = i + stride) { y[i] = f32(f16(y[i]) + f16(a[i])); } }`; var SILUMUL_F16 = ` requires immediate_address_space; enable f16; override WG: u32 = 256u; @group(0) @binding(0) var gate: array; @group(0) @binding(1) var up: array; var n: u32; @compute @workgroup_size(WG) fn main(@builtin(global_invocation_id) g: vec3, @builtin(num_workgroups) nwg: vec3) { let stride = nwg.x * WG; // Activation (silu) in f32 to avoid the f16 exp(-v) -> Inf intermediate for very // negative v; only the bandwidth-bound elementwise multiply carries f16 rounding. for (var i = g.x; i < n; i = i + stride) { let v = gate[i]; let sg = v / (1.0 + exp(-v)); gate[i] = f32( f16(sg) * f16(up[i]) ); } }`; var SILUMUL = ` requires immediate_address_space; override WG: u32 = 256u; @group(0) @binding(0) var gate: array; @group(0) @binding(1) var up: array; var n: u32; @compute @workgroup_size(WG) fn main(@builtin(global_invocation_id) g: vec3, @builtin(num_workgroups) nwg: vec3) { let stride = nwg.x * WG; for (var i = g.x; i < n; i = i + stride) { let v = gate[i]; gate[i] = (v/(1.0+exp(-v)))*up[i]; } }`; var EMBED = ` requires immediate_address_space; @group(0) @binding(0) var w: array; @group(0) @binding(1) var scale: array; @group(0) @binding(2) var out: array; var m: vec2; // id, hidden @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) g: vec3) { let k = g.x; let id = m.x; let H = m.y; if (k >= H) { return; } let v = unpack4xI8(w[id*(H/4u) + (k>>2u)]); let lane = k & 3u; var b: i32; if (lane==0u){b=v.x;} else if (lane==1u){b=v.y;} else if (lane==2u){b=v.z;} else {b=v.w;} out[k] = f32(b) * scale[id]; }`; var EMBED_BUF = ` requires immediate_address_space; @group(0) @binding(0) var w: array; @group(0) @binding(1) var scale: array; @group(0) @binding(2) var out: array; @group(0) @binding(3) var idbuf: array; // idbuf[0] = token id var H: u32; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) g: vec3) { let k = g.x; let id = idbuf[0]; if (k >= H) { return; } let v = unpack4xI8(w[id*(H/4u) + (k>>2u)]); let lane = k & 3u; var b: i32; if (lane==0u){b=v.x;} else if (lane==1u){b=v.y;} else if (lane==2u){b=v.z;} else {b=v.w;} out[k] = f32(b) * scale[id]; }`; var RMSNORM_T = ` requires immediate_address_space; override WG: u32 = 256u; @group(0) @binding(0) var x: array; @group(0) @binding(1) var g: array; @group(0) @binding(2) var y: array; var m: vec2; // K, eps var part: array; @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let K = u32(m.x); let base = wid.x * K; var s = 0.0; for (var k = tid; k < K; k = k + WG) { let v = x[base+k]; s = s + v*v; } part[tid] = s; workgroupBarrier(); for (var t = WG / 2u; t > 0u; t = t/2u) { if (tid < t) { part[tid] = part[tid] + part[tid+t]; } workgroupBarrier(); } let inv = inverseSqrt(part[0]/m.x + m.y); for (var k = tid; k < K; k = k + WG) { y[base+k] = x[base+k]*inv*g[k]; } }`; var RMSNORM_T_F16 = ` requires immediate_address_space; enable f16; override WG: u32 = 256u; @group(0) @binding(0) var x: array; @group(0) @binding(1) var g: array; @group(0) @binding(2) var y: array; var m: vec2; // K, eps // f32 reduction (see RMSNORM_F16): overflow-safe sum-of-squares, f16 normalize. var part: array; @compute @workgroup_size(WG) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let K = u32(m.x); let base = wid.x * K; var s = 0.0; for (var k = tid; k < K; k = k + WG) { let v = f32(x[base+k]); s = s + v*v; } part[tid] = s; workgroupBarrier(); for (var t = WG / 2u; t > 0u; t = t/2u) { if (tid < t) { part[tid] = part[tid] + part[tid+t]; } workgroupBarrier(); } let inv = f16(inverseSqrt(part[0]/m.x + m.y)); for (var k = tid; k < K; k = k + WG) { y[base+k] = f32( f16(x[base+k]) * inv * f16(g[k]) ); } }`; var ROPE_T = ` requires immediate_address_space; @group(0) @binding(0) var x: array; @group(0) @binding(1) var cosT: array; @group(0) @binding(2) var sinT: array; var m: vec4; // nHeads, headDim, T, pos0 @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let H = m.x; let D = m.y; let T = m.z; let pos0 = m.w; let half = D/2u; let perRow = H*half; if (g >= T*perRow) { return; } let row = g / perRow; let r = g % perRow; let h = r / half; let j = r % half; let rb = row*H*D; let lo = rb + h*D + j; let hi = lo + half; let off = (pos0+row)*D + j; let c = cosT[off]; let s = sinT[off]; let xl = x[lo]; let xh = x[hi]; x[lo] = fma(xl, c, 0.0) + fma(-xh, s, 0.0); x[hi] = fma(xh, c, 0.0) + fma(xl, s, 0.0); }`; var ROPE_T_F16 = ` requires immediate_address_space; enable f16; @group(0) @binding(0) var x: array; @group(0) @binding(1) var cosT: array; @group(0) @binding(2) var sinT: array; var m: vec4; // nHeads, headDim, T, pos0 @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let g = gid.x; let H = m.x; let D = m.y; let T = m.z; let pos0 = m.w; let half = D/2u; let perRow = H*half; if (g >= T*perRow) { return; } let row = g / perRow; let r = g % perRow; let h = r / half; let j = r % half; let rb = row*H*D; let lo = rb + h*D + j; let hi = lo + half; let off = (pos0+row)*D + j; let c = f16(cosT[off]); let s = f16(sinT[off]); let xl = f16(x[lo]); let xh = f16(x[hi]); x[lo] = f32( fma(xl, c, 0.0h) + fma(-xh, s, 0.0h) ); x[hi] = f32( fma(xh, c, 0.0h) + fma(xl, s, 0.0h) ); }`; var EMBED_T = ` requires immediate_address_space; @group(0) @binding(0) var w: array; @group(0) @binding(1) var scale: array; @group(0) @binding(2) var out: array; @group(0) @binding(3) var ids: array; var m: vec4; // T, H, idOffset, _ @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3, @builtin(num_workgroups) nwg: vec3) { let T = m.x; let H = m.y; let N = T*H; let stride = nwg.x * 256u; for (var i = gid.x; i < N; i = i + stride) { let t = i / H; let k = i % H; let id = ids[m.z + t]; let v = unpack4xI8(w[id*(H/4u) + (k>>2u)]); let lane = k & 3u; var b: i32; if (lane==0u){b=v.x;} else if (lane==1u){b=v.y;} else if (lane==2u){b=v.z;} else {b=v.w;} out[i] = f32(b) * scale[id]; } }`; var ATTN_PREFILL = ` enable subgroups; requires immediate_address_space; @group(0) @binding(0) var q: array; // [T][nHeads*hd] @group(0) @binding(1) var kc: array; // [ctx][nKV*hd] @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; // [T][nHeads*hd] var m: vec4; // nHeads, nKV, hd, T var ps: array; // exp-scores for the current key block var acc: array; // running weighted-V accumulator (hd<=128) var red: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let h = wid.x; let t = wid.y; let tid = lid.x; let nHeads = m.x; let nKV = m.y; let hd = m.z; let ctx = t + 1u; let kvh = h / (nHeads / nKV); let qbase = t*nHeads*hd + h*hd; let stride = nKV*hd; let hoff = kvh*hd; let scl = 1.0/sqrt(f32(hd)); let nsg = (256u + sgsz - 1u) / sgsz; for (var d = tid; d < hd; d = d + 256u) { acc[d] = 0.0; } var mrun = -1e30; var lrun = 0.0; let nblk = (ctx + 255u) / 256u; for (var blk = 0u; blk < nblk; blk = blk + 1u) { let kbase = blk*256u; let kk = kbase + tid; var s = -1e30; if (kk < ctx) { var dot = 0.0; let kb = kk*stride + hoff; for (var d = 0u; d < hd; d = d + 1u) { dot = dot + q[qbase+d]*kc[kb+d]; } s = dot*scl; } let sgm = subgroupMax(s); if (sgid == 0u) { red[tid/sgsz] = sgm; } workgroupBarrier(); // A: block-max partials visible var bm = -1e30; for (var i = 0u; i < nsg; i = i + 1u) { bm = max(bm, red[i]); } let mnew = max(mrun, bm); let corr = exp(mrun - mnew); var p = 0.0; if (kk < ctx) { p = exp(s - mnew); } ps[tid] = p; workgroupBarrier(); // B: bm reads done + ps visible let sgs = subgroupAdd(p); if (sgid == 0u) { red[tid/sgsz] = sgs; } workgroupBarrier(); // C: block-sum partials visible var bs = 0.0; for (var i = 0u; i < nsg; i = i + 1u) { bs = bs + red[i]; } lrun = lrun*corr + bs; let bcount = min(256u, ctx - kbase); for (var d = tid; d < hd; d = d + 256u) { var aa = acc[d]*corr; for (var j = 0u; j < bcount; j = j + 1u) { aa = aa + ps[j]*vc[(kbase+j)*stride + hoff + d]; } acc[d] = aa; } mrun = mnew; workgroupBarrier(); // D: acc's ps reads done before next block } let invL = 1.0/lrun; for (var d = tid; d < hd; d = d + 256u) { o[qbase + d] = acc[d]*invL; } }`; var ATTN_PREFILL_BLOCK = ` enable subgroups; requires immediate_address_space; struct Meta { nHeads:u32, nKV:u32, hd:u32, T:u32, qStart:u32, ctx:u32, p0:u32, p1:u32 }; @group(0) @binding(0) var q: array; @group(0) @binding(1) var kc: array; @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; var m: Meta; const BQ = 4u; const BK = 128u; var ps: array; // BQ*BK var acc: array; // BQ*hd (hd<=128) var red: array; // BQ*subgroup-count @compute @workgroup_size(128) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid: vec3, @builtin(subgroup_size) sgsz: u32, @builtin(subgroup_invocation_id) sgid: u32) { let h = wid.x; let qBlock = wid.y; let tid = lid.x; let hd = m.hd; let kvh = h / (m.nHeads / m.nKV); let stride = m.nKV * hd; let hoff = kvh * hd; let nsg = (128u + sgsz - 1u) / sgsz; let scl = 1.0 / sqrt(f32(hd)); var mrun: array; var lrun: array; for (var r = 0u; r < BQ; r = r + 1u) { mrun[r] = -1e30; lrun[r] = 0.0; } for (var i = tid; i < BQ*hd; i = i + 128u) { acc[i] = 0.0; } workgroupBarrier(); let nblk = (m.ctx + BK - 1u) / BK; for (var blk = 0u; blk < nblk; blk = blk + 1u) { let kbase = blk * BK; let kk = kbase + tid; var score: array; var validQ: array; var dot: array; var corrRun: array; for (var r = 0u; r < BQ; r = r + 1u) { let qt = qBlock * BQ + r; let absQ = m.qStart + qt; validQ[r] = qt < m.T && kk < m.ctx && kk <= absQ; dot[r] = 0.0; score[r] = -1e30; } if (kk < m.ctx) { let kb = kk*stride + hoff; for (var d = 0u; d < hd; d = d + 1u) { let kval = kc[kb+d]; for (var r = 0u; r < BQ; r = r + 1u) { let qt = qBlock * BQ + r; if (validQ[r]) { dot[r] = dot[r] + q[qt*m.nHeads*hd + h*hd + d] * kval; } } } for (var r = 0u; r < BQ; r = r + 1u) { if (validQ[r]) { score[r] = dot[r] * scl; } } } for (var r = 0u; r < BQ; r = r + 1u) { let s = score[r]; let sgm = subgroupMax(s); if (sgid == 0u) { red[r*32u + tid/sgsz] = sgm; } workgroupBarrier(); var bm = -1e30; for (var i = 0u; i < nsg; i = i + 1u) { bm = max(bm, red[r*32u+i]); } let mnew = max(mrun[r], bm); let corr = exp(mrun[r] - mnew); corrRun[r] = corr; var p = 0.0; if (validQ[r]) { p = exp(s - mnew); } ps[r*BK + tid] = p; workgroupBarrier(); let sgs = subgroupAdd(p); if (sgid == 0u) { red[r*32u + tid/sgsz] = sgs; } workgroupBarrier(); var bs = 0.0; for (var i = 0u; i < nsg; i = i + 1u) { bs = bs + red[r*32u+i]; } lrun[r] = lrun[r] * corr + bs; mrun[r] = mnew; workgroupBarrier(); } let bcount = min(BK, m.ctx - kbase); for (var d = tid; d < hd; d = d + 128u) { var aa: array; for (var r = 0u; r < BQ; r = r + 1u) { aa[r] = acc[r*hd+d] * corrRun[r]; } for (var j = 0u; j < bcount; j = j + 1u) { let vv = vc[(kbase+j)*stride + hoff + d]; for (var r = 0u; r < BQ; r = r + 1u) { aa[r] = aa[r] + ps[r*BK+j] * vv; } } for (var r = 0u; r < BQ; r = r + 1u) { acc[r*hd+d] = aa[r]; } } workgroupBarrier(); } for (var r = 0u; r < BQ; r = r + 1u) { let qt = qBlock * BQ + r; if (qt < m.T) { let invL = 1.0 / lrun[r]; let ob = qt*m.nHeads*hd + h*hd; for (var d = tid; d < hd; d = d + 128u) { o[ob+d] = acc[r*hd+d] * invL; } } } }`; var ARGMAX = ` requires immediate_address_space; @group(0) @binding(0) var logits: array; @group(0) @binding(1) var out: array; var n: u32; var bv: array; var bi: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3) { let tid = lid.x; var v = -1e30; var idx = 0xffffffffu; for (var i = tid; i < n; i = i + 256u) { let x = logits[i]; if (x > v || (x == v && i < idx)) { v = x; idx = i; } } bv[tid] = v; bi[tid] = idx; workgroupBarrier(); for (var s = 128u; s > 0u; s = s/2u) { if (tid < s) { let ov = bv[tid+s]; let oi = bi[tid+s]; if (ov > bv[tid] || (ov == bv[tid] && oi < bi[tid])) { bv[tid] = ov; bi[tid] = oi; } } workgroupBarrier(); } if (tid == 0u) { out[0] = bi[0]; } }`; var TOPK_SELECT = ` requires immediate_address_space; @group(0) @binding(0) var logits: array; @group(0) @binding(1) var ids: array; @group(0) @binding(2) var vals: array; var m: vec2; // vocabSize, selectedCount var bv: array; var bi: array; fn alreadySelected(id: u32, n: u32) -> bool { for (var j = 0u; j < n; j = j + 1u) { if (ids[j] == id) { return true; } } return false; } @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let n = m.x; let selected = m.y; var v = -1e30; var idx = 0xffffffffu; for (var i = tid; i < n; i = i + 256u) { let x = logits[i]; if (!alreadySelected(i, selected) && (x > v || (x == v && i < idx))) { v = x; idx = i; } } bv[tid] = v; bi[tid] = idx; workgroupBarrier(); for (var s = 128u; s > 0u; s = s/2u) { if (tid < s) { let ov = bv[tid+s]; let oi = bi[tid+s]; if (ov > bv[tid] || (ov == bv[tid] && oi < bi[tid])) { bv[tid] = ov; bi[tid] = oi; } } workgroupBarrier(); } if (tid == 0u) { ids[selected] = bi[0]; vals[selected] = bv[0]; } }`; var SAMPLE_TOPK = ` requires immediate_address_space; struct Meta { k:u32, pad:u32, temp:f32, r:f32 }; @group(0) @binding(0) var ids: array; @group(0) @binding(1) var vals: array; @group(0) @binding(2) var outId: array; // [1] the chosen token var m: Meta; var s: array; // working softmax probs / prefix sums (small k) var red: array; // reduction scratch for the softmax denominator @compute @workgroup_size(64) fn main(@builtin(local_invocation_id) lid: vec3) { let tid = lid.x; let k = m.k; let temp = m.temp; let r = m.r; let t = select(temp, 1.0, temp <= 0.0); // Load + temperature scale into shared (one thread per slot) var v = -1e30; if (tid < k) { let lv = vals[tid]; v = lv; if (t != 1.0) { v = lv / t; } } let ev = select(0.0, exp(v), tid < k); s[tid] = ev; red[tid] = ev; workgroupBarrier(); // sum for (var stride = 32u; stride > 0u; stride = stride / 2u) { if (tid < stride && (tid + stride) < 64u) { red[tid] = red[tid] + red[tid + stride]; } workgroupBarrier(); } let sum = red[0]; let invSum = select(0.0, 1.0 / sum, sum > 0.0); // normalize + prefix sum for nucleus / categorical pick if (tid < k) { s[tid] = s[tid] * invSum; } else { s[tid] = 0.0; } workgroupBarrier(); // prefix sum (small k, simple scan) for (var stride = 1u; stride < 64u; stride = stride * 2u) { var add = 0.0; if (tid >= stride && tid < 64u) { add = s[tid - stride]; } workgroupBarrier(); if (tid >= stride && tid < 64u) { s[tid] = s[tid] + add; } workgroupBarrier(); } // find the smallest j such that prefix[j] >= r (or last if r>=1) if (tid == 0u) { var chosen = select(0u, k - 1u, k > 0u); if (sum > 0.0) { for (var j = 0u; j < k; j = j + 1u) { let pj = s[j]; if (r <= pj) { chosen = j; break; } } } outId[0] = select(0u, ids[chosen], k > 0u); } }`; var GEMV4 = ` enable subgroups; requires immediate_address_space; struct Meta { K:u32, N:u32, rank:u32, hasBias:u32, hasLora:u32, gridX:u32, scaleLo:f32, gpr:u32 }; @group(0) @binding(0) var x: array; @group(0) @binding(1) var w: array; @group(0) @binding(2) var scale: array; @group(0) @binding(3) var bias: array; @group(0) @binding(4) var