Update README.md

7f3b408 verified 3 days ago

5.77 kB

	---
	license: apache-2.0
	language:
	- en
	pipeline_tag: text-generation
	library_name: transformers
	tags:
	- transformers
	- llama
	- long-context
	- 256k-context
	- reasoning
	- instruction-following
	- causal-lm
	- text-generation-inference
	- gqa
	- rope-scaling
	- bfloat16
	- safetensors
	- withinusai
	- Aspire_1.1B
	datasets:
	- open-thoughts/OpenThoughts-114k
	- WizardLMTeam/WizardLM_evol_instruct_70k
	---

	🌌 Aspire_1.1B

	Long-Context Frontier Language Model

	“Built to think across distance.”

	⸻

	🌌 Overview

	Aspire_1.1B is a highly capable 1.1 billion parameter frontier language model engineered for extreme long-context reasoning, instruction following, and scalable inference efficiency.

	Developed for persistent cognition workflows, Aspire_1.1B supports a native 256K context window while maintaining strong reasoning coherence and efficient memory utilization through:

	* Grouped Query Attention (GQA)
	* dynamically scaled RoPE embeddings
	* optimized transformer routing
	* TPU-native bfloat16 training

	Unlike conventional small-scale models constrained by short context windows, Aspire_1.1B is designed for:

	* long-form reasoning
	* extended conversational continuity
	* large document understanding
	* retrieval-heavy workflows
	* persistent agent memory systems
	* scalable frontier experimentation

	The architecture balances:

	* efficiency
	* reasoning capability
	* long-context retention
	* deployment practicality

	⸻

	⚡ Model Highlights

	Attribute Value
	Parameters ~1.12B
	Architecture Llama-based Causal LM
	Context Window 262,144 Tokens (256K)
	Precision bfloat16
	Hidden Size 2048
	Layers 22
	Attention Heads 16
	KV Heads 4 (GQA)
	Vocabulary 32K Custom BPE
	Optimization Adafactor
	Training Hardware Google Cloud TPUs

	⸻

	🧠 Architecture

	Aspire_1.1B is built around a highly optimized transformer stack designed for efficient long-context scaling.

	Core architectural features include:

	* Grouped Query Attention (GQA)
	* high-base Rotary Positional Embeddings (RoPE)
	* TPU-optimized training pathways
	* efficient KV-cache scaling
	* long-sequence extrapolation support

	The architecture is optimized for:

	* inference efficiency
	* stable long-context attention
	* reduced memory overhead
	* scalable deployment workflows

	⸻

	🌌 Long-Context Design

	256K Context Window

	Aspire_1.1B supports:

	* 262,144 token context processing
	* persistent conversational memory
	* large-document reasoning
	* long-form analytical workflows
	* retrieval-augmented generation systems

	The model utilizes:

	* dynamically scaled RoPE embeddings
	* Grouped Query Attention
	* optimized attention routing

	to maintain coherence across extremely long sequences.

	⸻

	🔬 Training Details

	Hardware

	Component Configuration
	Accelerator Google Cloud TPUs (Kaggle TPU Environment)
	Precision bfloat16
	Optimization Adafactor
	Framework Hugging Face Transformers + XLA

	The model was trained using TPU-native workflows optimized for:

	* efficient large-scale sequence processing
	* stable long-context convergence
	* reduced memory fragmentation
	* uninterrupted checkpoint recovery

	⸻

	📚 Training Datasets

	Aspire_1.1B was pretrained on a curated combination of reasoning and instruction-following datasets.

	⸻

	🧠 OpenThoughts-114k

	A dense reasoning dataset focused on:

	* chain-of-thought reasoning
	* logical deduction
	* structured inference
	* analytical problem solving

	Dataset:
	OpenThoughts-114k

	⸻

	⚡ WizardLM Evol Instruct 70K

	An evolved instruction-following dataset designed to improve:

	* prompt adherence
	* formatting consistency
	* complex instruction execution
	* conversational alignment

	Dataset:
	WizardLM Evol Instruct 70K

	⸻

	💻 Usage

	Loading the Model

	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch
	repo_id = "GODsStrongestSoldier/Aspire_1.1B"
	tokenizer = AutoTokenizer.from_pretrained(repo_id)
	model = AutoModelForCausalLM.from_pretrained(
	repo_id,
	torch_dtype=torch.bfloat16,
	device_map="auto"
	)

	⸻

	Text Generation Example

	prompt = """
	Explain the concept of RoPE (Rotary Positional Embeddings)
	and how it benefits 256K context windows.
	Answer:
	"""
	inputs = tokenizer(
	prompt,
	return_tensors="pt"
	).to(model.device)
	outputs = model.generate(
	**inputs,
	max_new_tokens=512,
	temperature=0.7,
	top_p=0.9
	)
	response = tokenizer.decode(
	outputs[0],
	skip_special_tokens=True
	)
	print(response)

	⸻

	🔄 Checkpointing & Recovery

	Aspire_1.1B was trained using a robust checkpointing system that continuously saved training state directly to the Hugging Face Hub.

	This workflow enabled:

	* uninterrupted TPU training continuation
	* session recovery across Kaggle runtime limits
	* persistent optimizer state management
	* scalable long-duration pretraining workflows

	⸻

	⚙️ Intended Use Cases

	Domain Purpose
	Long-Context Chat Persistent conversational memory
	Document Analysis Large-scale text understanding
	Frontier Research Long-sequence experimentation
	Instruction Following Complex prompt execution
	Retrieval Systems RAG & memory augmentation
	Agentic Workflows Persistent reasoning systems

	⸻

	⚠️ Limitations

	Aspire_1.1B is an experimental open language model.
	Human verification is recommended for:

	* medical information
	* legal advice
	* financial decisions
	* safety-critical applications

	⸻

	🌵 Origin

	Developed through independent frontier AI experimentation using:

	* Kaggle TPU infrastructure
	* Hugging Face Transformers
	* open reasoning datasets
	* long-context architecture research

	Focused on:

	* efficient frontier models
	* scalable context systems
	* accessible open AI research
	* persistent reasoning architectures

	⸻

	👑 Final Motto

	“Long context is memory.
	Memory is continuity.
	Continuity is intelligence.”