Name	Name	Last commit message	Last commit date
parent directory ..
data	data
debug_jit_training	debug_jit_training
math_RL	math_RL
model	model
torch_model	torch_model
Model_Overview.md	Model_Overview.md
README.md	README.md

Name

Last commit message

Last commit date

SUPER GIANT version 0.1.0

Architecture: Token + Positional embeddings → [Transformer Block] × N → Linear output → Softmax

Transformer Block:

LayerNorm → Multi-Head Self-Attention (Flash Attention 2, JAX cuDNN, Ampere optimized) → Residual → LayerNorm → MLP → Residual
KV cache

Provide feedback