Spaces:

AxisCommunity
/

AxisAI

Running

App Files Files Community

AxisCommunity commited on 15 days ago

Commit

331b0e6

verified ·

1 Parent(s): bd020e7

Update app.py

Browse files

Files changed (1) hide show

app.py +94 -32

app.py CHANGED Viewed

@@ -1,32 +1,94 @@
-import gradio as gr
-import time
-# 1. Создаем наш "словарь"
-# Мы берем весь алфавит и пробел. В серьезных моделях (как GPT) берут не буквы, а слоги и слова,
-# но для старта с нуля посимвольный вариант идеален.
-alphabet = "абвгдеёжзийклмнопрстуфхцчшщъыьэюя "
-# 2. Каждой букве присваиваем её личный номер (ID)
-# 'а' = 0, 'б' = 1, 'в' = 2 ... ' ' = 33
-char_to_int = {char: i for i, char in enumerate(alphabet)}
-int_to_char = {i: char for i, char in enumerate(alphabet)}
-def encode(text):
-    """Превращает текст в список цифр"""
-    # Переводим в нижний регистр, чтобы не усложнять, и ищем каждую букву в словаре
-    return [char_to_int[char] for char in text.lower() if char in char_to_int]
-def decode(numbers):
-    """Превращает цифры обратно в текст"""
-    return "".join([int_to_char[num] for num in numbers])
-# --- ТЕСТИРУЕМ ---
-message = "привет"
-encoded_message = encode(message)
-print(f"Исходное слово: '{message}'")
-print(f"Понятно для ИИ: {encoded_message}")
-# Проверяем, может ли он собрать это обратно
-decoded_message = decode(encoded_message)
-print(f"Собрано обратно: '{decoded_message}'")

+import torch
+import torch.nn as nn
+from torch.nn import functional as F
+# Параметры нашей "Альфа" версии
+batch_size = 32      # Сколько кусочков текста учим за раз
+block_size = 64      # Длина "памяти" (контекста) в символах
+n_embd = 128         # Размер внутреннего "вектора мысли"
+n_head = 4           # Количество "голов" внимания (как 4 разных взгляда на текст)
+n_layer = 4          # Сколько слоев нейронов в глубину
+class Head(nn.Module):
+    """ Одиночная голова самовнимания """
+    def __init__(self, head_size):
+        super().__init__()
+        self.key = nn.Linear(n_embd, head_size, bias=False)
+        self.query = nn.Linear(n_embd, head_size, bias=False)
+        self.value = nn.Linear(n_embd, head_size, bias=False)
+        self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))
+    def forward(self, x):
+        B, T, C = x.shape
+        k = self.key(x)
+        q = self.query(x)
+        # Вычисляем веса внимания (на что ИИ смотрит сейчас)
+        wei = q @ k.transpose(-2,-1) * C**-0.5
+        wei = wei.masked_fill(self.tril[:T, :T] == 0, float('-inf'))
+        wei = F.softmax(wei, dim=-1)
+        # Применяем внимание к данным
+        v = self.value(x)
+        out = wei @ v
+        return out
+class MultiHeadAttention(nn.Module):
+    """ Несколько голов внимания, работающих параллельно """
+    def __init__(self, num_heads, head_size):
+        super().__init__()
+        self.heads = nn.ModuleList([Head(head_size) for _ in range(num_heads)])
+        self.proj = nn.Linear(n_embd, n_embd)
+    def forward(self, x):
+        out = torch.cat([h(x) for h in self.heads], dim=-1)
+        out = self.proj(out)
+        return out
+class Block(nn.Module):
+    """ Один блок Трансформера: внимание + раздумья """
+    def __init__(self, n_embd, n_head):
+        super().__init__()
+        head_size = n_embd // n_head
+        self.sa = MultiHeadAttention(n_head, head_size)
+        self.ffwd = nn.Sequential(
+            nn.Linear(n_embd, 4 * n_embd),
+            nn.ReLU(),
+            nn.Linear(4 * n_embd, n_embd),
+        )
+        self.ln1 = nn.LayerNorm(n_embd)
+        self.ln2 = nn.LayerNorm(n_embd)
+    def forward(self, x):
+        x = x + self.sa(self.ln1(x))
+        x = x + self.ffwd(self.ln2(x))
+        return x
+class AxisModel(nn.Module):
+    def __init__(self, vocab_size):
+        super().__init__()
+        # Каждому символу — свой вектор
+        self.token_embedding_table = nn.Embedding(vocab_size, n_embd)
+        # Каждой позиции в тексте — свой вектор
+        self.position_embedding_table = nn.Embedding(block_size, n_embd)
+        # Слои блоков Трансформера
+        self.blocks = nn.Sequential(*[Block(n_embd, n_head) for _ in range(n_layer)])
+        self.ln_f = nn.LayerNorm(n_embd)
+        self.lm_head = nn.Linear(n_embd, vocab_size)
+    def forward(self, idx, targets=None):
+        B, T = idx.shape
+        tok_emb = self.token_embedding_table(idx) # (B,T,C)
+        pos_emb = self.position_embedding_table(torch.arange(T)) # (T,C)
+        x = tok_emb + pos_emb # Объединяем смысл и позицию буквы
+        x = self.blocks(x)
+        x = self.ln_f(x)
+        logits = self.lm_head(x) # (B,T,vocab_size)
+        if targets is None:
+            loss = None
+        else:
+            B, T, C = logits.shape
+            logits = logits.view(B*T, C)
+            targets = targets.view(B*T)
+            loss = F.cross_entropy(logits, targets)
+        return logits, loss