Jan. 2, 2024, 9:39 p.m. | /u/alagagbar

Machine Learning www.reddit.com

I've pre-trained tiny character-level transformer (4M parameters) with 128 token/character training context-length, using RoPE (rotary) positional encodings. Here is how my model performs with RoPE (I've trained on Polish language, sorry). The prompt was " Adam Mickiewicz był to ":

Adam Mickiewicz był to konkomiste, narodzinie cesarza racja datka zajmowania nazwy. Co reguła we stanie można wyrażenie znane symbol języka, że niewyka paszawy, że
język dostowy posinistwa. Matejkoknieswobowi, wszczucie inazwidzstekwi.

Języ przeskobiślanistani nindyb pasowemodarówistanizacharajustęży, nisku daberzycze lawinersławachystrodwodateliżaćby, i istny celefystraminy …

adam attention context encoding fft language machinelearning parameters positional encoding prompt rope self-attention token training transformer

Founding AI Engineer, Agents

@ Occam AI | New York

AI Engineer Intern, Agents

@ Occam AI | US

AI Research Scientist

@ Vara | Berlin, Germany and Remote

Data Architect

@ University of Texas at Austin | Austin, TX

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne