Vision Transformer (ViT) from Scratch

This repository contains a PyTorch implementation of the Vision Transformer (ViT), built completely from scratch without relying on high-level Transformer libraries.
It follows the approach introduced in the paper:

📄 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Alexey Dosovitskiy et al., ICLR 2021

🚀 Features

Custom implementation of core ViT components:
- Patch Embedding
- Multi-Head Self Attention (MHSA)
- Position Embeddings
- Transformer Encoder Layers
- Classification Head
Training pipeline for CIFAR-10 dataset

📂 Project Structure

vision_transformers_from_scratch/
│── dataset.py 
│── train.py 
│── models/
│ └── ViT.py 
│── best_vit_cifar10.pth

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
__pycache__		__pycache__
models		models
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
best_vit_cifar10.pth		best_vit_cifar10.pth
dataset.py		dataset.py
inference.py		inference.py
model.png		model.png
sample.jpg		sample.jpg
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Vision Transformer (ViT) from Scratch

🚀 Features

📂 Project Structure

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Vision Transformer (ViT) from Scratch

🚀 Features

📂 Project Structure

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages