📚 Simple-ViT-Implementation

This repo offers simple implementationi ViT (Vision Transformer) from scratch using PyTorch.

Find elaborated implementation here.

🚀 Getting started

Please follow the insturction below.

git clone https://github.com/bskkimm/Simple-ViT-Implementation.git
conda create -n ViT python=3.10 -y
conda activate ViT
pip install -r requirements.txt

Then, implement ViT step by step using tutorial_from_scratch.ipynb

📊 Results

Model	Dataset	Train Accuracy	Test Accuracy	GPU Used	Training Time
ViT-B/12	CIFAR-10	98.88%	77.40%	RTX 4070 Laptop	2.0 hours

🔍 Attention Map Visualization

Due to the small image size in CIFAR-10, I implemented attention map visualization on the Food-101 dataset instead, which offers higher-resolution samples more suitable for visual interpretability.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
__pycache__		__pycache__
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
requirements.txt		requirements.txt
train.py		train.py
tutorial_from_scratch.ipynb		tutorial_from_scratch.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📚 Simple-ViT-Implementation

🚀 Getting started

📊 Results

🔍 Attention Map Visualization

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

📚 Simple-ViT-Implementation

🚀 Getting started

📊 Results

🔍 Attention Map Visualization

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages