LayerSkip for MoE

Large language models (LLMs) have demonstrated remarkable capabilities but remain computationally expensive to deploy and operate. Mixture of Experts (MoE) architectures have emerged as a promising approach for scaling LLMs efficiently by selectively activating only a subset of expert parameters for each forward pass. While MoE provides width-wise sparsity (activating only a portion of the network horizontally), we identify an opportunity to integrate LayerSkip to provide complementary depth-wise sparsity, enabling dynamic computation paths based on input complexity.

Name		Name	Last commit message	Last commit date
Latest commit History 228 Commits
analysis/colossalai_replace		analysis/colossalai_replace
env		env
layerskip		layerskip
paper		paper
script		script
.gitignore		.gitignore
LayerSkip_for_MoE_Project.pdf		LayerSkip_for_MoE_Project.pdf
README.md		README.md
confidence_per_layer.png		confidence_per_layer.png
early_exit_distribution.png		early_exit_distribution.png
layer_dropout_schedule.png		layer_dropout_schedule.png
layerskip_moe_tests.py		layerskip_moe_tests.py
model_rotational.pt		model_rotational.pt
model_standard.pt		model_standard.pt
model_with_layerskip.pt		model_with_layerskip.pt
model_with_layerskip_curious.pt		model_with_layerskip_curious.pt
model_with_rotation.pt		model_with_rotation.pt
model_without_layerskip.pt		model_without_layerskip.pt
naive_model.pt		naive_model.pt
rot_vs_std_early_exit_distribution.png		rot_vs_std_early_exit_distribution.png
rot_vs_std_training_loss.png		rot_vs_std_training_loss.png
rot_vs_std_validation_accuracy.png		rot_vs_std_validation_accuracy.png
rotation_curriculum_visualization.png		rotation_curriculum_visualization.png
rotational_curriculum_visualization.png		rotational_curriculum_visualization.png
time_comparison.png		time_comparison.png
training_loss_comparison.png		training_loss_comparison.png
training_results.png		training_results.png
training_time_comparison.png		training_time_comparison.png
validation_accuracy_comparison.png		validation_accuracy_comparison.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LayerSkip for MoE

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

LayerSkip for MoE

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages