Mitigating Safety Context Amnesia in Multimodal Reasoning Models via Intent-Guided Safety Reasoning

Repository status: we are organizing the public release. Code, evaluation scripts, prompts, and additional assets will be released progressively.

Overview

Multimodal Large Reasoning Models (MLRMs) can correctly perceive risk-relevant visual cues, yet still fail to enforce safety constraints when harmful objectives are embedded in seemingly benign contexts. We term this failure mode Safety Context Amnesia (SCA): during reasoning, the model over-prioritizes contextual coherence and narrative alignment, causing latent risk signals to be suppressed.

Across multiple multimodal safety benchmarks, IGSR substantially improves defense success rates while largely preserving utility.

Warning

This project studies multimodal safety failures and defenses. As a result, the paper materials contain unsafe or harmful examples used strictly for research and evaluation

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
data		data
models		models
outputs		outputs
outputs_clean		outputs_clean
outputs_igsr		outputs_igsr
outputs_igsr_debug		outputs_igsr_debug
respose/qwen2_5_VL		respose/qwen2_5_VL
static		static
.gitattributes		.gitattributes
.gitignore		.gitignore
=4.46.0		=4.46.0
IGSR_utils.py		IGSR_utils.py
README.md		README.md
SimSun.ttf		SimSun.ttf
eval.py		eval.py
eval_IGSR.py		eval_IGSR.py
eval_IGSR_test_defense.py		eval_IGSR_test_defense.py
eval_defense.py		eval_defense.py
eval_defense_test.py		eval_defense_test.py
eval_intent.py		eval_intent.py
eval_utils.py		eval_utils.py
generate_train_dataset.py		generate_train_dataset.py
index.html		index.html
requirements_llava.txt		requirements_llava.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Mitigating Safety Context Amnesia in Multimodal Reasoning Models via Intent-Guided Safety Reasoning

Overview

Warning

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Mitigating Safety Context Amnesia in Multimodal Reasoning Models via Intent-Guided Safety Reasoning

Overview

Warning

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages