ScanThink 是一个结合人类原生注意力(Saliency)与情景重现(Depth, Segmentation, Temporal Gaze)的多模态图像识别研究框架。
本项目探索了人类视觉系统如何辅助深度学习模型在复杂场景下的识别性能,集成了显著性预测、空间上下文(深度与分割)以及时序注视点数据。
为了方便复现实验结果,我们提供了预训练权重、标注的眼动数据集以及图像子集:
👉 点击下载:ScanThink 核心资源包 (Weights & Datasets)
资源包内容:
checkpoints/: SaliencyNet 与 ThinkNet (V2-V8) 的最佳权重文件。data/gaze_sessions/: 使用 Tobii 设备采集的原始人类注视轨迹数据。data/images/: 经过筛选的 COCO 10 类识别数据集。
关于本项目研究背景、实验方法及结果的详细分析,请查阅仓库内的 PDF 文档: 👉 人类原生注意力和情景重现对图像识别帮助的研究报告 (PDF)
- SaliencyNet: 基于 MobileNetV2 的显著性预测模型,模仿人类视觉注意分配。
- ThinkNet: 多模态融合网络,支持空间注意力(Saliency, Depth, Seg)与时间注意力(Temporal Gaze)的综合推理。
- Annotation Tool: 完整的眼动数据采集与标注流水线。
src/: 核心源代码(模型架构、Tobii 追踪器集成、数据处理)。scripts/: 全流程实验脚本(涵盖预处理、训练、512分辨率实验及可视化)。REPORT_CN.md: 研究核心结论摘要。
- 环境配置:
pip install -r requirements.txt
- 下载资源:
从 Release 下载并解压
ScanThink_Assets.zip到项目根目录。 - 运行实验:
参考
scripts/下的训练脚本(如train_think_v6_temporal.py)。
如果您对本项目有任何疑问、合作意向或学术探讨,欢迎联系:
- Email: indexguc@gmail.com