DetectBench: Can Large Language Model Detect and Piece Together Implicit Evidence?

The example of DetectBench

Name	#Sample	Avg #Token	Avg #Evidence	Avg #Jumps
train	365	177	4.27	7.10
dev	1,770	178	4.34	7.13
test-noremal	1,193	179	4.24	7.03
test-hard	300	261	7.79	13.83
test-distract	300	10,779	4.16	7.27
All	3,928	994	4.55	7.62

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
DetectBench_eng_v1.3		DetectBench_eng_v1.3
src		src
README.md		README.md