【SAGE-Mem 讨论帖】 #1196

KimmoZAG · 2025-11-23T06:27:49Z

KimmoZAG
Nov 23, 2025
Maintainer

此帖主要记录SAGE-Mem开发过程中遇到的一些问题

KimmoZAG · 2025-11-23T06:39:33Z

KimmoZAG
Nov 23, 2025
Maintainer Author

Locomo测试的过程中发现一个问题，就是
即便是同一个测试指标在测试的过程中还需要进行一些预处理

这给我们带来一个值得注意的点就是，测试代码最好是在相应的数据集的repo里拉取，那么也就是一个数据集一个测试指标，一份代码

例如F1 Score
对每个问题，根据 类别(category) 使用不同的评估策略：

Category 1: Multi-hop（多跳问题）

答案是逗号分隔的多个子答案："Psychology, counseling certification"
计算方式：f1_multi() - 对每个预测与每个真实答案计算F1，取最大值，然后平均

Category 2, 3, 4: Single-hop/Temporal/Open-domain

单一答案："7 May 2023"
计算方式：f1_score() - 标准F1计算
F1计算细节：
def f1_score(prediction, ground_truth):    
    # 1. 文本规范化    
    #    - 去除标点符号    
    #    - 转小写    
    #    - 去除冠词 (a, an, the, and)    
    #    "The group on 7 May 2023" → "group 7 may 2023"       
    # 2. 词干提取 (Porter Stemmer)   
    #    "running" → "run"   
    #    "counseling" → "counsel"        
    # 3. Token重叠计数    
    #    prediction_tokens = ["group", "7", "may", "2023"]    
    #    ground_truth_tokens = ["7", "may", "2023"]    
    #    common = ["7", "may", "2023"]  # 3个相同       
    # 4. 计算精确率和召回率    #    precision = 3/4 = 0.75  (预测中有多少是对的)    
    #    recall = 3/3 = 1.0      (真实答案中有多少被预测到)       
    # 5. 计算F1    #    F1 = 2 * (0.75 * 1.0) / (0.75 + 1.0) = 0.857

Category 5: Adversarial（对抗性问题）
测试模型是否能正确识别"无信息"情况
如果回答包含 "no information" 或 "not mentioned" → F1 = 1.0
否则 → F1 = 0.0
因此在对话测试结果文件中json文件 category=5 的问题没有golden answer也是没有毛病的（这是对的

0 replies

KimmoZAG · 2025-11-24T10:24:46Z

KimmoZAG
Nov 24, 2025
Maintainer Author

操作不能太多，也不能太少
多了说明角度不对（没意义），少了兜不住（片面）

记忆前操作-Normalization Strategy

显式结构化（Explicit Structuring）

标签提取
关系识别
复合显式结构化

隐式结构化（Implicit Structuring）

直接Embedding
摘要后Embedding
提取后Embedding

3.复合结构化（这是针对多层记忆结构的）

记忆后操作-Consolidation Policy

回忆前操作-Query Formulation Strategy

回忆后操作-Context Integration Mechanism

0 replies

KimmoZAG · 2025-11-27T01:27:03Z

KimmoZAG
Nov 27, 2025
Maintainer Author

复现进度：

【TiM】https://github.com/intellistream/SAGE/issues/1205
Pre-I：摘要后embedding Post-I：蒸馏
Pre-R：直接embedding Post-R：啥也没干

0 replies

KimmoZAG · 2025-11-27T02:19:33Z

KimmoZAG
Nov 27, 2025
Maintainer Author

复现prompt

请你首先了解SAGE/packages/sage-benchmark/src/sage/benchmark/benchmark_memory/experiment/memory_test_pipeline.py的测试逻辑
然后请你详细阅读XXX的代码，了解其有关记忆的操作（不考虑用户记忆画像），将其拆分为三个人能相对独立同时完成的复现任务
1.插入操作
2.删除操作
3.记忆体以及记忆体提供的操作
其中插入操作分为前插入和后插入，
前插入分为隐式结构化（embedding、摘要后embedding）显式结构化（标签提取、关系识别）
后插入分为摘要、
并把提示词写到对应的packages/sage-benchmark/src/sage/benchmark/benchmark_memory/experiment/mem_docs下markdown文件里。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【SAGE-Mem 讨论帖】 #1196

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 4 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

【SAGE-Mem 讨论帖】 #1196

Uh oh!

Uh oh!

KimmoZAG Nov 23, 2025 Maintainer

Replies: 4 comments

Uh oh!

KimmoZAG Nov 23, 2025 Maintainer Author

Uh oh!

Uh oh!

KimmoZAG Nov 24, 2025 Maintainer Author

记忆前操作-Normalization Strategy

记忆后操作-Consolidation Policy

回忆前操作-Query Formulation Strategy

回忆后操作-Context Integration Mechanism

Uh oh!

Uh oh!

KimmoZAG Nov 27, 2025 Maintainer Author

Uh oh!

KimmoZAG Nov 27, 2025 Maintainer Author

KimmoZAG
Nov 23, 2025
Maintainer

KimmoZAG
Nov 23, 2025
Maintainer Author

KimmoZAG
Nov 24, 2025
Maintainer Author

KimmoZAG
Nov 27, 2025
Maintainer Author

KimmoZAG
Nov 27, 2025
Maintainer Author