From 53c035864b5120e715d52a088bdcfeb6c226a3ef Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:34:31 +0800
Subject: [PATCH 1/6] Update chat.json

---
 zh-CN/chat.json | 44 +++++++++++++++++++++++++-------------------
 1 file changed, 25 insertions(+), 19 deletions(-)

diff --git a/zh-CN/chat.json b/zh-CN/chat.json
index eb991101..c7182b8b 100644
--- a/zh-CN/chat.json
+++ b/zh-CN/chat.json
@@ -24,10 +24,10 @@
   "unnamedChat": "未命名聊天",
   "emptyFolder": "文件夹为空",
 
-  "tokenCount": "token数",
-  "messageTokenCount": "输入token数",
-  "tokenCount/hint": "消息中的token数量。使用当前选定模型的分词器计算。\n\n需要加载模型。",
-  "messageTokenCount/hint": "消息中的token数量。使用当前选定模型的分词器计算。\n\n**不包括**附件中的token估计值。",
+  "tokenCount": "词元数",
+  "messageTokenCount": "输入词元数",
+  "tokenCount/hint": "消息中的词元数。使用当前选定模型的分词器计算。\n\n需要加载模型。",
+  "messageTokenCount/hint": "消息中的词元数量。使用当前选定模型的分词器计算。\n\n**不包括**附件中的词元估计值。",
 
   "notes": "对话笔记",
   "notes/add/first": "添加笔记",
@@ -60,6 +60,8 @@
   "actions/loadLastModel": "重新加载上次使用的模型",
   "actions/loadLastModel/tooltip": "点击以加载上次与该聊天一起使用的模型：\n\n{{lastModel}}",
   "actions/loadLastModel/error": "加载上次使用的模型失败。",
+  "actions/clearLastUsedModel": "清除上次使用的模型",
+  "actions/clearLastUsedModel/error": "清除上次使用的模型失败。",
   "actions/continueCurrentModel": "使用当前模型",
   "actions/continueCurrentModel/tooltip": "当前模型：{{currentModel}}",
   "actions/changeToLastUsedModel": "加载 {{lastModel}}",
@@ -76,10 +78,10 @@
   "editMessageConfirm/keepEditing": "继续编辑",
   "editMessageConfirm/save": "保存",
   "editMessageConfirm/discard": "放弃更改",
-  "tokenCount/totalNotAvailable": "token：{{current}}",
-  "tokenCount/totalAvailable": "token：{{current}}/{{total}}",
+  "tokenCount/totalNotAvailable": "词元：{{current}}",
+  "tokenCount/totalAvailable": "词元：{{current}}/{{total}}",
   "tokenCount/totalAvailablePercentage": "上下文已满 {{percentage}}%",
-  "tokenCount/contextOverflow": "未经处理的上下文大于模型的最大token限制。根据您的上下文溢出策略，上下文可能会被截断，或者消息可能不会被发送。",
+  "tokenCount/contextOverflow": "未经处理的上下文大于模型的最大词元限制。根据您的上下文溢出策略，上下文可能会被截断，或者消息可能不会被发送。",
   "modelLoader/manualLoadParams/label": "手动选择模型加载参数",
   "modelLoader/manualLoadParams/hint/before": "(或按住",
   "modelLoader/manualLoadParams/hint/after": ")",
@@ -128,10 +130,10 @@
   "style/viewMode/plaintext": "纯文本",
   "style/viewMode/monospace": "等宽字体",
 
-  "speculativeDecodingVisualization/toggle": "可视化已采纳的草稿token",
-  "speculativeDecodingVisualization/fromDraftModel_one": "已采纳的草稿token",
-  "speculativeDecodingVisualization/fromDraftModel_other": "已采纳的草稿token",
-  "speculativeDecodingVisualization/cannotChangeViewMode": "可视化草稿token时无法切换显示模式。",
+  "speculativeDecodingVisualization/toggle": "可视化已采纳的草稿词元",
+  "speculativeDecodingVisualization/fromDraftModel_one": "已采纳的草稿词元",
+  "speculativeDecodingVisualization/fromDraftModel_other": "已采纳的草稿词元",
+  "speculativeDecodingVisualization/cannotChangeViewMode": "可视化草稿词元时无法切换显示模式。",
 
   "style/fontSize/label": "字体大小",
   "style/fontSize/medium": "默认",
@@ -154,7 +156,7 @@
       "expandTooltip": "展开调试信息块"
     }
   },
-  
+
   "chatTabOptions/clearAllMessages": "清空所有聊天记录...",
   "chatTabOptions/duplicateChat": "复制聊天",
 
@@ -163,11 +165,11 @@
   "topBarActions/clearChatConfirmation": "您确定要清除此聊天中的所有消息吗？",
   "topBarActions/clearChatCancel": "取消",
   "topBarActions/clearChatDelete": "全部清除",
-  
+
   "noModels.indexing": "正在索引模型文件...（这可能需要一段时间）",
   "noModels.downloading": "正在下载您的第一个LLM...",
   "noModels": "还没有LLM！下载一个开始吧！",
-  
+
   "plugins": {
     "pluginTrigger": {
       "noPlugins": "插件",
@@ -193,6 +195,8 @@
       "startRunningDevelopmentPlugin/error": "开发模式插件启动失败",
       "stopRunningDevelopmentPlugin/error": "开发模式插件停止失败",
       "forceReInitPlugin/error": "重启插件失败"
+      "signOutMcpPlugin/error": "插件登出失败",
+      "cancelMcpAuthentication/error": "取消插件身份验证失败"
     },
     "pluginConfiguration": {
       "title": "插件配置",
@@ -224,20 +228,22 @@
   },
 
   "genInfo": {
-    "tokensPerSecond": "{{tokensPerSecond}} token/s",
-    "predictedTokensCount": "{{predictedTokensCount}} token",
-    "timeToFirstTokenSec": "首个token用时 {{timeToFirstTokenSec}} s",
+    "tokensPerSecond": "{{tokensPerSecond}} 词元/秒",
+    "predictedTokensCount": "{{predictedTokensCount}} 词元",
+    "timeToFirstTokenSec": "首个词元用时 {{timeToFirstTokenSec}} s",
     "stopReason": "停止原因: {{stopReason}}",
     "stopReason.userStopped": "用户已停止",
     "stopReason.modelUnloaded": "模型已卸载",
     "stopReason.failed": "生成失败",
-    "stopReason.eosFound": "检测到 EOS token",
+    "stopReason.eosFound": "检测到 EOS 词元",
     "stopReason.stopStringFound": "发现停止字符串",
     "stopReason.toolCalls": "工具调用",
     "stopReason.maxPredictedTokensReached": "达到最大预测词元",
     "stopReason.contextLengthReached": "达到上下文长度上限",
     "speculativeDecodedBy": "草稿模型：{{decodedBy}}",
-    "speculativeDecodingStats": "已采纳 {{accepted}}/{{total}} 个草稿token（{{percentage}}%）"
+    "speculativeDecodingStats": "已采纳 {{accepted}}/{{total}} 个草稿词元（{{percentage}}%）"
+    "speculativeDecodingAcceptedPercentage": "已接受 {{percentage}}% 的草稿令牌",
+    "speculativeDecodingTooltip": "已接受 {{accepted}}/{{total}} 个草稿令牌"
   },
 
   "tabs": {

From 86016caf783d931f54d6cb5881a2642fdfe29999 Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:38:40 +0800
Subject: [PATCH 2/6] Update config.json

---
 zh-CN/config.json | 91 ++++++++++++++++++++++++++---------------------
 1 file changed, 50 insertions(+), 41 deletions(-)

diff --git a/zh-CN/config.json b/zh-CN/config.json
index 48a45d2f..e77051e4 100644
--- a/zh-CN/config.json
+++ b/zh-CN/config.json
@@ -46,11 +46,11 @@
   "llm.prediction.systemPrompt/addInstructions": "添加说明",
   "llm.prediction.temperature/title": "温度",
   "llm.prediction.temperature/subTitle": "引入多少随机性。0 将始终产生相同的结果,而较高值将增加创造性和变化。",
-  "llm.prediction.temperature/info": "来自 llama.cpp 帮助文档：\"默认值为 <{{dynamicValue}}>，它在随机性和确定性之间提供了平衡。极端情况下，温度为 0 会始终选择最可能的下一个token，导致每次运行的输出相同\"",
+  "llm.prediction.temperature/info": "来自 llama.cpp 帮助文档：\"默认值为 <{{dynamicValue}}>，它在随机性和确定性之间提供了平衡。极端情况下，温度为 0 会始终选择最可能的下一个词元，导致每次运行的输出相同\"",
   "llm.prediction.llama.sampling/title": "采样",
   "llm.prediction.topKSampling/title": "Top K 采样",
-  "llm.prediction.topKSampling/subTitle": "将下一个token限制为模型预测的前 k 个最可能的token。作用类似于温度",
-  "llm.prediction.topKSampling/info": "来自 llama.cpp 帮助文档：\n\nTop-k 采样是一种仅从模型预测的前 k 个最可能的token中选择下一个token的文本生成方法。\n\n它有助于减少生成低概率或无意义token的风险，但也可能限制输出的多样性。\n\n更高的 top-k 值（例如，100）将考虑更多token，从而生成更多样化的文本，而较低的值（例如，10）将专注于最可能的token，生成更保守的文本。\n\n• 默认值为 <{{dynamicValue}}>",
+  "llm.prediction.topKSampling/subTitle": "将下一个词元限制为模型预测的前 k 个最可能的词元。作用类似于温度",
+  "llm.prediction.topKSampling/info": "来自 llama.cpp 帮助文档：\n\nTop-k 采样是一种仅从模型预测的前 k 个最可能的词元中选择下一个词元的文本生成方法。\n\n它有助于减少生成低概率或无意义词元的风险，但也可能限制输出的多样性。\n\n更高的 top-k 值（例如，100）将考虑更多词元，从而生成更多样化的文本，而较低的值（例如，10）将专注于最可能的词元，生成更保守的文本。\n\n• 默认值为 <{{dynamicValue}}>",
   "llm.prediction.llama.cpuThreads/title": "CPU 线程",
   "llm.prediction.llama.cpuThreads/subTitle": "推理期间使用的 CPU 线程数",
   "llm.prediction.llama.cpuThreads/info": "计算期间要使用的线程数。增加线程数并不总是与更好的性能相关联。默认值为 <{{dynamicValue}}>。",
@@ -60,17 +60,17 @@
   "llm.prediction.maxPredictedTokens/inputLabel": "最大响应长度（token）",
   "llm.prediction.maxPredictedTokens/wordEstimate": "约 {{maxWords}} 词",
   "llm.prediction.repeatPenalty/title": "重复惩罚",
-  "llm.prediction.repeatPenalty/subTitle": "多大程度上避免重复相同的token",
+  "llm.prediction.repeatPenalty/subTitle": "多大程度上避免重复相同的词元",
   "llm.prediction.repeatPenalty/info": "来自 llama.cpp 帮助文档：\"有助于防止模型生成重复或单调的文本。\n\n更高的值(例如,1.5)将更强烈地惩罚重复,而更低的值(例如,0.9)将更为宽容。\" • 默认值为 <{{dynamicValue}}>",
   "llm.prediction.minPSampling/title": "最小 P 采样",
-  "llm.prediction.minPSampling/subTitle": "token被选为输出的最低基本概率",
-  "llm.prediction.minPSampling/info": "来自 llama.cpp 帮助文档：\n\n相对于最可能token的概率，token被视为考虑的最低概率。必须在 [0, 1] 范围内。\n\n• 默认值为 <{{dynamicValue}}>",
+  "llm.prediction.minPSampling/subTitle": "词元被选为输出的最低基本概率",
+  "llm.prediction.minPSampling/info": "来自 llama.cpp 帮助文档：\n\n相对于最可能词元的概率，词元被视为考虑的最低概率。必须在 [0, 1] 范围内。\n\n• 默认值为 <{{dynamicValue}}>",
   "llm.prediction.topPSampling/title": "Top P 采样",
-  "llm.prediction.topPSampling/subTitle": "可能的下一个token的最小累积概率。作用类似于温度",
-  "llm.prediction.topPSampling/info": "来自 llama.cpp 帮助文档：\n\nTop-p 采样，也称为核心采样，是另一种文本生成方法，从累积概率至少为 p 的token子集中选择下一个token。\n\n这种方法通过同时考虑token的概率和要从中采样的token数量，在多样性和质量之间提供了平衡。\n\n更高的 top-p 值（例如，0.95）将导致更多样化的文本，而较低的值（例如，0.5）将生成更集中和保守的文本。必须在 (0, 1] 范围内。\n\n• 默认值为 <{{dynamicValue}}>",
+  "llm.prediction.topPSampling/subTitle": "可能的下一个词元的最小累积概率。作用类似于温度",
+  "llm.prediction.topPSampling/info": "来自 llama.cpp 帮助文档：\n\nTop-p 采样，也称为核心采样，是另一种文本生成方法，从累积概率至少为 p 的词元子集中选择下一个词元。\n\n这种方法通过同时考虑词元的概率和要从中采样的词元数量，在多样性和质量之间提供了平衡。\n\n更高的 top-p 值（例如，0.95）将导致更多样化的文本，而较低的值（例如，0.5）将生成更集中和保守的文本。必须在 (0, 1] 范围内。\n\n• 默认值为 <{{dynamicValue}}>",
   "llm.prediction.stopStrings/title": "停止字符串",
-  "llm.prediction.stopStrings/subTitle": "应该停止模型生成更多token的字符串",
-  "llm.prediction.stopStrings/info": "遇到特定字符串时将停止模型生成更多token",
+  "llm.prediction.stopStrings/subTitle": "应该停止模型生成更多词元的字符串",
+  "llm.prediction.stopStrings/info": "遇到特定字符串时将停止模型生成更多词元",
   "llm.prediction.stopStrings/placeholder": "输入一个字符串并按 ⏎",
   "llm.prediction.contextOverflowPolicy/title": "上下文溢出",
   "llm.prediction.contextOverflowPolicy/subTitle": "当对话超出模型处理能力时,模型应该如何表现",
@@ -80,23 +80,23 @@
   "llm.prediction.llama.tailFreeSampling/title": "尾部自由采样",
   "llm.prediction.llama.locallyTypicalSampling/title": "局部典型采样",
   "llm.prediction.llama.xtcProbability/title": "XTC 采样概率",
-  "llm.prediction.llama.xtcProbability/subTitle": "XTC（排除顶选）采样器将在每个生成token时以该概率激活。XTC 采样有助于提升创造力，减少陈词滥调",
-  "llm.prediction.llama.xtcProbability/info": "XTC（排除顶选）采样将以该概率在每个token生成时激活。XTC 采样通常可以提升创造力并减少陈词滥调",
+  "llm.prediction.llama.xtcProbability/subTitle": "XTC（排除顶选）采样器将在每个生成词元时以该概率激活。XTC 采样有助于提升创造力，减少陈词滥调",
+  "llm.prediction.llama.xtcProbability/info": "XTC（排除顶选）采样将以该概率在每个词元生成时激活。XTC 采样通常可以提升创造力并减少陈词滥调",
   "llm.prediction.llama.xtcThreshold/title": "XTC 采样阈值",
-  "llm.prediction.llama.xtcThreshold/subTitle": "XTC（排除顶选）阈值。在 `xtc-probability` 概率下，查找概率介于 `xtc-threshold` 和 0.5 之间的token，并仅保留其中概率最低的一个",
-  "llm.prediction.llama.xtcThreshold/info": "XTC（排除顶选）阈值。在 `xtc-probability` 概率下，查找概率介于 `xtc-threshold` 和 0.5 之间的所有token，仅保留概率最低的一个，其余全部移除",
+  "llm.prediction.llama.xtcThreshold/subTitle": "XTC（排除顶选）阈值。在 `xtc-probability` 概率下，查找概率介于 `xtc-threshold` 和 0.5 之间的词元，并仅保留其中概率最低的一个",
+  "llm.prediction.llama.xtcThreshold/info": "XTC（排除顶选）阈值。在 `xtc-probability` 概率下，查找概率介于 `xtc-threshold` 和 0.5 之间的所有词元，仅保留概率最低的一个，其余全部移除",
   "llm.prediction.mlx.topKSampling/title": "Top K 采样",
-  "llm.prediction.mlx.topKSampling/subTitle": "将下一个token限制为概率最高的前 k 个token。作用类似于温度",
-  "llm.prediction.mlx.topKSampling/info": "仅从概率最高的前 k 个token中选择下一个token，作用类似于温度",
+  "llm.prediction.mlx.topKSampling/subTitle": "将下一个词元限制为概率最高的前 k 个词元。作用类似于温度",
+  "llm.prediction.mlx.topKSampling/info": "仅从概率最高的前 k 个词元中选择下一个词元，作用类似于温度",
   "llm.prediction.onnx.topKSampling/title": "Top K 采样",
-  "llm.prediction.onnx.topKSampling/subTitle": "将下一个token限制为前 k 个最可能的token。作用类似于温度",
-  "llm.prediction.onnx.topKSampling/info": "来自 ONNX 文档：\n\n保留最高概率词汇表token的数量以进行 top-k 过滤\n\n• 默认情况下此过滤器关闭",
+  "llm.prediction.onnx.topKSampling/subTitle": "将下一个词元限制为前 k 个最可能的词元。作用类似于温度",
+  "llm.prediction.onnx.topKSampling/info": "来自 ONNX 文档：\n\n保留最高概率词汇表词元的数量以进行 top-k 过滤\n\n• 默认情况下此过滤器关闭",
   "llm.prediction.onnx.repeatPenalty/title": "重复惩罚",
-  "llm.prediction.onnx.repeatPenalty/subTitle": "多大程度上避免重复相同的token",
+  "llm.prediction.onnx.repeatPenalty/subTitle": "多大程度上避免重复相同的词元",
   "llm.prediction.onnx.repeatPenalty/info": "更高的值阻止模型重复自身",
   "llm.prediction.onnx.topPSampling/title": "Top P 采样",
-  "llm.prediction.onnx.topPSampling/subTitle": "可能的下一个token的最小累积概率。作用类似于温度",
-  "llm.prediction.onnx.topPSampling/info": "来自 ONNX 文档：\n\n仅保留累积概率达到或超过 TopP 的最可能token用于生成\n\n• 默认情况下此过滤器关闭",
+  "llm.prediction.onnx.topPSampling/subTitle": "可能的下一个词元的最小累积概率。作用类似于温度",
+  "llm.prediction.onnx.topPSampling/info": "来自 ONNX 文档：\n\n仅保留累积概率达到或超过 TopP 的最可能词元用于生成\n\n• 默认情况下此过滤器关闭",
   "llm.prediction.seed/title": "种子",
   "llm.prediction.structured/title": "结构化输出",
   "llm.prediction.structured/info": "结构化输出",
@@ -106,14 +106,14 @@
   "llm.prediction.tools/serverPageDescriptionAddon": "通过服务端 API 调用时，请将其作为 `tools` 字段传入请求体",
   "llm.prediction.promptTemplate/title": "提示模板",
   "llm.prediction.promptTemplate/subTitle": "聊天中消息发送给模型的格式。更改此设置可能会引入意外行为 - 确保您知道自己在做什么！",
-  "llm.prediction.speculativeDecoding.numDraftTokensExact/title": "草稿生成token数",
-  "llm.prediction.speculativeDecoding.numDraftTokensExact/subTitle": "每生成一个主模型token，草稿模型生成的token数量。平衡计算量与收益，选择合适的数值",
+  "llm.prediction.speculativeDecoding.numDraftTokensExact/title": "草稿生成词元数",
+  "llm.prediction.speculativeDecoding.numDraftTokensExact/subTitle": "每生成一个主模型词元，草稿模型生成的词元数量。平衡计算量与收益，选择合适的数值",
   "llm.prediction.speculativeDecoding.minContinueDraftingProbability/title": "草稿概率阈值",
-  "llm.prediction.speculativeDecoding.minContinueDraftingProbability/subTitle": "仅当token概率高于该阈值时才继续草稿。值越高风险越低，收益也越低",
+  "llm.prediction.speculativeDecoding.minContinueDraftingProbability/subTitle": "仅当词元概率高于该阈值时才继续草稿。值越高风险越低，收益也越低",
   "llm.prediction.speculativeDecoding.minDraftLengthToConsider/title": "最小草稿长度",
   "llm.prediction.speculativeDecoding.minDraftLengthToConsider/subTitle": "草稿长度低于该值将被主模型忽略。值越高风险越低，收益也越低",
   "llm.prediction.speculativeDecoding.maxTokensToDraft/title": "最大草稿长度",
-  "llm.prediction.speculativeDecoding.maxTokensToDraft/subTitle": "草稿中允许的最大token数。如果所有token概率都高于阈值，则为上限。值越低风险越低，收益也越低",
+  "llm.prediction.speculativeDecoding.maxTokensToDraft/subTitle": "草稿中允许的最大词元数。如果所有词元概率都高于阈值，则为上限。值越低风险越低，收益也越低",
   "llm.prediction.speculativeDecoding.draftModel/title": "草稿模型",
   "llm.prediction.reasoning.parsing/title": "推理过程解析方式",
   "llm.prediction.reasoning.parsing/subTitle": "控制模型输出中推理过程的解析方式",
@@ -131,17 +131,24 @@
   "load.gpuStrictVramCap.customSubTitleOn": "开启：系统将限制模型权重的卸载仅限于专用 GPU 内存及 RAM 。上下文仍可能使用共享内存",
   "load.gpuStrictVramCap.customGpuOffloadWarning": "模型的卸载仅限于专用 GPU 内存。实际卸载的层数可能会有所不同",
   "load.allGpusDisabledWarning": "所有 GPU 目前均被禁用。请启用至少一个以进行卸载",
+  "load.gpuStrictVramCap.customSubTitleOff": "关闭：如果专用 GPU 内存已满，允许将模型权重卸载到共享内存",
+  "load.gpuStrictVramCap.customSubTitleOn": "开启：系统将限制模型权重仅卸载到专用 GPU 内存和 RAM。上下文仍可能使用共享内存",
+  "load.gpuStrictVramCap.customGpuOffloadWarning": "模型卸载限制在专用 GPU 内存内。实际卸载的层数可能不同",
+  "load.allGpusDisabledWarning": "当前所有 GPU 均已禁用。请至少启用一个以进行卸载",
 
   "llm.load.contextLength/title": "上下文长度",
-  "llm.load.contextLength/subTitle": "模型可以一次性关注的token最大数量。请参阅“推理参数”下的“对话溢出”选项以获取更多管理方式",
-  "llm.load.contextLength/info": "指定模型一次可以考虑的最大token数量，影响其处理过程中保留的上下文量",
+  "llm.load.contextLength/subTitle": "模型可以一次性关注的词元最大数量。请参阅“推理参数”下的“对话溢出”选项以获取更多管理方式",
+  "llm.load.contextLength/info": "指定模型一次可以考虑的最大词元数量，影响其处理过程中保留的上下文量",
   "llm.load.contextLength/warning": "设置较高的上下文长度值会对内存使用产生显著影响",
   "llm.load.seed/title": "种子",
   "llm.load.seed/subTitle": "用于文本生成的随机数生成器的种子。-1 表示随机",
   "llm.load.seed/info": "随机种子：设置随机数生成的种子以确保可重复的结果",
+  "llm.load.numCpuExpertLayersRatio/title": "强制将 MoE 权重放入 CPU 的层数",
+  "llm.load.numCpuExpertLayersRatio/subTitle": "强制将专家层放入 CPU 的层数。可节省显存，并且可能比部分 GPU 卸载更快。如果模型能完全放入显存，不建议使用此选项。",
+  "llm.load.numCpuExpertLayersRatio/info": "指定强制将专家层放入 CPU 的层数。注意力层保留在 GPU 上，在保持推理速度较快的同时节省显存。",
 
   "llm.load.llama.evalBatchSize/title": "评估批处理大小",
-  "llm.load.llama.evalBatchSize/subTitle": "每次处理的输入token数量。增加此值会提高性能，但会增加内存使用量",
+  "llm.load.llama.evalBatchSize/subTitle": "每次处理的输入词元数量。增加此值会提高性能，但会增加内存使用量",
   "llm.load.llama.evalBatchSize/info": "设置评估期间一起处理的示例数量,影响速度和内存使用",
   "llm.load.llama.ropeFrequencyBase/title": "RoPE 频率基",
   "llm.load.llama.ropeFrequencyBase/subTitle": "旋转位置嵌入(RoPE)的自定义基频。增加此值可能在高上下文长度下提高性能",
@@ -182,14 +189,16 @@
   "llm.load.mlx.kvCacheBits/turnedOnWarning": "启用 KV 缓存量化时，上下文长度设置将被忽略",
   "llm.load.mlx.kvCacheGroupSize/title": "KV 缓存量化分组大小",
   "llm.load.mlx.kvCacheGroupSize/subTitle": "量化操作时分组的大小，组越大内存占用越低，但模型质量可能下降",
+  "llm.load.mlx.kvCacheQuantization/title": "KV 缓存量化",
+  "llm.load.mlx.kvCacheQuantization/subTitle": "对模型的 KV 缓存进行量化，可加快生成速度并降低内存占用，但可能影响输出质量。",
   "llm.load.mlx.kvCacheGroupSize/info": "KV 缓存量化时使用的分组位数",
   "llm.load.mlx.kvCacheQuantizationStart/title": "KV 缓存量化：开始量化的上下文长度",
   "llm.load.mlx.kvCacheQuantizationStart/subTitle": "达到此上下文长度后开始对 KV 缓存进行量化",
   "llm.load.mlx.kvCacheQuantizationStart/info": "达到此上下文长度后开始对 KV 缓存进行量化",
-  "llm.load.mlx.kvCacheQuantization/title": "KV 缓存量化",
-  "llm.load.mlx.kvCacheQuantization/subTitle": "对模型的 KV 缓存进行量化，可加快生成速度并降低内存占用，但可能影响输出质量。",
   "llm.load.mlx.kvCacheQuantization/bits/title": "KV 缓存量化位数",
-  "llm.load.mlx.kvCacheQuantization/bits/tooltip": "KV 缓存量化所用的位数",
+  "llm.load.mlx.kvCacheQuantization/subTitle": "量化模型的 KV 缓存。这可能会提高生成速度并降低内存占用，\n但会牺牲模型输出质量。",
+  "llm.load.mlx.kvCacheQuantization/bits/title": "KV 缓存量化位数",
+  "llm.load.mlx.kvCacheQuantization/bits/tooltip": "KV 缓存量化的位数",
   "llm.load.mlx.kvCacheQuantization/bits/bits": "位数",
   "llm.load.mlx.kvCacheQuantization/groupSize/title": "分组策略",
   "llm.load.mlx.kvCacheQuantization/groupSize/accuracy": "高精度",
@@ -200,14 +209,14 @@
   "llm.load.mlx.kvCacheQuantization/quantizedStart/tooltip": "当上下文长度达到该值时，开始对 KV 缓存进行量化",
 
   "embedding.load.contextLength/title": "上下文长度",
-  "embedding.load.contextLength/subTitle": "模型可以一次性关注的token最大数量。请参阅“推理参数”下的“对话溢出”选项以获取更多管理方式",
-  "embedding.load.contextLength/info": "指定模型一次可以考虑的最大token数量，影响其处理过程中保留的上下文量",
+  "embedding.load.contextLength/subTitle": "模型可以一次性关注的词元最大数量。请参阅“推理参数”下的“对话溢出”选项以获取更多管理方式",
+  "embedding.load.contextLength/info": "指定模型一次可以考虑的最大词元数量，影响其处理过程中保留的上下文量",
   "embedding.load.llama.ropeFrequencyBase/title": "RoPE 频率基",
   "embedding.load.llama.ropeFrequencyBase/subTitle": "旋转位置嵌入(RoPE)的自定义基频。增加此值可能在高上下文长度下提高性能",
   "embedding.load.llama.ropeFrequencyBase/info": "[高级] 调整旋转位置编码的基频,影响位置信息的嵌入方式",
   "embedding.load.llama.evalBatchSize/title": "评估批处理大小",
-  "embedding.load.llama.evalBatchSize/subTitle": "每次处理的输入token数量。增加此值会提高性能，但会增加内存使用量",
-  "embedding.load.llama.evalBatchSize/info": "设置评估期间一起处理的token数量",
+  "embedding.load.llama.evalBatchSize/subTitle": "每次处理的输入词元数量。增加此值会提高性能，但会增加内存使用量",
+  "embedding.load.llama.evalBatchSize/info": "设置评估期间一起处理的词元数量",
   "embedding.load.llama.ropeFrequencyScale/title": "RoPE 频率比例",
   "embedding.load.llama.ropeFrequencyScale/subTitle": "上下文长度按此因子缩放,以使用 RoPE 扩展有效上下文",
   "embedding.load.llama.ropeFrequencyScale/info": "[高级] 修改旋转位置编码的频率缩放,以控制位置编码的粒度",
@@ -265,8 +274,8 @@
     "llmPromptTemplate": {
       "type": "类型",
       "types.jinja/label": "模板 (Jinja)",
-      "jinja.bosToken/label": "开始token (BOS Token)",
-      "jinja.eosToken/label": "结束token (EOS Token)",
+      "jinja.bosToken/label": "开始词元 (BOS Token)",
+      "jinja.eosToken/label": "结束词元 (EOS Token)",
       "jinja.template/label": "模板",
       "jinja/error": "解析 Jinja 模板失败: {{error}}",
       "jinja/empty": "请在上方输入一个 Jinja 模板。",
@@ -288,10 +297,10 @@
       "stopStrings/subTitle": "除了用户指定的停止字符串之外,还将使用特定于模板的停止字符串。"
     },
     "contextLength": {
-      "maxValueTooltip": "这是模型训练所能处理的最大token数量。点击以将上下文设置为此值",
+      "maxValueTooltip": "这是模型训练所能处理的最大词元数量。点击以将上下文设置为此值",
       "maxValueTextStart": "模型支持最多",
-      "maxValueTextEnd": "个token",
-      "tooltipHint": "尽管模型可能支持一定数量的token，但如果您的机器资源无法处理负载，性能可能会下降 - 增加此值时请谨慎"
+      "maxValueTextEnd": "个词元",
+      "tooltipHint": "尽管模型可能支持一定数量的词元，但如果您的机器资源无法处理负载，性能可能会下降 - 增加此值时请谨慎"
     },
     "contextOverflowPolicy": {
       "stopAtLimit": "到达限制时停止",
@@ -326,7 +335,7 @@
         "speculativeDecoding": "投机解码",
         "firstStepBody": "<custom-span>llama.cpp</custom-span> 和 <custom-span>MLX</custom-span> 模型推理加速",
         "secondStepTitle": "投机解码能够加速推理",
-        "secondStepBody": "投机解码是一种让两个模型协作的技术：\n - 一个规模较大的“主”模型\n - 一个较小的“草稿”模型\n\n生成过程中，草稿模型会快速提出token，由主模型进行验证。验证的过程比实际生成更快。\n**通常，主模型与草稿模型的体积差距越大，加速效果越明显。**\n\n为了保证质量，主模型只会接受与自身结果一致的token，从而实现大模型的响应质量与更快的推理速度。两个模型必须使用相同的词表。",
+        "secondStepBody": "投机解码是一种让两个模型协作的技术：\n - 一个规模较大的“主”模型\n - 一个较小的“草稿”模型\n\n生成过程中，草稿模型会快速提出词元，由主模型进行验证。验证的过程比实际生成更快。\n**通常，主模型与草稿模型的体积差距越大，加速效果越明显。**\n\n为了保证质量，主模型只会接受与自身结果一致的词元，从而实现大模型的响应质量与更快的推理速度。两个模型必须使用相同的词表。",
         "draftModelRecommendationsTitle": "草稿模型推荐",
         "basedOnCurrentModels": "基于您当前的模型",
         "close": "关闭",

From 010108e879584034f4e5b57f9cb50cfacf43909d Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:39:43 +0800
Subject: [PATCH 3/6] Update developer.json

---
 zh-CN/developer.json | 24 +++++++++++++++++++++---
 1 file changed, 21 insertions(+), 3 deletions(-)

diff --git a/zh-CN/developer.json b/zh-CN/developer.json
index 9ed7ec42..382667db 100644
--- a/zh-CN/developer.json
+++ b/zh-CN/developer.json
@@ -47,6 +47,15 @@
   "serverOptions/jitModelLoadingTTL/ttl/unit": "分钟",
   "serverOptions/unloadPreviousJITModelOnLoad/title": "仅保留最后一个即时加载的模型",
   "serverOptions/unloadPreviousJITModelOnLoad/hint": "确保在任意时刻最多只有一个即时加载的模型（会卸载之前的模型）",
+  "serverOptions/allowMcp/title": "允许远程 MCP",
+  "serverOptions/allowMcp/hint": "允许使用不在 mcp.json 中的 MCP。这些 MCP 连接是临时的，仅在请求期间存在。目前仅支持远程 MCP。",
+  "serverOptions/allowMcp/mode/off": "关闭",
+  "serverOptions/allowMcp/mode/off/hint": "不允许服务器请求使用 MCP",
+  "serverOptions/allowMcp/mode/remote": "远程",
+  "serverOptions/allowMcp/mode/remote/hint": "允许连接到远程 MCP 服务器",
+
+  "serverOptions/start/error": "启动服务器失败",
+  "serverOptions/stop/error": "停止服务器失败",
 
   "serverLogs/scrollToBottom": "跳转到底部",
   "serverLogs/clearLogs": "清除日志 ({{shortcut}})",
@@ -161,11 +170,20 @@
     "newBadge": "新功能"
   },
 
-  "endpoints/openaiCompatRest/title": "支持的端点 (与 OpenAI 兼容的格式)",
+  "endpoints/openaiCompatRest/title": "支持的端点{{extra}}",
+  "endpoints/openaiCompatRest/segmentedLabel": "类 OpenAI",
   "endpoints/openaiCompatRest/getModels": "列出当前已加载的模型",
-  "endpoints/openaiCompatRest/postCompletions": "文本补全模式。给定一个提示，预测下一个token。注意：OpenAI 认为此端点已'弃用'。",
-  "endpoints/openaiCompatRest/postChatCompletions": "聊天补全。向模型发送聊天历史以预测下一个助手响应。",
+  "endpoints/openaiCompatRest/postCompletions": "文本续写模式。根据提示预测下一个令牌。注意：OpenAI 认为此端点“已弃用”。",
+  "endpoints/openaiCompatRest/postChatCompletions": "聊天补全。向模型发送聊天历史，以预测下一条助手回复",
   "endpoints/openaiCompatRest/postEmbeddings": "文本嵌入。为给定的文本输入生成文本嵌入。接受字符串或字符串数组。",
+  "endpoints/openaiCompatRest/postResponses": "用于生成模型响应的高级接口。通过将前一次响应的 id 作为下一次的输入来创建有状态交互。",
+  "endpoints/lmStudioRest/segmentedLabel": "LM Studio",
+  "endpoints/lmStudioRestV1/getModels": "列出可用模型",
+  "endpoints/lmStudioRestV1/postModelsLoad": "带选项加载模型",
+  "endpoints/lmStudioRestV1/postModelsDownload": "下载模型",
+  "endpoints/lmStudioRestV1/postChat": "与模型聊天。支持有状态的多轮对话和 MCP",
+  "endpoints/lmStudioRestV1/getModelsDownloadStatus": "获取模型下载状态",
+  "endpoints/anthropicCompatRest/segmentedLabel": "兼容 Anthropic",
 
   "model.createVirtualModelFromInstance": "另存为新的虚拟模型",
   "model.createVirtualModelFromInstance/error": "另存为新的虚拟模型失败",

From 81088bdb9e26beee8a249f17d6b8525530e18a58 Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:40:55 +0800
Subject: [PATCH 4/6] Update models.json

---
 zh-CN/models.json | 17 +++++++++++++++++
 1 file changed, 17 insertions(+)

diff --git a/zh-CN/models.json b/zh-CN/models.json
index da248fdf..2e8f68c5 100644
--- a/zh-CN/models.json
+++ b/zh-CN/models.json
@@ -37,6 +37,7 @@
   "badModels/title_one": "索引以下模型失败：",
   "badModels/title_other": "索引以下模型失败：",
   "badModels.virtualModelIncorrectPlacement": "虚拟模型放置错误。预期位置为 {{expected}}。实际位置为 {{actual}}。",
+  "badModels.virtualModelIncorrectPlacement": "虚拟模型放置位置不正确。预期位置为 {{expected}}。实际位置为 {{actual}}。",
   "badModels.virtualModelBadManifest": "无效的虚拟模型清单 (model.yaml)：",
   "unresolvedVirtualModels/title_one": "解析以下虚拟模型失败：",
   "unresolvedVirtualModels/title_other": "解析以下虚拟模型失败：",
@@ -95,6 +96,16 @@
   "loader.info.clickOnModelToLoad": "点击模型以加载",
   "loader.info.configureLoadParameters": "配置模型加载参数",
   "loader.info.activeGeneratorWarning": "您正在使用带有自定义生成器的插件。当前加载的模型是否适用于该插件，取决于生成器的具体实现方式",
+  "loader.guardrails.estimatedMemoryUsage": "预估内存使用量",
+  "loader.guardrails.total": "总计",
+  "loader.guardrails.gpu": "GPU",
+  "loader.guardrails.unavailable": "此模型无法估算内存用量",
+  "loader.guardrails.notEnoughResources": "当前设置下没有足够资源加载模型",
+  "loader.guardrails.notEnoughResources/options": "选项",
+  "loader.guardrails.notEnoughResources.moreInfoSection.appearsNotEnoughMemory": "您的系统似乎没有足够的内存来加载此模型。",
+  "loader.guardrails.notEnoughResources.moreInfoSection.ifYouBelieveThisIsIncorrect": "您可以在设置中调整模型加载保护，或按住 <altOptionKey /> 强制加载。",
+  "loader.guardrails.notEnoughResources.moreInfoSection.warning": "加载过大的模型可能会使系统过载并导致卡死。",
+  "loader.guardrails.notEnoughResources.alwaysAllowLoadAnyway": "（不推荐）始终允许“强制加载”而无需按住 Alt/Option",
 
   "virtual": {
     "local": {
@@ -110,6 +121,12 @@
       "next": "下一步",
       "confirm": "创建",
       "error": "创建虚拟模型失败"
+    },
+    "altsSelect": {
+      "title": "切换模型来源",
+      "resetButton": "重置为默认",
+      "description": "此模型存在多个可用的源文件。",
+      "trigger": "变体"
     }
   }
 }

From 3138933cd264f4a7abc77a1d66a297942cd66312 Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:41:23 +0800
Subject: [PATCH 5/6] Update shared.json

---
 zh-CN/shared.json | 1 +
 1 file changed, 1 insertion(+)

diff --git a/zh-CN/shared.json b/zh-CN/shared.json
index 24fc7431..c19259be 100644
--- a/zh-CN/shared.json
+++ b/zh-CN/shared.json
@@ -50,6 +50,7 @@
   "pending": "待处理",
   "doneWithExclamation": "完成！",
   "done": "完成",
+  "beta": "测试版",
 
   "complete": {
     "completeWithEllipsis": "完成...",

From 11e4e8e1ef6f006e4463afbbb67c88d0d6147671 Mon Sep 17 00:00:00 2001
From: nkh0472 <67589323+nkh0472@users.noreply.github.com>
Date: Tue, 19 May 2026 12:42:12 +0800
Subject: [PATCH 6/6] Update settings.json

---
 zh-CN/settings.json | 17 +++++++++++++++++
 1 file changed, 17 insertions(+)

diff --git a/zh-CN/settings.json b/zh-CN/settings.json
index 3c0cfbe3..27f3e786 100644
--- a/zh-CN/settings.json
+++ b/zh-CN/settings.json
@@ -51,6 +51,9 @@
   "colorThemeLabel": "颜色主题",
   "complexityLevelLabel": "用户界面复杂度级别",
   "selectComplexityLevelPlaceholder": "选择默认的UI复杂度级别",
+  "appNavigationBarPositionLeft": "左侧",
+  "complexityLevelLabel": "用户界面复杂度等级",
+  "selectComplexityLevelPlaceholder": "选择默认的 UI 复杂度等级",
   "userComplexityLevelLabel": "普通用户",
   "powerUserComplexityLevelLabel": "高级用户",
   "developerComplexityLevelLabel": "开发者",
@@ -191,5 +194,19 @@
       "warnDescription": "禁用工具调用确认非常危险。如果您的插件中包含可能执行破坏性操作的工具（例如运行命令、删除文件、覆盖文件、上传文件等），模型将无需确认即可执行这些操作。您可以通过逐个工具或逐个插件的方式禁用确认提示。强烈不建议启用此选项。请谨慎操作。",
       "warnButton": "我了解风险"
     }
+  },
+
+  "defaultContextLength": {
+    "label": "默认上下文长度",
+    "maxTitle": "模型最大值",
+    "customTitle": "自定义值",
+    "maxSubtitle": "使用每个模型所支持的最大上下文长度。",
+    "customSubtitle": "设置加载新模型时的默认上下文长度。如果模型支持的最大上下文长度低于该值，则将使用模型的最大值。",
+    "invalidNaNError": "无效的上下文长度值。将使用 {{value}}",
+    "invalidRangeError": "无效的上下文长度值。取值范围应为 1 到 2^30。将使用 {{value}}",
+    "largeContextWarning": "上下文长度越高，模型占用的内存就越多。如果不确定，请不要更改默认值。"
+  },
+  "jitTTL": {
+    "subtitle": "JIT 加载的模型在闲置超过指定时长后将被自动卸载。"
   }
 }