Each language version is independently generated for its own context, not a direct translation.

想象一下，你正在给一位非常聪明但略显不知所措的助手提供一套指令。

问题："JSON"语言障碍
目前，当计算机程序（如 AI 智能体）彼此交流它们拥有的工具（例如“搜索网络”或“查询天气”）时，它们使用一种称为JSON的格式。JSON 是一种专为计算机快速读取而设计的、僵化的技术归档系统。它充满了括号、引号和重复的标签。

对于类人 AI 模型，尤其是那些更小、更快的模型来说，阅读这种 JSON 就像试图阅读一本每个单词都被包裹在沉重、令人困惑的塑料壳中的书。AI 被这些“塑料”（额外的符号和结构）拖得如此疲惫，以至于忘记了实际的指令。这篇论文将这种现象称为“协议不匹配”。AI 试图读取的是计算机文件，而不是自然语言句子。

解决方案：TSCG（“翻译器”与“编辑”）
作者 Furkan Sakizli 开发了一种名为TSCG（Token-Context Semantic Grammar，Token 上下文语义语法）的工具。你可以将 TSCG 想象成一个超快速、确定性的编辑程序，它位于计算机和 AI 之间。

在 AI 看到指令之前，TSCG 会将杂乱的 JSON 文件瞬间重写为干净、听起来自然的文本格式。这就像将一份冗长的法律合同重写为清晰的项目符号指令列表。

工作原理（8 位“编辑”）
TSCG 不使用魔法或猜测。它使用一组固定的 8 条特定规则（称为“算子”）来清理文本：

去除废话：它删除了诸如“以下项目”之类的礼貌用语，或删除人类无需阅读的冗余短语。
重新布置家具：它将指令中最重要的部分移至开头和结尾，因为 AI 模型最关注句子的首尾（就像故事的“书挡”）。
说 AI 的语言：它将符号更改为 AI 内部词典识别为单个“块”而非多个破碎片段的符号，从而节省空间。

结果：小模型的奇迹
该论文在 12 种不同的 AI 模型上测试了这种方法，从小型模型（40 亿到 140 亿个“脑细胞”）到顶级的巨型模型。

对于小型模型：结果令人瞩目。在没有 TSCG 的情况下，当给定包含 20 个工具的列表时，小型模型几乎完全失败（准确率为 0%），因为 JSON 过于令人困惑。有了 TSCG，它们的准确率跃升至84%。这就像 AI 突然“苏醒”过来，终于能够理解任务了。
对于大型模型：即使是超级聪明的模型也表现更好。它们变得更加准确，并使用了更少的"Token"（AI 思考时间的货币），从而节省了成本并提升了速度。

“顿悟”时刻：关键在于格式，而不仅仅是压缩
该论文中最有趣的发现之一是它为何有效。作者意识到，对于许多小型模型而言，问题不仅仅在于文本太长；而是格式（JSON）本身就是敌人。

当作者比较"JSON 文本”与“纯文本”（没有任何 fancy 压缩）时，仅凭纯文本就解决了大部分问题。TSCG 是这一点的终极版本：它既修复了格式，又压缩了文本。

“一刀切”的神话
该论文还发现，并非所有 AI 模型的反应都一样。

有些模型是“饥饿型”：它们喜欢 TSCG 应用的每一条规则，并且随着每一次改变而变得更聪明。
有些是“敏感型”：它们喜欢某些规则，但会被其他规则搞糊涂。如果你给它们太多改变，它们的表现反而会变差。
有些是“稳健型”：它们不太在意；无论怎样，它们都能很好地工作。

这意味着不存在适用于所有 AI 的单一“完美”设置。你必须根据所使用的 AI 来调整编辑器。

总而言之
TSCG 是一个免费、开源的工具，充当翻译器。它将工具定义的僵化、仅限计算机的语言瞬间转换为 AI 模型实际能够理解的格式。这使得更小、更便宜的 AI 模型能够在它们此前失败的现实世界应用中有效工作，同时也让最大的模型变得更快、更准确。这是一个针对令人困惑问题的简单修复方案：停止用计算机代码与 AI 对话，开始用纯文本与它对话。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：TSCG——面向代理型大语言模型部署的确定性工具模式编译

1. 问题陈述

生产级代理框架（例如 OpenAI 函数调用、Anthropic 工具使用、MCP）将工具定义以 JSON 模式的形式传输给大语言模型（LLM）。虽然 JSON 针对确定性机器解析和人类可读性进行了优化，但对于自回归语言模型的解读而言并非最优。

这种协议不匹配为小模型（4B–14B 参数）造成了“能力悬崖”。随着 JSON 模式数据量的增加，工具调用准确率急剧下降，在工具目录超过 15 个时，准确率降至 0–49%。此问题带来了三项主要成本：

Token 成本：模式引入了纯粹的结构冗余，每次调用消耗 3,000–25,000 个 token。
能力成本：小模型无法在大规模下可靠地解析 JSON 格式模式，将代理能力锁定在前沿 API 之后。
扩展成本：模式开销随目录大小线性增长。

该论文将此问题不仅仅视为压缩问题，而是视为一个协议适配问题，要求在 API 边界采用不同的表示形式。

2. 方法论：TSCG 框架

作者引入了Token 上下文语义语法（TSCG），这是一种确定性工具模式编译器，可将 JSON 模式转换为 token 高效的结构化文本。TSCG 无需模型访问、微调或运行时搜索，作为预分词编译器运行。

2.1 流水线

TSCG 应用了一个由五个阶段组织的、包含 10 个确定性转换的固定顺序流水线：

解析：对输入 JSON 进行分割。
压缩：
- SDM（语义密度最大化）：移除填充 token（礼貌标记、委婉语、冗余连接词）。
- TAS（分词器对齐语法）：基于 BPE 边界选择能最小化 token 计数的分隔符变体（例如，使用 -> 而不是 →）。
- DRO（分隔符角色优化）：用紧凑的分隔符替换冗长的结构短语。
结构：
- CFL（约束优先布局）：将输出约束重新定位到位置 0，以利用“注意力池”（attention sink）现象。
- CFO（因果前向排序）：将多步操作重新排序为拓扑顺序，以确保先决条件在因果上可访问。
脆弱性：
- CAS（因果访问分数）：根据脆弱性（重要性与可访问性）对原子进行评分，并将高脆弱性原子放置在开头（注意力池）和结尾（近因偏差）。
- SAD-F（选择性锚点复制）：在 token 预算内复制关键原子，以强化关键信息。
闭合：
- CCP（因果闭合原则）：在末尾附加一个摘要块（尽管实证结果显示这增加了开销，且未带来一致的准确率提升）。

2.2 理论基础

这些算子基于因果自回归 Transformer 的三个属性：

因果注意力：早期 token 无法访问后期 token；因此，先决条件必须位于依赖步骤之前（CFO）。
注意力池：位置 0 接收不成比例的注意力；关键约束应放置在此处（CFL）。
BPE 非单调性：字符串长度与 token 计数不呈线性相关；可以选择表面形式以与学习到的 BPE 合并对齐（TAS）。

该框架提供了一个形式化压缩界限，保证在格式良好的模式上实现 $\ge 51\%$ 的 token 减少。

3. 主要贡献

形式化优化框架：一个包含八个算子的系统，具有与 Transformer 机制相关的数学规范，满足分词器感知和因果注意力基础。
机制分解：一种“格式与压缩”分析，证明对于小模型而言，表示形式的改变（从 JSON 到文本）是主导机制，而结构压缩则使前沿模型受益。
TAB 基准：首个工具模式压缩基准（TSCG-Agentic-Bench），包含跨 12 个模型（4B–32B 本地模型 + 3 个前沿模型）和 5 个场景的约 19,000 次 API 调用。
小模型赋能：证明 TSCG 将小模型（4B–14B）的准确率从接近零恢复至功能水平（65–90%），从而实现本地部署。
每模型算子矩阵：识别出前沿模型中三种不同的算子响应特征（算子渴求型、算子敏感型、算子鲁棒型），证明不存在通用配置。
扩展特征：表明即使在轻量级合成目录上性能趋于饱和，TSCG 在重型生产 MCP 模式上的准确率优势依然存在。
实现：一个 1,200 行、零依赖的 TypeScript 包，执行时间在亚毫秒级。

4. 实验结果

4.1 小模型恢复

在 TAB 基准上，TSCG 显著提高了小模型的工具使用准确率：

Phi-4 (14B)：在 20 个工具时，准确率从 0% 恢复至 84.4%（50 个工具时为 90.3%）。
Mistral 7B 和 Gemma 3 4B：在 20–50 个工具时显示出巨大提升（+17 至 +63 个百分点）。
分解：对于这些模型，提升主要由格式转换（将 JSON 转换为结构化文本）驱动，而非压缩。与文本基线相比，“压缩”收益消失或逆转，证实瓶颈在于 JSON 解析，而非上下文长度。

4.2 前沿模型性能

对于前沿模型（Claude Sonnet 4, GPT-4o, GPT-5.2），TSCG 提供了真正的结构压缩收益：

Claude Sonnet 4：在 50.1% 的 token 节省下，实现了 85.2% 的准确率（原生 JSON 为 74.0%）。
GPT-5.2：在场景 A 中显示出显著提升（+29.7 个百分点），尽管性能因算子特征而异。
准确率保持率 (ARR)：在 BFCL 外部验证基准上，TSCG 实现了 108–181% 的 ARR 值。

4.3 算子敏感性特征

按算子隔离的实验揭示了三种不同的行为特征：

算子渴求型（例如 Opus 4.7）：从每个算子中受益；完整流水线为最优。
算子敏感型（例如 GPT-5.2）：特定算子（如 CFO）可能会降低性能；需要选择性配置。
算子鲁棒型（例如 Sonnet 4）：对大多数算子不变；任何安全配置均有效。

4.4 扩展与泛化

重型模式：在重型生产 MCP 模式（约 10,500 输入 token）上，TSCG 保持了 +5.0 个百分点的准确率优势，而在轻量级合成目录上的收益在 75–100 个工具时趋于饱和。
基准有效性：合成 TAB 基准在 0.1 个准确率点内预测了现实世界的 MCP 性能。

5. 意义与主张

该论文主张 TSCG 解决了代理型 LLM 基础设施中一个关键且未被填补的空白：JSON 模式用于模型消费的无效性。

架构转变：TSCG 将模式压缩定位为一种架构选择（外部编译），而非提示工程技术。这是必要的，因为分词发生在模型之前，模型无法事后“重构”其输入。
部署指导：该工作提供了数据驱动的部署分类。小模型需要格式转换（通常通过“保守”特征实现），而前沿模型则受益于结构压缩。
生态系统影响：作者提议创建一个社区策划的预编译工具模式注册表，类似于包注册表（npm/PyPI），以标准化整个代理生态系统的效率。

该论文得出结论：TSCG 通过一个确定性、零依赖的编译器，既在本地、隐私受限的硬件上实现了功能性的工具使用代理，同时又优化了前沿模型的 token 使用。

TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments