开yun体育网模子围剿袭新的源讲话文本块-开云「中国」Kaiyun·官方网站-登录入口

你的位置：开云「中国」Kaiyun·官方网站-登录入口 > 新闻中心 > 开yun体育网模子围剿袭新的源讲话文本块-开云「中国」Kaiyun·官方网站-登录入口

发布日期：2025-09-12 05:24 点击次数：115

开yun体育网模子围剿袭新的源讲话文本块-开云「中国」Kaiyun·官方网站-登录入口

AI 字幕老是慢半拍，质地和延长难以均衡是业界老问题了。

为此，香港华文大学、字节高出 Seed 和斯坦福大学推敲团队开端，提倡了一种面向同声传译的序贯计谋优化框架 ( Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT ) 。

在 70 亿参数（7B）界限上罢了 SOTA。

施行成果败露，SeqPO-SiMT 的翻译质地不仅优于监督微调（SFT）的离线模子及 LLaMA-3-8B，其发扬以至能忘形乃至超越 Qwen-2.5-7B 的离线翻译水平。

要领：SeqPO-SiMT 序贯计谋优化

针对以上难点，推敲团队提倡 SeqPO-SiMT 框架。其中枢想想是将同声传译任务建模为一个序贯决议问题，抽象评估所有这个词这个词翻译历程的翻译质地和延长，并对所有这个词这个词决议序贯进行端到端的优化。

该要领的主要特色是：它不再孤赶紧评估每一步决议的厉害，而是将一整句话的翻译过程视为一个合座，即酿成一个完好决议序贯，更允洽东谈主类对同传的评估过程。

同声传译采样阶段

该框架使用一个大讲话模子（LLM）充任计谋模子，在每个时刻步 t，模子围剿袭新的源讲话文本块，并基于已有的所有这个词源文本和之前的翻译历史，来生成现时的翻译块。

这个决议过程不错被方法化地默示为：

该框架的一个要道纯真性在于，若是模子决定恭候更多高下文，输出的不错为空，其长度都备由计谋模子自行决定。

优化阶段

奖励函数：关于一个 batch 内的第 i个样本，系统和会过一个在最终才能来评估所有这个词这个词过程的优劣。这个奖励同期评估翻译质地（Quality）和延长（Latency）。

具体而言，领先狡计出原始的质地分和延长分，然后对两者进行归一化措置以长入量纲取得和，最终的奖励被界说为：

其中，是一个超参数，用于衡量质地与延长的紧要性。

优化计算：模子的最终优化计算最大化渴望奖励开yun体育网，同期为了保证磨砺的褂讪性，计算函数中还引入了 KL 散度四肢拘谨项，看重计谋模子