新闻中心
你的位置:开云「中国」Kaiyun·官方网站-登录入口 > 新闻中心 > 开yun体育网模子围剿袭新的源讲话文本块-开云「中国」Kaiyun·官方网站-登录入口
AI 字幕老是慢半拍,质地和延长难以均衡是业界老问题了。
为此,香港华文大学、字节高出 Seed 和斯坦福大学推敲团队开端,提倡了一种面向同声传译的序贯计谋优化框架 ( Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT ) 。
在 70 亿参数(7B)界限上罢了 SOTA。

施行成果败露,SeqPO-SiMT 的翻译质地不仅优于监督微调(SFT)的离线模子及 LLaMA-3-8B,其发扬以至能忘形乃至超越 Qwen-2.5-7B 的离线翻译水平。
要领:SeqPO-SiMT 序贯计谋优化
针对以上难点,推敲团队提倡 SeqPO-SiMT 框架。其中枢想想是将同声传译任务建模为一个序贯决议问题,抽象评估所有这个词这个词翻译历程的翻译质地和延长,并对所有这个词这个词决议序贯进行端到端的优化。
该要领的主要特色是:它不再孤赶紧评估每一步决议的厉害,而是将一整句话的翻译过程视为一个合座,即酿成一个完好决议序贯,更允洽东谈主类对同传的评估过程。
同声传译采样阶段
该框架使用一个大讲话模子(LLM)充任计谋模子,在每个时刻步 t,模子围剿袭新的源讲话文本块,并基于已有的所有这个词源文本和之前的翻译历史,来生成现时的翻译块。
这个决议过程不错被方法化地默示为:
该框架的一个要道纯真性在于,若是模子决定恭候更多高下文,输出的不错为空,其长度都备由计谋模子自行决定。

优化阶段
奖励函数:关于一个 batch 内的第 i个样本,系统和会过一个在最终才能来评估所有这个词这个词过程的优劣。这个奖励同期评估翻译质地(Quality)和延长(Latency)。
具体而言,领先狡计出原始的质地分和延长分,然后对两者进行归一化措置以长入量纲取得和,最终的奖励被界说为:
其中,是一个超参数,用于衡量质地与延长的紧要性。
优化计算:模子的最终优化计算最大化渴望奖励开yun体育网,同期为了保证磨砺的褂讪性,计算函数中还引入了 KL 散度四肢拘谨项,看重计谋模子
