【Vid llm】E-VAds: An E-commerce Short Videos Understanding Benchmark

山顶夕景

262人浏览 · 2026-06-19 23:17:30

山顶夕景 · 2026-06-19 23:17:30 发布

note

训练策略：
- SFT 仅完成浅层对齐，高阶推理强依赖 RL
- 多粒度奖励（MG-GRPO）有效克服奖励稀疏
- 增大答案权重的分配，可以防止出现推理正确但答案错误情况

文章目录

note
一、E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
Reference

一、E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
链接：https://arxiv.org/abs/2602.08355
开源：https://github.com/TaobaoTmall-AlgorithmProducts/E-VAds_Benchmark

电商视频现有MLLM提出了三大现实挑战：
● 极高的多模态信息密度：模型必须在极短时间内追踪快速的视觉切换，并将密集的语音和字幕与视觉证据进行精准对齐。
● 评估基准的缺失：目前业内尚无专门针对大规模、转化导向型电商短视频的系统性评测标准。
● 开放式的商业推理：营销说服逻辑、消费者心理洞察等问题本质上是开放式且高度意图导向的。这种主观性使得监督信号难以定义，导致模型在学习时的奖励信号极其稀疏。

提出了业内首个电商短视频理解基准 E-VAds Benchmark，并同步开源了多模态信息密度评估框架、数据构建Pipeline以及 E-VAds-R1 推理模型

在这里插入图片描述

训练策略的消融实验，表明：
● SFT 仅完成浅层对齐，高阶推理强依赖 RL：对比不同的 SFT 策略（直接输出答案 vs 思维链后输出），表现差异微乎其微。这表明 SFT 阶段主要的作用是“格式对齐”和“基础领域知识注入”，而解决复杂电商逻辑推理的核心能力绝大部分是在 RL 阶段建立的。
● 多粒度奖励（MG-GRPO）有效克服奖励稀疏：单一的严格奖励（Strict）有严重稀疏的监督信号，阻碍模型探索；而单一的宽松奖励（Relaxed）虽能平滑引导，但无法让模型变得更精进。实验证明，MG-GRPO 将多粒度融合（G）后，能实现最佳的性能突破
● 答案权重的分配：在综合计算奖励时，赋予“最终答案（Answer）”更大的权重，能有效防止大模型产生“推理过程看似华丽，但核心结论站不住脚”的幻觉现象。

Reference

[1] E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
[2] ICML’26｜淘天集团开源首个电商短视频理解基准E-VAds与RL增强推理模型

快递鸟一站式物流API解决方案

电商企业物流数字化转型必备！快递鸟 API 接口，72 小时快速完成物流系统集成。全流程实战1V1指导，营造开放的API技术生态圈。

更多推荐

电商商品图标准化生产技术方案：批量去背景与多规格自动适配实现

在电商视觉生产流程中，商品图的标准化处理是高频且重复性极强的环节。每款商品上架通常需要同步产出白底图、场景主图、多比例适配图等标准化素材，传统依赖人工 Photoshop 处理或开源模型二次开发的方式，在处理效率、效果一致性与工程维护成本之间始终难以平衡。本文从工程落地视角，梳理电商商品图标准化生产的技术痛点，对比不同技术路线的优劣势，并结合场景化 AI 工具的实现思路，讲解一套可快速落地的批量生

快递鸟社区

C4D|Cinema 4D下载安装教程（附免费安装包）

快递鸟社区

软件测试|如何写好求职简历

【摘要】本文为软件测试工程师提供了专业的简历撰写指南。文章从七个方面详细解析：1）强调简洁的格式结构，建议控制在2页以内；2）个人介绍需包含核心信息，求职意向要明确；3）专业技能要匹配岗位JD，区分"精通/熟练/熟悉"等级；4）工作经历需完整呈现，避免频繁跳槽记录；5）项目经验要突出技术贡献，建议选择金融/电商等热门领域；6）教育背景需清晰列出；7）自我评价可展示个人优势。特别