澳门六合彩 AGI-Eval团队：AI视频生成模子年度横评，国产模子仍然跳动！

发布日期：2024-12-09 17:39 点击次数：110

AGI-Eval团队投稿澳门六合彩

量子位 | 公众号 QbitAI

说到2024年AI圈的热点话题，虽然不可错过视频生成模子了！

即使是在12月，国表里视频模子的更新脚步依旧莫得放缓。其中以Sora、可灵AI为代表。

12月9日，OpenAI崇敬推出视频居品Sora。用户可以创建即兴长宽比例的分辨率高达1080p（最长 20 秒）的视频，可袭取文本、图像和视频输入并生成新视频算作输出。

塔利班领导的阿富汗巴达赫尚省警方已经否认了有关巴基斯坦驻军瓦罕走廊的谣言，但在巴基斯坦舆论上，有关是否应该由巴基斯坦控制瓦罕走廊的讨论，以及巴政府有控制瓦罕走廊相关计划的传言确实存在。

12月19日，可灵AI晓示基座模子再升级，视频生成推出可灵1.6模子，文本响应度、画面好意思感及通顺合感性，均有明显普及，画面更雄厚新活泼，同期撑捏圭臬和高品性模式，十分是1.6模子的图生视频，里面评测比 1.5 模子举座恶果普及195%。

视频模子竞争热烈，评测榜单也变得尤为紧迫。

AGI-Eval通过构建上百条评测数据和各人级东说念主工评测团队，对Sora 、及国产头部视频生成模子进行了更深度的专科评测。

主要论断有以下3个：

论断1

与国内头部大模子（国内前三）比拟，Sora在视频-文本一致性维度、视频质料上均有小幅过期。总体来看，国内大模子仍保捏跳动水平。

论断2

Sora在通顺质料维度弘扬略好于可灵1.6，即生成的视频画面在动态历程中的主体一致性和动态幅度更当然。

论断3

在视频-文本一致性维度上，Sora存在文本息争有误、指示盲从不符的问题，即生成的视频本色与指示词的态状不符的形式。

扫视的榜单排行如下，评测维度包括视频-文本一致性、视频质料（含实在性、合感性) 、通顺质料等，确保评测限定反馈模子实在水平。

注：以上数据为示例，具体评分请参考AGI-Eval评测社区平台的最新数据。

榜单数据经过归一化惩办，与原始分值有所区别，但排行一致。

AGI-Eval平台荟萃：https://agi-eval.cn/mvp/listSummaryIndex

扫视评测对比：Sora VS 国内视频生成模子

一说念来望望扫视的测评限定。

从视频生成的举座恶果来看，Sora在视频质料、创作解放度、作风撑捏等方面的弘扬更优，尤其是在动态场景下五官的呈现上更为密致。

示例对比

【示例1】：文本一致性

Prompt: 地上放着一个篮球、面包和背包，镜头侍从劳累的通顺员来到物品眼前，提起一样物品用来补充能量。

英文prompt：There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

该prompt自己较为复杂，同期存在多个实体、东说念主物状况弘扬，且需要模子进行正确的推理，考验的本事愈加全面。

Sora-1080P

该维度打分：2分

分析：条目生成的实体中，背包缺失，面包弘扬较差，丢失实体特征；东说念主物动作”提起“不得当，无法判断是否得当推理正确的物体。

可灵1.6

该维度打分：2.67分

分析：条目生成的实体中，面包缺失，”提起“的动作有趋势但弘扬较差，通常无法判断是否得当推理正确的物体。

Pixverse-V3

该维度打分：3.5分

分析：条目生成的实体及东说念主物动作“提起”均满足，也能达成正确的推理，息争需要拿的是面包，但不得当镜头侍从和东说念主物动作“来到”，相对来说照旧弘扬得可以。

MiniMax-Video-01

该维度打分：3分

分析：条目生成的实体中，面包缺失，“提起”动作不得当，但推理正确，息争需要拿的是面包。

Prompt:高温变色马克杯告白。一个玄色高温变色马克杯正被加入滚水，逐渐变成白色的历程。要点需要凸起马克杯的变色本事。

英文prompt：High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

该prompt实体较简便，但倾向于考验水流、热气、相貌渐变等细节，畅通的细节变化频繁来说较为用功。

Sora-1080P

该维度打分：2.67分

分析：忽略prompt条目的要点，未体现出变色的历程。

可灵1.6

该维度打分：4分

分析：变色历程不完全得当条目，但相对来说较好。

Pixverse-V3

该维度打分：3分

分析：未体现正在加水，变色有体现，但不得当逐渐变白的条目。

MiniMax-Video-01

该维度打分：2.67分

分析：通常未体现出变色的历程，也无法看出是滚水。

【示例2】：物品生成雄厚性（霎时出现或隐匿）澳门六合彩

Prompt: 一款创意蛋糕的宣传告白。一把餐刀切开了蛋糕，从蛋糕的切口处涌出了草莓酱。

英文prompt：An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

该prompt重在考验通顺细节及实体之间的交互，模子在“切口处涌出了草莓酱”上弘扬得各有互异。

Sora-1080P

该维度打分：2.5分

分析：该视频中果酱屡次忽然出现和忽然隐匿，蛋糕忽然出现缺口，仅针对雄厚性较差。

可灵1.6

该维度打分：3.5分

分析：能看到刀的动作导致蛋糕出现切口，果酱的出现比较突兀不对理。

Pixverse-V3

该维度打分：3.5分

分析：果酱和刀的形态雄厚，蛋糕的切口出现较为突兀。

MiniMax-Video-01

该维度打分：3分

分析：刀和蛋糕的形态较雄厚，得当切开的状况，但果酱忽然大都出现不对理。

【示例3】：实体无理

Prompt: 生成一个动画作风的视频，本色是一个女孩正在巴黎旅行，她的眼前是埃菲尔铁塔。

英文prompt：Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

该维度打分：2.67分

分析：布景鸟群出现明显无理及不对理滞空，布景行东说念主有粘连及行走姿态明显不对理，举座不雅感上较为明显。

可灵1.6

该维度打分：4分

分析：主体东说念主物及建筑物举座的形态均较好，部分布景东说念主物出现幽微无理，举座对不雅感影响较小。

Pixverse-V3

该维度打分：3分

分析：主体东说念主物手指有幽微粘连形变，布景建筑物发生形变，不雅感上稍有不对理。

MiniMax-Video-01

该维度打分：3.5分

分析：主体东说念主物手指幽微形变，左侧出现的布景东说念主物面部有幽微诬蔑，不雅感上稍有不对理。

Prompt: 共事们正在办公室门前交谈。

英文prompt：Colleagues are talking in front of the office door.

Sora-1080P

该维度打分：2.5分

分析：东说念主物有明显的穿模，门发生的形变也较明显，影响严重。

可灵1.6

该维度打分：3.5分

分析：东说念主物举座形象较好，无明显无理，部分镜头中东说念主物手部存在形变，酿成一定的影响。

Pixverse-V3

该维度打分：3分

分析：东说念主物手指形变捏续存在且较严重，较影响视觉恶果。

MiniMax-Video-01

该维度打分：3.5分

分析：东说念主物举座形象较好，无明显无理，部分镜头中东说念主物手部存在形变，酿成一定的影响。

【示例4】：镜头妙技

Prompt: 创意视频，升镜拉镜吞并，镜头从一座起劲的城市拉升到空中、天际、六合外，需要展示出地球是其他六合高维生命手中的玻璃球

英文prompt：A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

该维度打分：3分

分析：拉镜有所弘扬，但升镜体现较差，视频举座镜头弘扬较单一。

可灵1.6

该维度打分：4分

分析：视频能较好的体现升镜、拉镜，场景变化的过度比较当然，举座畅通。

Pixverse-V3

该维度打分：3.5分

分析：升镜体现较好，但拉镜未明确弘扬，视频举座场景飘摇较畅通。

MiniMax-Video-01

该维度打分：3分

分析：拉镜有所弘扬，但升镜体现较差，视频举座恶果较为突兀。

是怎么评测的？

针对基础模子，AGI-Eval接管了不同的评测法式及不同的评测方式，包含东说念主工主不雅评测、模子打分（modeleval）、众包评测三种方式，考验模子在不同版块下是否有本事下跌、作风等影响导致榜单限定互异，反馈模子玄虚本事。

东说念主工评测

评测诠释：

给定prompt的视频，东说念主工从视频文本一致性、视频质料、通顺质料等维度玄虚给被测视频打1-5王人备值分,并标注出被测视频的过失标签;视频接管多轮标注的方式，2东说念主打分限定商量则为该prompt限定，若2东说念主打分diff则进入3标，最终3东说念主平均为被测视频最终分数。

评测想路：

视频文本一致性：是否按照prompt的条目生成视频，包括对物体、东说念主物、场景、作风、通顺细节等统共关联成分的态状是否完整盲从。

视频质料：

合感性：视频在逻辑、结构、设想、通顺轨迹等维度是否得当惯例，即，是否得当物理法令。

实在性：视频具有传神恶果，无明显AI思绪。

通顺质料：视频中的通顺弘扬是否畅通、连贯、动态恶果是否丰富。

评测集先容：

凭证一致性、通顺质料、画面质料等关节性能看法，构建了包含500条中英文对照样本的黑盒测试集，隐敝了从动作生成到情绪生成多种复杂场景和本事项及利用场景；在构建中也吞并到了物理知识和百科知识，评估生成视频的实在感和逻辑性。

评测案例：

任务类型：相互影响多实体生成

Prompt：一只猫唤醒了正在就寝的主东说念主。

模子谜底：

评测分析：

视频玄虚打分：3分

一致性：4分，实体生成得当条目，但关于“唤醒”的动作历程体现不完整。

视频质料：3分，通顺历程中东说念主物肢体、猫面部都呈现出变形。

通顺质料：3分，通顺基本连贯，临了猫爪收回动作不当然，机械感较明显。

任务类型：实体&动作生成

Prompt：跳水通顺员们正在热身。

模子谜底：

评测分析：

视频玄虚打分：1分

一致性：1分，条目的实体及动作完全未体现。

视频质料：1分，视觉中心的主体无理，场景下方也存在变形不连贯。

通顺质料：2分，下方造谣出执行体，通顺连贯性、动态恶果、通顺幅度均差。

AGI-Eval评测平台

鉴于传统评测方式难以充分响应模子的实在水平，AGI-Eval改换性地建议了东说念主机配合评测模式，探索设立高质料评测社区设立。

在这种模式下，参与者可以与最新的大模子共同完成任务，既有助于提高任务完成度又便于建立愈加直不雅的永别度。

基于前期的一些用户实验标明，通过这种方式不仅可以获取更为爽直、完善的推理历程态状，还可以进一步普及用户与大模子之间的互动体验。

将来，跟着更多雷同平台的出现和发展，信服东说念主机配合将成为评测规模的一个紧迫发展标的。

东说念主机社区荟萃：https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于实在数据回流、本事项拆解等方式，自建万量级迥殊数据，并经过屡次质检保证准确率。

黑盒100%迥殊化数据，可保证评测数据不可“穿越”。

从数据设立到模子评测，终了全层级本事样式，一级本事涵盖指示盲从、交互本事、贯通本事（含推理、知识、其他贯通本事等）；齐全终了自动与东说念主工评测相吞并。

关于Chat模子，平台官方榜单吞并主不雅、客不雅评测限定，中英文权重漫衍平衡。

客不雅评测基于模子打分，可惩办具有一定解放度问题，准确率95%+；主不雅评测基于三东说念主寂然标注，并纪录细分维度标签限定，全面会诊模子问题。

想要请求文生视频测评的一又友可以径直关连AGI-Eval团队。

AGI-Eval团队先容

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模子评测社区，以“评测助力，让AI成为东说念主类更好的伙伴”为职责。平台旨在打造自制、实在、科学、全面的评测生态，号令公共共同插足到大模子评测服务，参与数据构建及丰富兴致的东说念主机配合比赛，与大模子协同完成复杂任务，终了评测有策动共建。

AGI-Eval多模态评测可陆续全模态(any toany)模子评测(部分榜单待上线)，迎接列位模子厂商提报评测合作交流。

文生视频测评请求方式：

请使用单元邮箱，将测评照管看法、策画，照管机构、请求者先容和关连方式（手机或微信），发送到邮箱。

邮箱:[email protected]，标题是：AGI-Eval文生视频测评请求

— 完 —

量子位 QbitAI · 头条号签约

关爱咱们澳门六合彩，第一时刻获知前沿科技动态

澳门六合彩 AGI-Eval团队：AI视频生成模子年度横评，国产模子仍然跳动！

热点资讯

推荐资讯