发布时间:2025-05-19 点此:224次
来历:新经济IPO
在OpenAI文生视频大模型Sora发布后,国内企业争相入局,国产文生视频大模型迈入加快阶段。近来,又一国产视频大模型参加战局,快手“可灵”视频生成大模型官网正式上线。相较此前各家放出的视频大模型以展现视频为主,本次露脸的可灵大模型不光作用对标Sora,且已在快手旗下的快影App敞开邀测体会。
可灵大模型官网
作为短视频范畴头部玩家,快手在短视频视频技能方面有多年的深化堆集,其视频生成大模型也有天然、广泛的使用场景。可灵大模型为快手AI团队自研,选用类Sora的技能道路并结合多项自研立异技能,具有许多优势:1、能够生成大起伏的合理运动;2、能够模仿物理国际特性;3、具有强壮的概念组合才能和幻想力;4、生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支撑自在的宽高比。详细而言:
可灵大模型能够生成大起伏的合理运动。可灵选用了3D时空联合注意力机制,能够更好地建模视频中的杂乱时空运动。因而,可灵大模型不只能够生成较大起伏的运动,且更契合客观运动规则,能够实在做到让幻想力动起来。下面宇航员在月球上奔驰的比如中,跟着镜头渐渐抬升,咱们能够看到宇航员跑步的动作流通轻盈,步态和影子的运动合理恰当。
prompt:一名宇航员在月球外表奔驰,低视点镜头展现了月球的宽广布景,动作流通且显得轻盈(视频详见官网)
能够模仿实在物理国际的特性。得益于自研模型架构及Scaling Law激宣布的强壮建模才能,可灵大模型为咱们构建起了一个无限迫临实际的幻想空间,无论是实在国际的光影反射,重力影响下的流体运动,仍是与物理国际的交互,可灵大模型都能够生成契合物理规则的视频。下面是小男孩吃汉堡的生成视频,一口咬下去,汉堡被咬掉一个大大的缺口,并在视频中一向坚持。能够看到小孩咀嚼汉堡的享用表情,脸部的肌肉动态十分传神。
prompt:一个戴眼镜的我国男孩在快餐店内闭眼享用甘旨的芝士汉堡(视频详见官网)
具有强壮的概念组合才能和幻想力。凭仗模型对文本-视频语义的深刻理解和根据 Diffusion Transformer 架构学到的强壮概念组合才能,可灵大模型能够将用户丰厚的幻想力转化为详细的画面,让构思触手可及。下面的视频展现了熊猫吉他手坐在湖边弹着吉唱着歌的幻想场景。
prompt:一只大熊猫在湖边弹吉他(视频详见可灵官网)
可灵大模型生成的视频分辨率高达1080p、时长高达2分钟(帧率30fps),且支撑自在的输出视频宽高比。可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰厚细节的视频,能够生成高达1080p分辨率30fps的视频。得益于高效的练习根底设施、极致的推理优化和可扩展的根底架构,可灵大模型能够生成长达2分钟的视频。在推理过程中,还能够做到相同内容输出多种视频宽高比。一起,可灵官网还展现了分钟级的视频生成作用,能够跟从镜头看到,小男孩骑自行车旅游花园,在一镜究竟中穿越春夏秋冬四季的景色。
大模型的生成作用取决于数据的规划和质量、以及大规划练习的功率。可灵大模型在研制过程中,配套建设了高效的大规划主动化数据解决计划,覆盖了海量视频发掘、多维打标挑选、视频描绘增强、及数据驱动的作用质量评价等多个方面。在练习过程中,选用了多种核算优化和通讯优化计划,极大提高了GPU和网络带宽利用率,并经过主动毛病检测和failover等机制,供给了分钟级毛病恢复才能。保证了短时间内模型作用的快速提高。
快影App的AI创造功用中已正式敞开文生视频功用的邀测,支撑创造者请求并体会可灵大模型最新的文生视频功用,图生视频功用也将于近期敞开。
此外,根据可灵大模型,更多使用方向也现已或行将落地。例如,根据肢体驱动的“AI舞王”功用已在快手和快影App成功落地,用户只需上传一张全身或半身相片,即可体会一键跳舞的趣味。近期还将首发上线“AI唱跳”新玩法,能够一起驱动表情和肢体动作,仅需一张相片就能生成唱跳“爱你”的生动视频。
跟着AI大模型年代降临,作为头部短视频公司,快手已打开全面布局。揭露材料显现,快手已先后发布通用大言语模型“爽快”、文生图大模型产品“可图”,还推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频关键技能,引发了广泛重视。据悉,随同此次可灵大模型的发布,快手将继续加快大模型的研制与使用,带来愈加多元的AI创造与互动体会。