新闻资讯

快手可灵发布2.0版本:上线多模态视频编辑功能

随着AI生成视频日渐走红,如何准确将用户心中的想法转化成AI视频,成为难题。用户常常发现,仅仅依靠文字很难描述自己的需求。

快手可灵发布2.0版本:上线多模态视频编辑功能
(图侵删)

4月15日,快手旗下可灵AI宣布,面向全球发布可灵2.0视频生成模型及可图2.0图像生成模型,快手高级副总裁、快手社区科学线负责人盖坤向澎湃新闻记者表示,“AI在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在AI生成内容的稳定性、以及用户复杂创意的精确传达上仍有很多挑战。”

此次2.0版本的迭代中,最受关注的便是多模态视频编辑的新功能:可灵AI使用全新交互理念Multi-modal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度创意,高效传达给AI。同时,用户可以直接把自己的想法用图像等方式表作为输入,生成符合自己想法的创意视频。

盖坤介绍,MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现AI创作者们的创意表达。他表示,MMW(多模态描述子)将不只局限于图片和视频,也可以引入其它模态的信息,例如声音、运动轨迹等,让用户实现更加丰富的表达。

数据显示,自去年6月发布以来,可灵AI已累计完成超20次迭代。来自世界各地的超1.5万开发者和企业客户,将可灵的API应用于不同的行业场景中。自去年6月上线至今的10个月时间里,可灵AI的月活用户数量增长25倍,截至目前,全球用户规模突破2200万。

据盖坤介绍,可灵和可图两款模型在团队内部的多项胜负率评测中,均稳居业内之一。例如在文生视频领域,可灵2.0对比谷歌Veo2的胜负比为205%,对比Sora的胜负比达367%。

值得注意的是,当前图生视频约占到可灵AI视频创作量的85%,图片质量也对视频的生成效果产生重要作用。

据快手副总裁、可灵AI负责人张迪介绍,可图2.0文生图能力也迎来全面升级,在风格化响应上,可图2.0可支持60多种风格化的效果转绘,模型出图创意和想象力实现大幅跃升。

同时,可图2.0也上线图像可控编辑功能:局部重绘和扩图,支持图片的增加、修改和修复。在图像的多模态可控生成中,可图2.0还上线风格转绘功能,只需要上传一张图片加上风格描述,就能一键切换图片的艺术风格,同时精准保留原图的语义内容。

除C端订阅用户,可灵AI也面向B端商家提供API接入等服务。目前,可灵AI已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立合作关系。

在营收数据方面,快手2024年三季度财报数据显示,可灵AI在2024年9月实现月活超150万;商业化单月流水也超过千万人民币。另据2024年快手四季度及全年财报,自可灵AI开始商业化变现至2025年2月,可灵AI的累计营业收入已经超过1亿元

AI视频是互联网公司集体发力的赛道,去年12月,腾讯混元大模型发布AI视频生成大模型,同时宣布开源,参数量达到130亿,为当时更大的视频开源模型,字节跳动、MiniMax、智谱AI等国内大厂和头部初创公司也推出了相应产品。

  • 登陆港交所不到三个月,宜宾银行行长杨兴旺辞任
  • 多架歼-16展开多批次、全天候、高强度的空中加油训练
  • 携手81个国家和区域一体化组织,中国加入这个共同维护国际渔业秩序的协定
  • 韩国将提供额外9万亿韩元融资以帮助出口商
  • 时隔20年再修,《国家突发公共事件总体应急预案》有何新变化?
  • 王一楠评《墨梅》|咏花人的跨媒介言说
  • 尊界S800将首次实车公开亮相上海车展
  • 美债崩溃说明了一切!华尔街:特朗普正在支付“白痴溢价”
  • 海尔智家4月10日耗资约505.2万元回购20万股A股
  • 停牌一年多,“水果第一股”传利空!涉嫌骗取贷款等事项,多位高管被立案侦查
  • 重庆荣昌区委书记:节假日公共市政停车全免费,路边停车不罚款
  • 释新闻|新加坡公布新一届大选日期,有何考量?
  • 深圳南山区发布支持创新创业“六个一”行动方案
  • 拒绝按特朗普要求整改,哈佛大学22亿美元政府拨款遭冻结
  • 方向盘加热功能还得付费订阅?新能源汽车消费纠纷调查
  • 关键词: