谷歌发布了一个用于视频生成的大语言模型videopoet-凯发体育app

2023年12月21日下午7:27 • 工具软件

谷歌发布了一个用于视频生成的大语言模型videopoet，这个有点意思。这个是一个专注于视频生成的多模态 llm 。支持各种视频生成功能以及音频生成，让 llm 来指导完整的视频生成工作，几乎全能了，不只是生成还有各种视频编辑、声音生成。

同时这种方法还能解决现在视频模型无法生成动作幅度过大视频的问题。演示视频是用videopoet生成的浣熊故事。

具体功能：
❖支持从视频内容中获取信息自动生成环境音频，这个很强。
❖通过纯文本提示生成视频，视频输出长度是可变的，同时可以响应文本中的动作和风格。
❖支持从图像生成视频。
❖支持将视频转换为别的风格，主要通过深度和光线信息进行控制。
❖通过对视频最后1 秒的条件化可以生成很长的长视频。
❖支持对输入视频通过文本控制生成更长的后续视频。
❖图像生成可以对生成视频对象的动作进行文字控制。
❖支持各种类型的镜头控制。

实现方法：
与其他基于扩散方法的模型不同，videopoet 将多个视频生成功能集成到单个 llm 中，并利用 llm 训练基础设施提高效率。 videopoet 使用多个分词器处理视频、图像、音频和文本数据，可以生成可转换回可视化表示形式的标记。它可以生成纵向定位（portrait orientation）适合短格式内容的视屏，并通过链接后续预测片段来演示如何生成更长时间的视屏。

评估结果：
评估过程中人们选择了24-35%的videopoet示例，认为其比竞争模型更好作为提示，而竞争模型的选择率为8-11%。
评分者还更喜欢41-54%的videopoet示例，认为其动作更有趣，而其他模型的选择率为11-21%。
收起

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/yun271565.html

模型生成视频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

上一篇 2023年12月21日下午7:26

midjoourney v6 beta 版本更新后缀加 –v 6就可以

下一篇 2023年12月21日

阿里开源支持视频理解的多模态 llm qwen2-vl

阿里开源支持视频理解的多模态 llm qwen2-vl 国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的qwen2-vl 72b 没有开源，只开…

工具软件 2024年9月20日
一亿上下文长度的 llm：ltm-2-mini

一亿上下文长度的 llm：ltm-2-mini magic 发布了一个具有 1 亿 token 上下文的模型 ltm-2-mini。1 亿 token相当于大约 1000 万行代码…

工具软件 2024年9月20日
open ai 新的推理模型已经训练完成

open ai 新的推理模型已经训练完成高质量合成数据的重要性再一次被证明。 open ai 的逻辑是使用一个足够庞大且非常不经济的推理模型（strawberry）生产优质合成数…

工具软件 2024年9月20日
工具软件

polymet ：ai 生成前端界面

polymet ：ai 生成前端界面 yc 投了一个类似v0 的前端代码生成项目 polymet。这个比 v0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
工具软件

morphic studio：为创建受控视频做的 ai 视频平台

morphic studio：为创建受控视频做的 ai 视频平台 morphic studio 包括 canvas 和 compose 功能，canvas 是一个全面的故事板和生成…

2024年8月31日
工具软件

the ai scientist：可以进行自主科学发现和论文撰写的 agents

the ai scientist：可以进行自主科学发现和论文撰写的 agents sakana ai 宣布开发了一个名为 “the ai scientist” 的系统，它能够自动化…

2024年8月31日
工具软件

clapper app：ai 剪辑工具

clapper app：ai 剪辑工具非常强的网页端 ai 生成和视频剪辑工具。接入了 ai 视频需要的各种 api，包括图片生成、llm、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
工具软件

xai 发布 grok-2 系列模型

xai 发布 grok-2 系列模型老马的 xai 发布 grok-2 beta 版本。在lmsys的成绩超过了claude 3.5 sonnet 和 gpt-4-turbo。 …

2024年8月31日
工具软件

jamba 1.5系列模型：非 transformer 模型首次追上先进模型

jamba 1.5系列模型：非 transformer 模型首次追上先进模型 ai21 推出了新的 jamba 1.5 模型家族，包括 jamba 1.5 mini 和 jamba…

2024年8月31日
工具软件

ideogram 发布了 2.0 图像生成模型

ideogram 发布了 2.0 图像生成模型图像生成质量大幅提高，产品易用性改善，最强的文字生成能力。尝试了一下发现真的很离谱，不只是文字生成这么简单，可以实现复杂排版搭配色彩…

2024年8月31日
iphone相机在室内灯光下闪烁/闪烁：修复

您的 iphone 相机在室内灯光下闪烁或闪烁太多吗？您用 iphone 拍摄的视频看起来不太好，因为灯光会亮起。您在视频上看到的闪烁是因为刷新率的差异。这是不正常的，有一些方法可…

2024年6月1日 • 苹果apple
google gemini 登陆 opera，以下是使用方法

像microsoft和谷歌这样的大型科技公司正在全力以赴地整合各自的人工智能模型。根据最近的发展，opera 的 aria ai 现在可以访问 google cloud 的 gem…

谷歌google 2024年5月30日
工具软件

user evaluation：ai 帮助进行用户研究

user evaluation：ai 帮助进行用户研究 user evaluation 是一个利用人工智能（ai）来提升用户研究和数据分析的工具。功能特点 ai驱动的转录：支持5…

2024年5月20日
工具软件

wegic：即时设计团队推出的 ai 网页生成工具

wegic：即时设计团队推出的 ai 网页生成工具尝试了一下，wegic 这个 ai 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 ip 都太…

2024年5月20日
工具软件

viva：首个可供使用的 dit 架构视频生成工具

viva：首个可供使用的 dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

google i/o 发布会的内容

google i/o 发布会的内容 google 紧随 open ai 开了今年的 i/o 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。…

2024年5月20日
关于gpt-4o 模型更新

关于gpt-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

deepseek 发布 deepseek-v2 模型

deepseek 发布 deepseek-v2 模型 deepseek 上周发布了deepseek-v2模型，将现在优秀 llm 的价格战又抬上了一个新的高度，百万 token 输…

2024年5月20日
indigo关于发布会预测的整理

indigo关于发布会预测的整理 gpt-4 的新版应该会按照参数规模不同分化成多个版本，这个和 claude 还有 gemini 多版本的逻辑一样；前两周出现在 llmsys …

工具软件 2024年5月20日
simulon：混合现实 3d 模型软件

simulon：混合现实 3d 模型软件只需要下载app扫描周围环境，然后选择对应的模型。之后等几分钟就会渲染好跟现实环境融合的mr视频。没有凯发体育app官网只有申请测试的表单。 …

工具软件 2024年5月10日
synthesia：express-1 模型驱动的数字人

synthesia：express-1 模型驱动的数字人 express-1 模型驱动，以实现逼真的头像表现。通过训练模型理解我们说什么以及我们如何说的微妙关系，表达力化头像现在可…

工具软件 2024年5月10日
工具软件

生数科技发布vidu 视频生成模型

生数科技发布vidu 视频生成模型生数科技不声不响整了个大活。发布 vidu 视频生成模型，支持长达 16 秒 1080p 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
工具软件

adobe 发布 firefly image 3 模型及对应新功能

adobe 发布 firefly image 3 模型及对应新功能 adobe 发布了firefly image 3模型，photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

微软发布 phi-3-mini 微型模型

微软发布 phi-3-mini 微型模型微软发布 phi-3-mini 模型，4 位量化之后可以部署在 iphone 14 上，只占用 1.8g 内存，每秒输出 12 个 tok…

2024年5月10日
captions：ai 自动视频剪辑工具

captions：ai 自动视频剪辑工具 captions 这个产品可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。生成的短视频可以选择对应的字幕模板，并且支…

工具软件 2024年5月10日

谷歌发布了一个用于视频生成的大语言模型videopoet-凯发体育app

相关推荐