AI文生视频大揭秘：像素级拆分主宰文生视频的Sora模型-号优优网

终于，OpenAI加入了AI视频生成的战场⚔️。在此之前，Runway和其他AI视频公司已经在这个领域奋战了一年多。最近，Stable Diffusion也发布了他们的AI视频工具，而Midjourney即将推出文本生成视频功能。但是，OpenAI的Sora🌌看似以碾压之势重塑了AI视频生成领域，让全球的AI视频公司感受到了压力。🛌

🔗官网链接：[OpenAI Sora](https://openai.com/sora)

Sora目前并没有公开测试入口，只通过官方视频展示了其效果。关键信息包括：最长生成60s视频，视频镜头一致性，理解物理世界，超逼真不变形。🎥

让我们一一来拆解，因为无法真实体验到Sora，以下所有的推理都基于他们在官网发布的视频。🔍

一、Sora的颠覆性功能

1.生成视频时长60s⏱️

官方只发布了一个60s时长的视频，如下面这个东京街头视频。

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

但视频并不是一镜到底的，37s后切换了一个特写镜头。它显示了Sora解决了AI视频技术难点，包括真实物理世界模拟、角色一致性和长镜头稳定性。

2.理解真实物理世界的运动方式🔄

OpenAI官方表示，Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。

比如，一个视频展示了一个毛茸茸的小怪物旁的细节处理，以及运镜的逼真程度。

提示：“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风格是3D和现实的，重点是灯光和纹理。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

提示：“美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。”

3.视频一致性🎞️

Sora还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

现在的常见AI视频工作流是用AI生成图片，然后再用图片生成视频。还有之前runway出的多重笔刷功能：AI视频可控性里程碑更新：Runway上线多重运动笔刷其实都是在为了一致性服务，并不是大家不喜欢直接用文生视频，是文生视频的一致性真的很差。现在尚不清楚Sora的多镜头保持一致性是如何做到的。

提示：赛博朋克背景下机器人的生活故事。

可以看到风格和机器人大体的的一致性都保持的很好，细节上只有机器人转身后背后的处理有一些不一样的地方（镜头二）。但是相对于之前还是一个巨大的进步。

他们具体怎么实现的这种超强一致性尚不可知，官网上提到这次的视频模型还是基于扩散模型，但是扩散模型如何做到这么好的效果可能需要等过段时间官方的技术论文了。

除了直接靠模型来保持一致性，基于图片生成视频和基于视频生成视频也是支持的，但是并不清楚是只支持它们的文生图片生成视频还是支持上传第三方的图片生成视频，因为openai也说了它们为了安全性会审查每一帧。这一切需要等他们真正的开放产品给大家用的时候了。

二、Sora的弱点⚠️

尽管Sora已经足够惊艳，但它并非无懈可击，以下是一些潜在弱点：

1.复杂场景的物理模拟：在复杂场景下，Sora可能难以精确模拟物理原理。

提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。

弱点：在这个例子中，Sora未能将椅子建模为刚性物体，导致物理交互不准确。

2.因果关系理解：Sora可能无法完全理解因果关系，导致物理建模不准确。

提示：篮球穿过篮筐然后爆炸。

弱点：不准确的物理建模和不自然的物体“变形”的例子。

3.空间细节混淆：在某些场景中，Sora可能会混淆空间细节。

提示：打印一个人跑步的场景，35毫米电影胶片。提示：打印一个人跑步的场景，35毫米电影胶片。

弱点：sora有时会产生身体上难以置信的动作。

4.时间推移中的事件描述：在描述随时间推移发生的事件时，Sora还有改进的空间。

提示：一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个快乐的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的3/4视图。温暖的色调和柔和的灯光增强了情绪。

弱点：模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性，有时会导致问题的产生。

三、OpenAI的野心：Sora是构建世界模型的基础🌐

在其他AI视频产品专注于细分领域时，OpenAI通过Sora明确表示，这只是他们构建通用人工智能（AGI）和世界模型的一个重要里程碑。这标志着AIGC领域的技术迭代正以跳跃式的速度发展，今年注定又是一个充满挑战和刺激的一年。

以上就是对OpenAI新发布的文生视频大模型Sora的像素级拆解。👀是否受到启发，我们拭目以待。🌟

声明：本文内容及配图来自互利网收集整理撰写或者入驻合作网站授权转载。文章及其配图仅供学习之用，如有内容图片侵权或者其他问题，请联系本站侵删。

相关文章

获取OpenAI API Key并使用o3-pro模型代码调用Python示例

最新！国内用户如何搞定 OpenAI API Key：保姆级获取指南与代码实战

停了N久的 ChatGPT Plus，因为 GPT-4o (03-26版) 我又续上了！

全面教程：如何获取 OpenAI o1-preview/o1-Mini API 密钥并调用 API

OpenAI下一代模型“泄漏”「草莓」和「猎户座」有望今秋发布

ChatGPT与Claude 3比较测试：Anthropic能否击败OpenAI这个超级巨星？

ai文字生成视频王者诞生！Sora：OpenAI 革命性的 AI 视频生成模型全面解析

什么是 Sora AI Openai？OpenAI Soran 如何使用？

发表评论

暂无评论，2268人围观

作者信息

似水流年

热门文章

标签列表

# ChatGPT 报错

# 人工智能

# 聊天机器人

# ChatGPT

# GPT

# GPT-4

# GPT-4-32k

# 开放人工智能

# ChatGPT注册教程

# ChatGPT注册攻略

# ChatGPT注册手机号

# Claude 2

# Anthropic

# OpenAI

# ChatGPT Team

# Sora

# Google

# Gemini AI

# Claude 3

# ChatGPT Plus

# gemini 1.5 Pro

# GPT-4o

# Claude

# api

# key

目录[+]