Sora

OpenAI发布的首个文生视频模型

条目

历史版本

Sora，是指OpenAl在2024年2月16日发布的首个文本生成视频模型。为全方位展示Sora的功能，OpenAI同时发布了48个由Sora直接生成、未经修改、长度不等（9秒~60秒）的视频。^[3]^[4]^[5]^[6]于北京时间12月10日正式推出。^[2]

Sora继承了Dall·E-3的画质和遵循指令能力，可以根据用户的文本提示快速制作长达一分钟的高保真视频，还能获取现有的静态图像并从中生成视频。该模型能够理解复杂场景中不同元素之间的物理属性及其关系，了解这些物体在物理世界中的存在方式，^[7]从而深度模拟真实物理世界，生成具有多个角色、包含特定运动的复杂场景。^[4]^[8]^[9]^[10]^[11]^[5]^[12]

Sora的发布使内容创作领域的专业难度降低，作为实现通用人工智能（AGI）的重要里程碑，其问世标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。^[9]^[8]^[12]^[5]^[4]^[13]

行业背景

OpenAI在大模型领域的探索