近期,Sora的惊人表现引起了广泛关注,社交媒体和朋友圈相关信息铺天盖地,公众们惊叹于Sora制作的视觉震撼。与此同时,科技行业的大佬们也纷纷表达了自己对这一事件的看法和感受。中国出海半导体网进行了不完全统计,让我们看看各位科技大佬对这一事件的评价。
首先,文生视频并不是Sora首创,然而,作为这个赛道的新星,Sora表现出来的能力确实吊打目前赛道中的各位前辈,吴东证券对比了目前主要视频生成模型/技术,详细情况如下:
图:主要视频生成模型技术对比(来源:东吴证券)
部分技术大佬们更关注Sora技术本身,他们讨论的是Sora的架构,Sora的核心技术,Sora的实际效果。
英伟达高级研究科学家Jim Fan评价Sora是“视频生成的GPT-3时刻”、“数据驱动的物理引擎”,认为它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。
多伦多大学计算机科学AI助理教授Animesh Garg夸赞OpenAI做得好,评价Sora像是“模型质量的飞跃,它不需要快速的工程来实现随时间一致的RTX渲染质量生成”。
知名连续创业者Gabor Cselle在测试Sora关于美丽东京白雪皑皑的提示词后,得出结论称Sora在长镜头上表现得更出色。他还让谷歌Gemini 1.5 Pro观看并分析了OpenAI Sora制作的视频。Sora的原提示词描述了美丽的雪天和繁华的东京市街道,然而Gemini 1.5 Pro给出的评论指出视频存在一些不一致之处,表明可能是由AI生成的虚构场景,这个意思就是Gemini是可以识别Sora的作品是AI生成的。
PyTorch创始人Soumith Chintala从视频推测Sora是由游戏引擎驱动的,并为游戏引擎生成组件和参数。
前阿里副总裁、AI infra创业者贾扬清则直言:“真的非常牛。”他认为“对标OpenAI的公司有一波被其他大厂收购的机会”,并预言“infra的需求继续会猛增”。
FutureHouseSF联合创始人Andrew White则猜测,或许Sora可以模拟《我的世界》这个游戏,甚至下一代游戏机将是Sora box,游戏将以2-3段文字的形式发布。
周鸿祎发布了一条长微博和一个视频,预测Sora“可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具”。他认为OpenAI“手里的武器并没有全拿出来”,“中国跟美国的AI差距可能还在加大”,并指出“AGI不是10年20年的问题,可能一两年很快就可以实现”。
同时也有部分人表达了自己对于Sora的担忧。
出门问问创始人李志飞在朋友圈感慨道:“LLM ChatGPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”
美国旧金山早期投资人Zak Kukoff预测:一个不到5人的团队将在5年内用文生视频模型和非工会的劳动力制作一部票房收入超过5000万美元的电影。
GitHub Copilot主创Alex Graveley为生成式AI创企捏了一把汗:“如果OpenAI打算继续逐个行业地蚕食AI初创公司,他们应该尽快上市。构建一个只有500人受益的新经济是个糟糕的未来。”
其实,在应用层面,Sora的隐患可能更加隐晦和灰暗。就目前来看,Sora作为一个功能强大的视频生成工具,它本身只有性能的差异,却没有好坏之分的,但是上升到应用层面,它的性质就取决于使用者了,比如现在越来越逼真的诈骗视频。Sora将来如果也向民众开放,其强大的功能下会引发出什么样的人性阴暗,这个不得而知。
一方面,大家激动与Sora带来的视觉盛宴和技术革新,同时也会对其对于未来的影响产生担忧。这在科技大佬圈里,也是一样的。未来将如何发展,我们拭目以待。