Sora的狂欢、世界模型和AGI -
编者按:Sora是OpenAI发布的一款视频生成模型,采用了Diffusion Transformer架构,旨在实现高保真度和视频图像的前后一致性。其突出之处在于能够生成逼真流畅的视频内容,令人惊叹不已。Sora 一经推出便在极短的时间内迅速引起了科技界和社会各界的关注,同时也引发了关于AI技术发展和产业变革的激烈讨论,日前,MoPaaS 魔泊云创始人和CEO鲁为民博士参与腾讯科技举办的:与硅谷专家和创业者共同探讨:Sora的商业逻辑与技术创新分析直播活动,同硅谷专家和创业者共同深入探讨了Sora模型的技术
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2 -
文生视频这个战场,入局的玩家越来越多了。这次是阅后即焚 SnapChat 背后的公司。 最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。 当然,随着视频生成这波 AI 趋势的继续演进,类似架构的模型会越来越多。就在昨天,开发出 SnapChat 图片分享软件的 Snap 公司、特伦托大学
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速 -
作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。在报告公布后,Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合著的论文《Scalable Diffusion Models with Tran
Stable Diffusion WebUI 笔记 -
Stable Diffusion WebUI 笔记 遇到的问题及解决方案 问题1: 执行 ./webui.sh 报错 clang: error: invalid version number in '-mmacosx-version-min=14’ 原因及解决方法 发现问题不在于 -mmacosx-version-min=14,而是 clang 的问题。 由于之前安装过 scan-build,间接安装了位于 /opt/homebrew/bin/clang 的 clang,这个版本与 /usr/bin/c
Gitee 推荐 | 多模型对话 ChatMaster -
Chat Master Web 声明:此项目只发布于码云,基于 MIT 协议,免费且作为开源学习使用。并且不会有任何形式的卖号、付费服务、讨论群、讨论组等行为。谨防受骗。 项目框架基于chatgpt-web项目改造,页面UI借鉴ChatGLM项目。后端项目使用java服务搭建,如需使用移步ChatMASTER,支持ChatGPT(3.5、4.0)模型,同时也支持国内文心一言、通义千问、讯飞星火、智谱清言(ChatGLM)等主流模型,支持文心一言(Stable-Diffusion-XL作
Stable Video文本生成视频——Scaling Latent Video Diffusion Models to Large Datasets 附公测地 -
近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。 Stable Video Diffusio
Text Inversion: 比 Lora 更简单地训练人脸【Stable Diffusion 炼丹教程】 -
Stable Diffusion的最大魅力体现在其DIY的能力上。它不是什么图都能画出来,但是我们可以根据自己的需求,训练它成为我们想要的样子。 其中,Text Inversion 就是一种最简单有效的训练方式。它比 Lora 训练更简单,对数据集的要求比较低,适合入门。 它的训练过程和 Lora 有很多共通的地方,熟练掌握的话对于后期 Lora 训练也是很有帮助的。 和 Lora 一样,它也可以用来训练任何人脸,生成任何人的照片。 其实,早在一年以前,就有很多关于它的教程。然而,那时的 WebUI 跟现在
社区供稿 | 1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布 -
作者|字节跳动智能创作团队很高兴跟大家分享我们最新的文生图模型 —— SDXL-Lightning,它实现了前所未有的速度和质量,并且已经向社区开放。模型:https://huggingface.co/ByteDance/SDXL-Lightning论文:https://arxiv.org/abs/2402.1392901闪电般的图片生成生成式 AI 正凭借其根据文本提示(text prompts)创造出惊艳图像乃至视频的能力,赢得全球的瞩目。当前最先进的生成模型依赖于扩散过程(diffusion),这是一
ICLR 2024 | 国内高校打造类Sora模型VDT,通用视频扩散Transformer -
前言 2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。为什么 Sora 坚持使用 Diffusion Transformer,其中的原因从同时期发表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的论文可以窥见
英伟达新显卡发布!笔记本AI画图提速14倍,轻薄本也能当AI工作站 -
金磊 西风 发自 凹非寺量子位 | 公众号 QbitAI黄院士的新核弹,来了!全新消费级显卡,专为提速笔记本大模型应用而生。就在这两天的MWC上,英伟达重磅推出了全新GPU——RTX 500和RTX 1000。有多快?根据官方的说法:比起只使用CPU,全新RTX 500可以为Stable Diffusion等模型提供高达14倍的生成式AI性能!不仅如此,搭载RTX 500后,用AI进行照片编辑的速度也将提高3倍,3D渲染图形的性能更是提高了10倍。更重要的是,RTX 500和RTX 1000是用于轻薄笔记本
下滑推荐(鼠标滚轮下滑)