SAM 3D – Meta开源的3D生成模型,单张图像重建 3D 物体和场景sam 3d 是由 meta 开发的前沿 3d 生成模型,可从一张二维图像推断出物体的深度图、三维网格、表面法线以及材质属性,实现完整的 3D 结构重建。不仅能复原物体,还能直接生成可编辑、可组合的 ...发现5个月前07020
腾讯AI Lab推出的全长度歌曲生成模型–SongBloom ,仅需 10 秒音频样本和对应歌词SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,能够快速生成完整歌曲,支持双通道、48kHz ...发现资讯7个月前06970
vivo Vision探索版 – vivo推出的首款MR头显设备,支持观看空间照片与视频、3D电竞赛事直播vivo Vision发布会暨影像盛典正式开启,vivo Vision探索版正式亮相,这是蓝厂首款MR头显。vivo Vision从一开始立项,“减重”就是核心命题,因为太重的话大家就很难长时间沉浸体...发现资讯9个月前06940
MegaLLM – AI模型API聚合平台,一个API访问多个主流模型MegaLLM AI是为开发者提供统一API接口的人工智能平台,旨在简化对多个主流AI模型的访问和管理。用户可以轻松地访问和利用来自不同提供商的AI模型,从而提高开发效率并减少集成多个模型的复杂性。平...发现4个月前06920
FIBO – 开源的图像生成模型,支持快速迭代和精准控制,提升创意效率。FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成,能够根据用户输入的文本描述快速生成高质量的图像。支持将简短的文本提示扩展为详细的结构化JSON描述,能将简短的文本提示自动扩展为长达千字...发现资讯6个月前06920
混元图像3.0 – 腾讯开源的原生多模态图像生成模型,支持多种风格的图像生成腾讯混元最新发布并开源原生多模态生图模型——混元图像3.0,这是首个开源工业级原生多模态生图模型,也是目前效果最好的开源生图模型。混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并...发现资讯7个月前06920
LongCat-Video-Avatar – 美团开源的数字人视频生成模型,支持音频文本生成视频LongCat-Video-Avatar 是由美团开源的一个基于深度学习的视频生成模型,旨在生成高质量的数字人视频。支持音频、文本或图像输入生成拟真视频,通过创新技术提升动作自然度、长视频稳定性及角色...发现资讯4个月前06910
UniWorld 团队推出的图像编辑模型–UniWorld V2 ,能理解和生成复杂的艺术中文字体UniWorld 团队推出了新一代图像编辑模型 ——UniWorld-V2。这一模型不仅在图像处理的细节控制上超越了 Nano Banana,更在理解中文指令方面表现出色。UniWorld-V2模型的...发现6个月前06910
SHARP – 苹果开源的3D场景生成AI模型,支持实时渲染高分辨率的 3D 视图Apple 近日开源了一款名为 SHARP的人工智能模型,该模型能够在不到一秒钟的时间内,仅凭一张普通的 2D 照片生成高度逼真的 3D 场景表示。它打破了传统3D 重建动辄数小时的耗时瓶颈,仅需不到...发现资讯4个月前06900
WhisperLiveKit – 开源AI语音识别工具,支持多种语言,能将语音实时转录为文字WhisperLiveKit是一款本地部署的AI会议工具,能够实现语音实时转录并识别不同说话人,解决了传统语音转写工具的非实时性、隐私风险和说话人混淆问题。支持实时语音转文字和说话人识别功能,适用于会...发现资讯8个月前06870