Sonic-3 – Cartesia推出的实时语音对话模型,支持多种语言的自然语音输出Cartesia 公司推出新一代实时对话文本转语音模型 Sonic-3,该模型基于 State Space Model(SSM)架构打造,推理延迟低至 90 毫秒,端到端响应仅需 190 毫秒,是最快...发现资讯6个月前01,0250
NeuTTS Air – Neuphonic开源的语音合成模型,提升语音合成的自然度和准确性NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型,支持多种操作系统和设备平台,包括移动设备、个人电脑、树莓派等,易于集成到各种应用中。NeuTTS Ai...发现资讯7个月前01,0200
NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型,推理速度提升6倍新发布的NVIDIA Nemotron Nano 2不仅实现了同尺寸模型下的最高准确率,并且还加入了可配置的“思考预算”功能,支持用户控制输出的Token的数量,让AI智能体在更深入的思考和更快的执行...发现资讯9个月前01,0140
爱诗科技推出的AI视频生成模型–PixVerse V5 ,支持多种视频风格爱诗科技正式发布新一代自研大模型PixVerse V5,并同步上线全新Agent 创作助手。此次升级全面优化了动态效果、超清视觉处理、一致性保持、指令遵循等核心环节,不仅延续极速生成优势,还在视频真实...发现资讯8个月前01,0120
JamBot 是一个由人工智能驱动的工具,帮助设计师激发创意灵感JamBot 是一个由人工智能驱动的工具,存在于Figma的FigJam中。它旨在帮助用户更快地启动初稿并加速进展。使用JamBot,用户可以与ChatGPT一起在同一画布上创建视觉思维导图、采取多线...发现资讯9个月前01,0120
Seede.ai – AI设计助手,1分钟内生成专业级设计Seede AI 是一款以“简化设计流程”为核心的AI图形设计工具,用户只需输入文字描述或上传参考图片,即可在1分钟内生成专业级设计,无需设计经验。致力于让用户无需专业设计经验即可快速生成高质量视觉作...发现资讯9个月前01,0110
最新开源的轻量级文本转语音模型–KittenTTS ,无需联网即可生成语音,适合离线场景。KittenTTS是一款开源的轻量级文本转语音(TTS)模型,是发布的新款开源文本转语音模型 ——Kitten TTS。这一模型的设计目标是实现高质量的语音合成,同时保持轻量级和高效能,适合在各种设备...发现资讯10个月前01,0090
SpatialGen – 群核科技开源的3D场景生成模型,生成具有时空一致性的多视角图像SpatialGen是一款基于扩散模型架构的多视角图像生成模型,可根据文字、参考图和3D空间布局,生成具有时空一致性的多视角图像。SpatialGen 可根据文字描述、参考图像和3D空间布局,生成具有...发现资讯8个月前01,0080
Genie Envisioner——智元机器人发布了业内首个开源的机器人世界模型平台智元机器人发布了业内首个开源的机器人世界模型平台——Genie Envisioner(GE),这一平台的推出标志着机器人学习技术迈出了重要一步。该平台的核心在于其高度集成的闭环架构。其中,GE-Bas...发现资讯10个月前01,0070
UserLM-8b – 微软开源的用户对话模拟模型,支持生成多种用户话语userlm-8b 是由微软发布的一款专注于模拟对话中“用户”行为的语言模型,与传统扮演“助手”角色的模型不同。该模型基于大量真实对话数据进行训练,能够生成贴近真实用户表达方式的对话内容。具备生成用户...发现资讯7个月前01,0060