GLM-TTS – 智谱开源的AI文本转语音模型,支持多种方言和特殊语音的合成智谱正式发布工业级语音合成系统 GLM-TTS,只需录音3秒,或者上传3秒-10秒的录音文件,即可快速克隆你自己的声音。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人...发现资讯5个月前07220
HuMo – 清华联合字节推出的多模态视频生成框架,实现最高级别定制和控制。字节开源的Humo模型支持文生视频、图生视频及音频生成视频,可结合文本、图像与音频多模态输入,并支持多图参考合成。HuMo 框架具备强大的多模态输入处理能力,可以同时利用文本、图像和音频三种信息,协同...发现资讯8个月前07220
Qianfan-VL – 百度开源的视觉理解模型,最高支持4K分辨率输入百度智能云千帆正式推出全新视觉理解模型 ——Qianfan-VL,共推出了3B、8B和70B三个版本,参数量覆盖从小到大的范围,能够灵活适应从边缘计算到云端推理的各类应用场景,并全面开源。 Qianf...发现资讯7个月前07180
Devstral 2 – Mistral AI开源的新一代编程模型系列,支持在大型代码库中进行复杂的代码修改和重构Mistral AI 推出新一代编程模型家族 Devstral 2,支持端到端自动化编程,相比参数规模更大的闭源模型,其成本效率高达7倍以上,特别适合大规模自动化编码任务,其核心优势在于支持跨文件协同...发现资讯5个月前07170
Code Wiki – Google推出的AI代码文档生成工具,自动化生成和更新代码文档Google 推出 Code Wiki,一款 AI 代码文档生成工具,能够自动分析 GitHub 代码仓库并生成结构化的 Wiki 文档。该工具自动绘制调用关系和组件关系图,并在代码更新时同步更新文档...发现5个月前07170
EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架,实现高效的模型训练和快速的动画生成。EchoMimicV3 是由蚂蚁集团研发的一款高效、多模态、多任务的数字人视频生成框架。该模型拥有 13 亿参数,采用任务混合与模态混合的创新范式,结合独特的训练与推理策略,能够在多种输入条件下实现快...发现资讯8个月前07150
AudioFly – 科大讯飞开源的文生音效模型,支持本地部署、推理和微调。主要介绍 AudioFly是科大讯飞推出的开源文生音效模型,基于潜在扩散模型(LDM)架构,能够根据文本描述生成高质量音频。该模型支持44.1kHz采样率,在文本与音效的匹配度上表现优异,适用于短视频...发现资讯7个月前07140
360集团推出的L4级智能体系统升级为–-多智能体蜂群360集团正式宣布纳米AI升级为“多智能体蜂群”。这标志着纳米AI成为全球首个真正迈入L4级别的智能体系统,颠覆了以往智能体的工作范式——它实现了智能体从“单兵作战”到“群体协同”的物种级进化,像蜂群...发现资讯10个月前07140
MemMachine – 开源AI记忆系统,实现高效记忆管理MemMachine是解决AI Agent长期记忆问题的开源项目,通过双层记忆系统实现真正的记忆功能,而非简单的RAG检索。MemMachine通过情景记忆、语义记忆和用户画像记忆,帮助AI应用学习...发现资讯5个月前07130
xAI 公司发布的最新人工智能模型 –Grok 4.1,直接生成回应,响应速度更快马斯克旗下的 ai 公司 xai 正式发布 grok 4.1,宣称该模型在对话智能、情感理解与实际应用能力方面实现了全新突破,重新定义了行业标杆。Grok 4.1通过采用一套代理型模型进行自动风格调整...发现5个月前07130