ERNIE-4.5-VL – 百度文心开源的新一代多模态AI模型,新增视觉定位与”图像思考”功能百度文心4.5系列模型重磅开源,其中 ERNIE-4.5-VL 视觉语言模型(ERNIE-4.5-VL-28B-A3B;ERNIE-4.5-VL-424B-A47B)以卓越的图文视频理解能力,支持10...发现6个月前07660
SIMA 2 – 谷歌DeepMind推出的最新一代AI智能体,响应时间压缩到200毫秒以内SIMA 2是谷歌DeepMind开发的一个智能体,它具备观看屏幕和操作虚拟键盘与鼠标的能力,能够在复杂的3D环境中进行推理与学习。采用“Gemini-SIMA Fusion”三层架构,包括决策中枢...发现5个月前07640
火山引擎推出的AI视频生成模型– 1.0 pro fast ,速度提升约3倍,成本降低72%火山引擎正式上线豆包视频生成模型 1.0profast。该模型在继承 Seedance1.0pro 模型核心优势的基础上,实现了显著的效率突破:生成速度最高提升约 3 倍,价格直降 72%。pro f...发现资讯6个月前07640
VibeVoice – 微软推出的开源文本转语音模型,支持动态对话和交互式应用近日,微软研究院提出了一种全新的语音生成模型 VibeVoice。它能够将文字脚本直接转化为流畅、自然的长对话音频。创作者无需再为音色匹配、语速调整、对话间隔等细节问题耗费精力,只需提供一份带角色标注...发现资讯8个月前07640
Voost – 创新的双向虚拟试穿和试脱AI模型,增强服装与身体的关系推理能力。NXN Labs的研究团队开发了一个叫做Voost的人工智能系统,旨在提升虚拟试衣和试脱技术的表现。就像是一个超级聪明的"换衣魔法师"。这个系统最神奇的地方在于,它不仅能让你"试穿"任何衣服,还能从穿...发现资讯9个月前07620
Veo 3.1 – 谷歌推出的AI视频生成模型,能快速生成高质量的视频谷歌正式发布最新一代AI视频生成模型 Veo 3.1,该模型支持生成4秒、6秒或8秒的720P或1080P视频片段并自带音轨,可通过文本提示、图像或视频片段输入生成内容,提供首尾帧插值、场景延展及多图...发现资讯7个月前07610
FastVLM – 苹果开源的视觉语言模型,能够准确理解和生成与图像内容FastVLM是一款专为高分辨率图像处理优化的视觉语言模型,基于苹果自研的MLX框架开发,专为Apple Silicon设备量身定制。FastVLM支持完全本地化处理,无需依赖云端上传数据,完美契合苹...发现资讯9个月前07610
零一万物联合开源中国发布–Open AgentKit 平台,支持高效架构设计和协作,快速搭建复杂的Agent系统。零一万物与开源中国联合发布的Open AgentKit(OAK)平台,一款专为开发者打造的AI Agent一站式开发开源解决方案。该平台支持对接多种开源大模型,旨在与全球开发者共同打造一款开放、通用的...发现资讯6个月前07600
Bee – 清华联合腾讯开源的全栈多模态大模型解决方案,项目1500万规模的监督微调数据集Bee 清华联合腾讯开源的全栈多模态大模型解决方案目,旨在通过结合清华大学的科研成果和腾讯的技术实力,推动多模态数据处理和人工智能技术的广泛应用。Bee不只是一个模型,它是一套全栈式、完全开放的解决方...发现5个月前07590
Rocket.new – AI编程平台,快速构建和部署全功能的 Web 和移动应用Rocket.new致力于通过自然语言指令直接生成可投入实际使用的生产级应用。这一战略定位使其在AI驱动开发的激烈赛道中脱颖而出,展现出独特的竞争力。Rocket.new首次生成应用平均耗时约25分钟...发现资讯7个月前07590