小米推出首个跨领域具身大模型–MiMo-Embodied ,支持复杂动态环境中的多模态交互,小米集团正式发布具身大模型MiMo-Embodied,并宣布该模型全面开源。该模型的创新之处在于构建了一个统一的技术架构,首次实现了两大领域核心任务的协同处理。整合了自动驾驶和具身智能两大领域的任务...发现5个月前07990
手把手教你本地部署 ComfyUI,轻松玩转 AI 视频生成一、本地玩AI的前提条件 想本地折腾的同学先看这里:1、首先,你要有一张英伟达的显卡,AMD显卡用户看到这里可以放弃了。2、想在本地跑 AI 模型,显存容量的大小是首要门槛——它决定了你的电脑能不能跑...发现# comfyui7个月前07990
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...发现资讯9个月前07990
SpatialLM 1.5 – 群核科技发布空间大语言模型,助力解决机器人训练数据难题。SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。可根据文字描述、参考图像和3D空间布局,生成具有时空一...发现资讯8个月前07970
Jetson Thor – 英伟达推出的机器人AI计算平台,兼容多种生成式AI框架,能构建丰富生态系统。英伟达正式发布机器人专用计算平台Jetson Thor,其AI算力达到前代产品的7.5倍(即提升6.5倍),能效提高3.5倍。 开发者套件售价3499美元,量产模组批量采购价低至2999美元。Jets...发现资讯8个月前07960
Skywork MindLink – 昆仑万维发布最新推理大模型昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink,同时公布了72B模型权重、技术报告及代码仓库链接,这套全新的推理范式,能够根据任务难度自适应整合推理和非推理的生成回复,极大减...发现资讯10个月前07940
清华联合巨人网络开源的多方言语音合成大模型框架DiaMoE-TTS巨人网络AI Lab与清华大学电子工程系SAT Lab的研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。该框架基于国...发现资讯6个月前07930
Meta Ray-Ban Display – Meta推出的首款带显示屏的AI眼镜,为用户提供便捷的智能交互体验Meta Ray-Ban Display是Meta首款搭载高解析度显示屏的消费级设备,其主要设计特点是在右镜片内嵌半透明抬头显示屏(HUD),亮度达5000尼特,可在户外强光环境下清晰显示信息,且从外...发现资讯7个月前07930
Open-Fiesta – 开源的AI聊天平台,支持键盘提交和流式 APIOpen-Fiesta 是一个开源的多模型AI聊天平台,它支持多种AI提供商和模型,如Gemini、DeepSeek R1等,让你可以轻松切换和比较不同模型的输出。此外,它还提供了网络搜索和图片附件功...发现资讯8个月前07930
Kosong – 月之暗面开源的全新AI Agent开发框架,开发者可以灵活切换或混合使用多种AI模型月之暗面(Moonshot AI)开源全新AI代理开发框架 Kosong,为构建下一代智能体应用提供轻量、灵活且高度可扩展的底层支持。其核心特性包括异步工具编排、插件化设计和开箱即用的Python支持...发现6个月前07920