A2UI – 谷歌开源Agent生成用户界面的声明式协议,支持定制化a2ui(agent-to-user interface)是谷歌推出的开源协议,专为ai agent与用户界面之间的高效、安全交互而设计。核心是让AI生成“界面描述数据”,而非可执行代码,客户端通过预...发现资讯6个月前07160
GigaBrain-0 – 最新开源VLA具身模型,打造了全球首个最全具身智能数据体系最新推出的GigaBrain-0是一款基于世界模型(World Model)的视觉-语言-动作(VLA)基础模型,专为机器人复杂操作任务设计。GigaBrain-0通过加入深度信息的输入,提升了物体3...发现资讯7个月前07160
Alpamayo-R1 – 英伟达发布首款推理版视觉-语言-动作模型随着芯片成为AI发展的核心,英伟达发布了新的开源软件Alpamayo-R1,旨在利用人工智能(AI)中的一些最新“推理”技术加快自动驾驶汽车的开发。模型的核心创新包括:构建因果链(CoC)数据集,通过...发现资讯6个月前07150
TLDW – AI视频摘要工具,支持YouTube视频URL输入或视频文件上传。TLDW是一款专门为优化视频观看体验而设计的AI工具,它可以分析YouTube视频并提取其中的关键时刻,让你用最短的时间获得最有价值的信息。该工具旨在帮助用户将冗长的YouTube视频转化为简洁、易于...发现资讯7个月前07130
twitch官网入口,twitc登录教程twitch是一款全球超火的游戏直播、教学、玩法攻略流媒体平台,它是美国最大的一家游戏视频直播网站,内容几乎涵盖了市面上所有游戏种类。对跨境电商卖家而言,Twitch是很好的营销引流平台。无论是游戏还...发现资讯6个月前07120
MiroFlow v0.2 – MiroMind开源的研究智能体框架,协调多个工具和子智能体完成任务MiroFlow v0.2是MiroMind团队开发的开源研究智能体框架,旨在将任意大型语言模型(LLM)的能力提升至媲美OpenAI深度研究级别的水平。其核心设计聚焦于高效、可靠地执行复杂工具调用任...发现资讯9个月前07120
GLM-ASR – 智谱开源的语音识别系列模型,模型能将语音实时转换为文字GLM-ASR是由智谱AI开发的开源语音识别模型系列,结合了自然语言处理(NLP)和语音识别(ASR)的先进技术。不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪...发现资讯6个月前07110
Kotaemon—— 基于 RAG 技术的开源工具,支持多模态检索和复杂推理方法,满足多样化的查询需求Kotaemon 是什么 Kotaemon是一款基于Retrieval-Augmented Generation (RAG)技术的开源工具,由Cinnamon团队开发。它通过结合信息检索和语言生成技术...发现资讯10个月前07100
腾讯AI Lab推出的全长度歌曲生成模型–SongBloom ,仅需 10 秒音频样本和对应歌词SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,能够快速生成完整歌曲,支持双通道、48kHz ...发现资讯8个月前07080
混元图像3.0 – 腾讯开源的原生多模态图像生成模型,支持多种风格的图像生成腾讯混元最新发布并开源原生多模态生图模型——混元图像3.0,这是首个开源工业级原生多模态生图模型,也是目前效果最好的开源生图模型。混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并...发现资讯8个月前07030