GPT-5.2 – OpenAI最新推出的通用AI模型系列,能高效处理长文档,支持端到端工作流OpenAI正式推出其迄今最强模型GPT-5.2,专为专业工作和复杂任务设计。在通用智能、长文本处理、智能体工具调用和视觉等方面得到显著提升。在制作电子表格、制作演示文稿、图像感知、编写代码以及理解长...发现资讯5个月前06090
GLM-OCR – 智谱开源的轻量级多模态OCR模型,仅 0.9B 参数智谱正式发布并开源 GLM-OCR。据介绍,该模型仅 0.9B 参数规模,支持 vLLM、SGLang 和 Ollama 部署,模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层...发现资讯1个月前06070
PixVerse V5.5 – 爱诗科技推出的视频生成大模型,支持音频和视频同步生成PixVerse V5.5是爱诗科技推出的最新一代AI视频生成大模型,模型基于自研的多模态视觉语言(MVL)架构,采用Diffusion与Transformer混合设计,支持音画同步生成,简化从构思到...发现资讯5个月前06060
商汤开源的首个实时视频生成推理框架–LightX2V ,支持多种视频生成任务商汤开源了行业首个能实现实时视频生成的推理框架LightX2V,支持低资源部署,通过DiT蒸馏加速、轻量化 VAE、稀疏注意力等优化,实现低成本、强实时的视频生成。框架支持多种硬件部署,提供 Grad...发现资讯5个月前06040
LongCat-Flash-Omni – 美团开源的实时交互全模态大模型,支持文本、语音、图像和视频的多模态输入与输出美团正式发布LongCat-Flash-Omni,业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型。,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水...发现资讯6个月前06030
GLM-4.6V – 智谱开源的多模态大模型系列,支持云端、本地及多种硬件环境部署智谱正式上线并开源 GLM-4.6V 系列多模态大模型,该模型支持高达 128k tokens 的超长上下文,在视觉理解精度方面处于同规模模型的领先梯队,并首次将工具调用能力深度原生集成至视觉架构中...发现资讯5个月前05990
Piktochart – AI设计工具,支持通过文字输入快速生成多种视觉内容Piktochart 是一款专注于信息图表设计的在线平台,专为快速创建视觉内容设计。旨在帮助用户轻松创建信息图表、报告、演示文稿、海报、传单等视觉内容。Piktochart 提供丰富的模板和资源,适合...发现资讯5个月前05960
Gemini Deep Research – 谷歌推出的深度研究Agent,能深入复杂信息环境中获取精准数据谷歌推出Gemini Deep Research深度研究智能体,基于Gemini 3 Pro构建,专为长周期内容收集与综合任务优化打造,其幻觉率较此前模型降低40%,是谷歌迄今“最具事实性”的智能模型...发现资讯5个月前05950
Seekdb – OceanBase开源的首款AI原生混合搜索数据库,支持向量、混合检索OceanBase发布并开源其首款AI数据库OceanBase seekdb,全方位拉低AI开发门槛。seekdb支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合AI推理与数据处理,并兼容H...发现5个月前05930
CWM – Meta开源的代码世界模型,自动化修复代码中的错误Meta 刚发布的这个 CWM,是一个 320 亿参数的开放权重 LLM,以推动基于世界模型的代码生成研究。该模型通过模拟代码执行过程,不仅生成代码,还能理解代码的动态行为,预测执行结果,并具备自我调...发现7个月前05810