AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品
点击了解
:https://app.aibase.com/zh1、快手发布KAT系列Agentic Coding大模型 代码表现出色
快手旗下的 Kwaipilot 团队发布了两款革命性的大模型 —— KAT 系列中的 KAT-Dev-32B 和 KAT-Coder。这两款模型在 Code Intelligence 领域表现出色,分别针对不同的用户需求和应用场景。KAT-Dev-32B 在 SWE-Bench Verified 测试中解决率达到了62.4%,而 KAT-Coder 的解决率则高达73.4%。
【AiBase提要:】
🧠 KAT-Dev-32B 是一个开源的32亿参数模型,解决率达到了62.4%。
💻 KAT-Coder 作为闭源旗舰模型,解决率高达73.4%,表现卓越。
🌐 KAT-Dev-32B 已在 Hugging Face 平台上线,KAT-Coder 可通过 StreamLake 平台获取 API 调用。
详情链接:https://kwaipilot.github.io/KAT-Coder/
2、腾讯重磅发布 “混元图像 3.0”,开创多模态图像生成新时代
腾讯重磅发布“混元图像3.0”,标志着其在多模态图像生成领域的重大突破,为人工智能生成内容(AIGC)技术的发展注入了新的活力。
【AiBase提要:】
🧠 混元图像3.0是首个开源的工业级多模态生图模型,具备强大的语义解析能力。
🚀 3.0版本在2.0基础上进一步增强了模型的复杂性与表现力,实现毫秒级响应速度和超写实图像质量。
💡 腾讯混元系列已形成完整的AIGC技术矩阵,涵盖3D生成、定制化图像生成等工具,推动行业创新。
3、苹果悄然研发ChatGPT式应用,Siri即将重大改版
苹果公司正在研发一款类似 ChatGPT 的 iPhone 应用,用于测试 Siri 的重大改版。该应用将提升 Siri 在个人数据搜索和操作方面的效率,同时增强其语音识别和理解能力,为用户提供更智能、人性化的服务。
【AiBase提要:】
🍎 Siri 将通过新应用提升搜索和操作能力,如查找歌曲和编辑照片。
🤖 苹果正在开发类似 ChatGPT 的应用,用于测试 Siri 的全新功能。
📈 未来 Siri 的语音识别和理解能力将显著提升,提供更自然的对话体验。
4、谷歌更新Gemini 2.5 Flash Lite,成为最快的专有模型
谷歌对Gemini系列大型语言模型进行了重要更新,尤其是Gemini2.5Flash和Flash Lite,强调了速度和效率的提升。这些改进展示了谷歌在AI领域的持续进步,并为开发者提供了更多灵活性。
【AiBase提要:】
🌟 Gemini2.5Flash Lite 成为最快的专有模型,输出速度达每秒887个 token。
🚀 新模型在输出质量和成本效率上显著提升,尤其是 Flash Lite 减少了50% 的输出 token。
🗣️ Gemini Live 的更新增强了语音助手的功能,提高了函数调用的准确性和自然对话的能力。
5、苹果推出新图像模型 Manzano 实现理解与生成双重能力
苹果公司推出的 Manzano 图像模型能够同时处理图像理解和生成,解决了当前开源模型在两者之间选择的难题。该模型采用混合图像标记器,减少了冲突,并在文本密集型任务中表现出色。
【AiBase提要:】
🌟 Manzano 是一种新型图像模型,能够同时进行图像理解和生成。
🔍 苹果的研究显示,Manzano 在处理复杂文本任务时表现优异,接近商业系统的水平。
⚙️ 该模型采用混合图像标记器,减少了图像理解与生成之间的冲突。
详情链接:https://arxiv.org/abs/2509.16197
6、YouTube Music测试AI音乐主播功能:提供曲目故事和粉丝趣闻,正面迎战Spotify AI DJ
YouTube Music正在测试AI音乐主播功能,为用户播放的音乐提供相关故事、粉丝趣闻和评论解说。这一功能是对Spotify AI DJ的回应,旨在提升用户的沉浸式听觉体验。
【AiBase提要:】
🎥 YouTube Music推出AI音乐主播功能,为用户提供音乐背后的故事和趣味内容。
🎧 Spotify的AI DJ已提供语音评论,YouTube Music试图通过类似功能进行竞争。
🌐 YouTube Labs向所有用户开放,但目前仅限部分美国用户参与测试。
7、从粗糙几何到逼真3D视频:VideoFrom3D重塑图形设计新纪元
文章介绍了VideoFrom3D框架,这是一种通过融合图像和视频扩散模型来生成高度逼真且风格一致的3D场景视频的技术。该框架无需依赖昂贵的配对3D数据集,极大地简化了设计流程,提升了生成效率,并在复杂动态场景下表现出色。
【AiBase提要:】
🧠 稀疏锚视图生成(SAG)模块利用图像扩散模型,基于参考图像和粗糙几何,生成高质量的跨视图一致锚视图。
🎥 几何引导生成插帧(GGI)模块借助视频扩散模型,在锚视图基础上插值中间帧,实现流畅的运动和时间一致性。
🚀 VideoFrom3D无需依赖昂贵的配对3D数据集,极大简化了设计流程,让设计师和开发者能够更高效地探索创意并快速产出高质量成果。
详情链接:https://kimgeonung.github.io/VideoFrom3D/
8、Moondream3.0发布,多项基准测试超越了 GPT-5 等顶尖模型
Moondream3.0凭借其高效的混合专家架构和轻量化设计,在视觉推理能力上表现出色。它在多个基准测试中超越了GPT-5、Gemini和Claude4等顶级模型,展现了强大的性能。此外,该模型支持开放词汇物体检测、结构化输出以及多场景应用,如安防监控、医学影像和文档处理。开源特性使其易于部署和使用,适合边缘计算环境。
【AiBase提要:】
🧠 Moondream3.0采用高效混合专家架构,仅激活2亿参数,实现轻量化设计。
🔍 支持开放词汇物体检测和结构化输出,适用于多种复杂场景。
💻 开源设计,适合边缘计算,开发者可轻松解锁其强大功能。
评论