AI视野：谷歌Gemini Pro开放；文心一言插件商城上线；谷歌图像生成模型Imagen2发布；阿里推虚拟试穿技术Outfit Anyone

正在检查是否收录...

???AI新鲜事

谷歌Gemini Pro开放

谷歌Gemini Pro大模型在研究基准测试中表现优异，支持32K上下文窗口的文本输入和生成功能，向Vertex AI云计算客户和AI Studio开发人员开放，提供多种功能和SDK，为构建AI应用程序提供更多可能性。

文心一言插件商城上线

百度文心一言插件商城正式上线，提供多功能插件，包括PPT生成、音视频提取、思维导图等，用户可通过简单指令满足多场景需求。插件商城还支持用户自主设计新插件。

ChatGPT成为Nature年度十大人物

2023年，《自然》杂志评选出年度十大人物，其中包括ChatGPT和OpenAI首席科学家苏茨克维，成为榜单首位非人类入选者，突显人工智能在科学界的引领地位。

全国首例AI声音侵权案公开审理

北京互联网法院审理全国首例AI声音侵权案公开审理，配音演员起诉魔音工坊APP和微软等五被告。配音演员以原告声音未经授权被AI化并在APP上售卖为由，将魔音工坊等五家公司诉至北京互联网法院，案件仍在审理中。

iQOO Neo9系列首批搭载自研AI蓝心大模型

iQOO Neo9系列手机将首次搭载自研AI蓝心大模型，在语言理解、文本创作等领域表现卓越，为用户带来更智慧、流畅、安全的体验。

AI主播 Channel1上线

近期热播剧《新闻女王》引发关注，与此同时，美国新闻初创公司Channel1发布了能24/7不间断播报新闻的AI主播，引发新闻界热议。

邢波团队提出全开源倡议LLM360

邢波团队提出LLM360全面开源倡议，旨在使大型语言模型训练过程透明，发布两个大型语言模型，并为研究者提供开发经验和性能评估结果。

论文地址:https://arxiv.org/pdf/2312.06550.pdf

项目网页:https://www.llm360.ai/

????大模型动态

谷歌Deepmind发布最先进的图像生成模型Imagen2

谷歌Deepmind推出Imagen2，一款强大的图像生成模型，通过参考图片和文本生成新图片和局部编辑，具有改进的图像描述理解和支持图像编辑功能。模型在安全性方面采用了数字水印工具SynthID，可在不损害图像质量的情况下防止潜在的风险。

地址:https://deepmind.google/technologies/imagen-2/

Stability.ai开源图片生3D模型Stable Zero123

Stability.ai在官网开源了基于丰田研究院和哥伦比亚大学联合开源的Zero123模型的优化版本Stable Zero123，通过改进渲染数据集和分数蒸馏，提升了3D模型生成效果和训练效率，可与SDXL高精准图片模型结合使用。

项目地址:https://github.com/cvlab-columbia/zero123

魔搭社区上线Mistral AI 首个开源 MoE 模型

Mistral AI最近在魔搭社区上线了首个开源MoE模型Mixtral8x7B，这是一个由8个专家网络组成的混合专家模型，拥有70亿参数，支持32k token上下文长度，在MT-Bench评测上达到了8.3分，与GPT3.5相当。

Mixtral-8x7B-v0.1模型:

https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-v0.1/summary

Mixtral-8x7B-Instruct-v0.1模型:

https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-Instruct-v0.1/summary

Mistral-7B-Instruct-v0.2新模型:

https://www.modelscope.cn/models/AI-ModelScope/Mistral-7B-Instruct-v0.2/summary

???AI应用

美图上线AI绘画与图片生成应用WHEE App

美图旗下WHEE移动端App正式上线，由MiracleVision4.0大模型提供支持，为用户提供一站式AI视觉创作服务，包括AI绘画、图片生成、修图、扩图、3D效果等功能，并汇集各领域创作者作品，促进创作者交流与合作。

谷歌推出AI音乐创作工具“MusicFX”

谷歌推出的AI音乐创作工具“MusicFX”利用Google的MusicLM和DeepMind的SynthID技术，让用户通过几句话即可生成原创音乐，同时强调负责任的AI创新。

体验网址:https://top.aibase.com/tool/music-fx

GoLinks发布企业人工智能搜索引擎GoSearch

GoSearch是GoLinks推出的人工智能搜索引擎，通过多模态搜索和AI核心技术，提供企业高效的信息检索体验，减轻员工认知负担，支持实时索引和兼容100多个数据源。

?‍???聚焦开发者

阿里推虚拟试穿技术Outfit Anyone

阿里推出的Outfit Anyone虚拟试穿技术采用双流条件扩散模型，处理模特和服装数据，通过衣物图像实现逼真的虚拟试穿效果，结合Animate Anyone技术，轻松制作任意角色的换装视频。

项目地址:https://humanaigc.github.io/outfit-anyone/

体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

斯坦福华人提出全新视频生成框架WonderJourney

斯坦福华人研究人员推出的WonderJourney框架，通过一句话或一张图生成连贯的3D场景，融合语言模型和视觉模块，展现出无限的创意可能。

项目网址:https://kovenyu.com/wonderjourney/

微软推压缩技术LLMLingua

微软推出LLMLingua，采用独特粗细压缩技术，解决大型语言模型中长提示带来的计算效率问题，实现高达20倍的压缩比例。

项目网址:https://github.com/microsoft/LLMLingua

论文网址:https://arxiv.org/pdf/2310.05736.pdf

南洋理工发布提高AI视频生成内容一致性方法FreeInit

南洋理工大学推出名为FreeInit的方法，通过优化推理初始噪声的时空低频组件，显著提高人工智能视频生成的内容一致性，为视频创作和人工智能应用带来新可能性。

项目地址:https://tianxingwu.github.io/pages/FreeInit/

谷歌发布开源虚拟人物库“VALID”

谷歌AR&VR与佛罗里达中央大学合作发布开源虚拟人物库“VALID”，含210个全套虚拟人物，代表七个不同种族，旨在促进多样性和包容。研究结果显示对亚洲、黑人和白人虚拟人物的一致认知，但其他种族存在认知歧义。同族偏见影响了虚拟人物辨识，强调参与者种族对研究的影响。库提供开放访问，支持Unity和Unreal等游戏引擎，挑战刻板印象，为虚拟人物研究和应用提供多样性视角。

项目网址:https://github.com/google/valid-avatar-library

论文:https://www.frontiersin.org/articles/10.3389/frvir.2023.1248915/full

虚拟人llm虚拟人物github人工智能git大模型语言模型apppdfgoogle虚拟试穿大型语言模型gpt视频生成geminiai声音ai音乐3d模型ai应用ai绘画上下文生成模型互联网aigc一致性内容一致多样性人工智能搜索chatarxiv创作工具音乐创作搜索引擎智能搜索创作者chatgpt图像生成图片生成扩散模型unitavatar混合专家模型microsoft图像质量条件扩散