苹果开发出新款AI:可“看懂”屏幕内容并语音回复

苹果开发出新款AI:可“看懂”屏幕内容并语音回复

    正在检查是否收录...
一言准备中...

快科技4月2日消息,据媒体报道,苹果公司近日宣布,成功研发出一款前沿的人工智能系统ReALM(Reference Resolution As Language Modeling,即基于语言建模的参考解析)。

据悉,该系统具备卓越能力,能够精准解析屏幕上模糊的内容,同时深入理解相关对话及背景环境,从而为用户提供更为自然流畅的语音助手交互体验。

ReALM系统通过运用大语言模型技术,巧妙地将识别屏幕视觉元素这一复杂任务转化为纯语言处理问题。这一创新转换使得ReALM在性能上相较于传统技术实现了质的飞跃。

值得一提的是,ReALM的独特之处在于其能够重新构建屏幕内容。通过深入分析屏幕上的信息及其位置分布,系统能够生成精准的文本表示,这对于捕捉视觉布局中的关键信息至关重要。

研究人员进一步展示了将ReALM与专门针对内容指向优化的语言模型相结合的方法,结果显示在执行相关任务时,ReALM的性能已超越业界翘楚GPT-4。

研究人员兴奋地表示:我们对现有系统进行了深度优化和显著改进,使其在处理各种类型的内容指向任务时均表现出卓越性能。即便是我们的最小模型,也实现了超过5%的性能提升;而大型模型的表现更是显著超越GPT-4,令人瞩目。”

长期以来,苹果在创新领域更多扮演跟随者的角色,然而随着人工智能技术的迅猛发展,市场格局正发生深刻变革。如今,苹果正积极迎接挑战,努力在人工智能领域占据一席之地。

此外,备受瞩目的全球开发者大会即将在6月盛大召开。届时,苹果预计将推出一系列创新成果,包括全新大语言模型框架、Apple GPT”聊天机器人及其生态系统中的其他AI功能。

gpt人工智能语言模型大语言模型gpt-4研究人员大型模型性能提升关键信息ai功能智能系统apple语言处理app智能技术人工智能技术开发者语音助手机器人聊天机器人
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-12362.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.7W+
9
1
2
WAP站长官方

AI绘画 | 如何利用SD垫图实现照片风格转换

上一篇

叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了

下一篇
  • 复制图片
按住ctrl可打开默认菜单