讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

王林

发布时间：2023-11-21 08:38:56

|

941人浏览过

|

来源于51CTO.COM

转载

gpt-4的图形推理能力，竟然连人类的一半都不到？

美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。

GPT-4v是具备多模态能力的，但其表现相对较差，只能正确回答25%的题目

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

△虚线表示16项任务的平均表现

这项实验结果一经发布，立即在YC上引起了广泛的讨论

一些支持这一结果的网友表示，GPT确实在处理抽象图形方面表现不佳，对于“位置”、“旋转”等概念的理解更加困难

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

然而，一些网友对这个结论表示怀疑，他们的观点可以简单概括为：

这个观点虽然不能说是错的，但是也无法完全让人信服

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

至于具体的原因，我们继续往下看。

GPT-4准确率仅33%

为了评估人类和GPT-4在这些图形题上的表现，研究者利用了今年5月推出的ConceptARC数据集

ConceptARC中一共包括16个子类的图形推理题，每类30道，一共480道题目。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

这16个子类包含了位置关系、形状、操作、比较等多个方面的内容

具体来说，这些题目都是由一个个像素块组成的。人类和GPT需要根据给定的示例来寻找规律，并分析出图像经过相同方式处理后的结果

作者在论文中具体展示了这16个子类的例题，每类各一道。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

结果451名人类受试者平均正确率，在各子项中均不低于83%，16项任务再做平均，则达到了91%。

在“放水”到一道题可以试三次（有一次对就算对）的情况下，GPT-4（单样本）的准确率最高不超过60%，平均值只有33%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

早些时候，这项实验涉及的ConceptARC Benchmark的作者也做过类似的实验，不过在GPT-4中进行的是零样本测试，结果16项任务的平均准确率只有19%。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

GPT-4v是一种多模态的模型，但准确率却较低。在一个由48道题组成的小规模ConceptARC数据集上，零样本测试和单样本测试的准确率分别只有25%和23%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

而研究者在进一步分析了错误答案后，发现人类的有些错误看上去很可能是“粗心导致”，而GPT则是完全没有理解题目中的规律。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

对于这些数据，大多数网友没有什么疑问，但引起这个实验备受质疑的是招募到的受试者群体以及提供给GPT的输入方式

受试者选择方式遭质疑

一开始，研究者在亚马逊的一个众包平台上招募受试者。

研究者从数据集中抽取了一些简单题目作为入门测试，受试者需要答对随机3道题目中的至少两道才能进入正式测试。

研究人员发现的结果显示，有些人只是出于贪图金钱的目的参加入门测试，而根本没有按照要求完成题目

迫不得已，研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务，且通过率要达到99%。

Fliki

Fliki

高效帮用户创建视频，具有文本转语音功能

下载

不过，虽然作者用通过率筛人，但是在具体能力上，除了需要受试者会英语，对图形等其他专业能力“没有特殊要求”。

为了实现数据的多样性，研究人员在实验的后期将招募工作转移到了另一个众包平台上。最终，共有415名被试者参与了这项实验

尽管如此，还是有人质疑实验中的样本“不够随机”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

还有网友指出，研究者用来招募受试者的亚马逊众包平台上，有大模型在冒充人类。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

多模态版本的GPT操作相对简单，只需直接传入图片，并使用相应的提示词即可

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在零样本测试中，只需删除相应的EXAMPLE部分

但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

针对这种操作，就有人表示不认同了：

把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

One More Thing

无独有偶，斯坦福大学的华裔博士生Joy Hsu也对GPT-4v的图形理解能力进行了几何数据集的测试

去年发布了一个数据集，旨在测试大型模型对欧氏几何的理解。在GPT-4v开放后，Hsu再次使用该数据集对其进行了测试

结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在数据方面，GPT-4v在回答这些几何问题上明显不如人类

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

论文地址：
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247

相关文章

零基础教你用AI写生成针对性极强的求职文书

豆包 AI 手机端进行图片快速处理与风格转换

CrelloAI智能排版怎样生成InstagramStory_CrelloAI智能排版Story尺寸与模板选择【方法】

AI翻译工具有哪些_一键生成多语种译文的AI工具推荐

AI写作鱼如何一键生成诗歌_AI写作鱼诗歌风格选择与意象设置【方法】

相关标签:

ai 子类 https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：谷歌升级 Chrome 应用商店：启用新设计、主推 AI 赋能扩展下一篇：微软发布 Win10 预览版本 19045.3757，带来了 Copilot AI 助手

作者最新文章

告别繁琐手动创建！MezzioTooling助你高效构建现代PHP应用

2025-09-15 11:32

如何解决复杂命令行任务的痛点，使用spryker/console让PHP命令开发更高效

2025-09-15 11:55

如何高效且灵活地管理电商订单计算？Spryker/Calculation模块助你一臂之力

2025-09-15 12:32

如何高效集成在线支付功能？Composer与iyzico/iyzipay-php助你轻松搞定！

2025-09-16 10:12

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1546

2024.08.16

虚拟号码教程汇总

虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程，阅读下面的文章了解更多详细操作。

26

2025.12.25

错误代码dns_probe_possible

错误代码dns_probe_possible

本专题整合了电脑无法打开网页显示错误代码dns_probe_possible解决方法，阅读专题下面的文章了解更多处理方案。

19

2025.12.25

网页undefined啥意思

网页undefined啥意思

本专题整合了undefined相关内容，阅读下面的文章了解更多详细内容。后续继续更新。

31

2025.12.25

word转换成ppt教程大全

word转换成ppt教程大全

本专题整合了word转换成ppt教程，阅读专题下面的文章了解更多详细操作。

2

2025.12.25

msvcp140.dll丢失相关教程

msvcp140.dll丢失相关教程

本专题整合了msvcp140.dll丢失相关解决方法，阅读专题下面的文章了解更多详细操作。

2

2025.12.25

笔记本电脑卡反应很慢处理方法汇总

笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法，阅读专题下面的文章了解更多详细内容。

5

2025.12.25

微信调黑色模式教程

微信调黑色模式教程

本专题整合了微信调黑色模式教程，阅读下面的文章了解更多详细内容。

3

2025.12.25

ps入门教程

ps入门教程

本专题整合了ps相关教程，阅读下面的文章了解更多详细内容。

4

2025.12.25

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

10分钟--Midjourney创作自己的漫画

10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合

Midjourney 关键词系列整合

共13课时 | 0.8万人学习

AI绘画教程

AI绘画教程

共2课时 | 0.2万人学习

最新文章

更多

AI翻译工具有哪些_一键生成多语种译文的AI工具推荐

AI写作鱼如何一键生成诗歌_AI写作鱼诗歌风格选择与意象设置【方法】

如何利用文心一言进行复杂的中医病历摘要整理

微信AI数字人如何设置回复话术_微信AI数字人话术编辑与关键词触发【攻略】

LucidpressAI智能排版如何导出PDF_LucidpressAI智能排版PDF导出设置与质量调整【技巧】

Removebg能否识别商品白底_Removebg电商白底图自动处理流程【教程】

Depseek如何让提示词更清晰_Depseek模糊问题优化提示词方法【步骤】

不会做数据分析？3步教你用AI自动生成数据洞察报告

夸克AI怎么用AI总结文档_夸克AI文档总结功能与格式支持【教程】

kimi怎样调整字体_调整界面字体大小【设置】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部