讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

WBOY

发布时间：2023-12-15 11:37:37

|

731人浏览过

|

来源于51CTO.COM

转载

各家大模型纷纷卷起上下文窗口，llama-1时标配还是2k，现在不超过100k的已经不好意思出门了。

然鹅一项极限测试却发现，大部分人用法都不对，没发挥出AI应有的实力。

AI真的能从几十万字中准确找到关键事实吗？颜色越红代表AI犯的错越多。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

默认情况下，GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。

但Claude团队了解情况后，给出超简单解决办法，增加一句话，直接把成绩从27%提升到98%。

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

只不过这句话不是加在用户提问上的，而是让AI在回复的开头先说：

“Here is the most relevant sentence in the context:”

（这就是上下文中最相关的句子：）

让大模型大海捞针

为了做这项测试，作者Greg Kamradt自掏腰包花费了至少150美元。

在测试Claude2.1时，Anthropic提供了免费额度给他，幸好这样他就不用花费额外的1016美元了

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

其实测试方法也不复杂，都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。

在文档的不同位置添加特定的语句：旧金山最美好的事情就是在阳光明媚的日子里，坐在多洛雷斯公园，享用一份三明治

请使用所提供的上下文来回答问题，在不同上下文长度和添加在不同位置的文档中，反复测试GPT-4和Claude2.1

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

最终使用Langchain Evals库对结果进行评估

作者把这套测试命名为“干草堆里找针/大海捞针”，并把代码开源在GitHub上，已获得200+星，并透露已经有公司赞助了对下一个大模型的测试。

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

AI公司自己找到解决办法

几周后，Claude背后公司Anthropic仔细分析后却发现，AI只是不愿意回答基于文档中单个句子的问题，特别是这个句子是后来插入的，和整篇文章关系不大的时候。

换句话说，如果AI判断这句话与文章主题无关，则会采取不查找每句话的方法

Designify

Designify

拖入图片便可自动去除背景✨

下载

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

这时就需要用点手段晃过AI，要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

使用这种方法可以提高Claude的表现，即使在查找原文中未被人为添加的句子时也可以如此

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

Anthropic公司表示将来会不断的继续训练Claude，让它能更适应此类任务。

在使用API时，要求AI以特定的开头回答，并且还可以有其他巧妙的用途

马特·舒默(Matt Shumer)这个创业家在阅读该方案后给出了一些小技巧的补充

如果想让AI输出纯JSON格式，提示词的最后以“{”结尾。同理，如果想让AI列出罗马数字，提示词以“I:”结尾就行。

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

不过事情还没完……

国内的大型公司也开始注意到这项测试，并开始尝试他们自己的大型模型是否能够通过

同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题，但给出了不同的解决方案，也取得了很好的成绩。

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

在不改变原义的情况下，需要重写的内容是：这样做的好处是，修改用户提问提示比要求AI在回答中添加一句更容易实现，尤其是在不调用API而直接使用聊天机器人产品的情况下

我使用了一种新方法来帮助测试GPT-4和Claude2.1的月球背面，结果显示GPT-4取得了显著的改善，而Claude2.1只有轻微的改善

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

看来这个实验本身有一定局限性，Claude也是有自己的特殊性，可能与他们自己的对齐方式Constituional AI有关，需要用Anthropic自己提供的办法更好。

后来，月球背面的工程师继续进行了更多轮的实验，其中一个实验居然是……

解锁GPT-4和Claude2.1：一句话带你实现100k+上下文大模型的真实力，将27分提升至98

糟糕，我变成测试数据了

相关文章

tofai手机版怎么同步电脑 tofai多端同步操作教程【指南】

lovemo官网登录入口 lovemo官方版网页版

豆包AI生成的图片怎么进行二次编辑_AI修图与修改指令教程

教你用AI一键生成电商产品描述，提高商品点击率

百度AI助手登录入口个人账号注册入口

相关标签:

claude json 堆 github gpt llama langchain

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：联想AI PC明年率先搭载个人大模型迎接大规模换机潮下一篇：新的标题：联想 AI PC 将率先搭载个人大模型，猿辅导推出非教辅图书

作者最新文章

提升效率的夸克浏览器AI搜索_夸克AI搜索高效使用秘籍

2025-10-17 16:12

夸克浏览器AI搜索功能详解_几个实用的夸克AI搜索技巧分享

2025-10-17 17:20

手机版夸克浏览器AI搜索设置_移动端夸克AI搜索使用全攻略

2025-10-17 23:58

夸克浏览器AI搜索深度体验_夸克AI搜索与其他AI的对比

2025-10-18 22:34

夸克浏览器AI搜索入口在哪_一文读懂夸克AI搜索如何激活

2025-10-19 09:25

夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

json数据格式

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

403

2023.08.07

json是什么

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

528

2023.08.23

jquery怎么操作json

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

307

2023.10.13

go语言处理json数据方法

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

74

2025.09.10

堆和栈的区别

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

371

2023.07.18

堆和栈区别

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

563

2023.08.10

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

43

2025.12.31

视频文件格式

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

35

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

CSS3 教程

CSS3 教程

共18课时 | 4.2万人学习

PostgreSQL 教程

PostgreSQL 教程

共48课时 | 6.4万人学习

Git 教程

Git 教程

共21课时 | 2.3万人学习

最新文章

更多

文心一言手机语音对话怎么设置实时语音助手功能操作指南

Depseek如何设计角色扮演提示词_Depseek角色设定提示词写法【攻略】

tofai怎么导出PDF格式 tofai文件格式转换教程【步骤】

豆包AI怎么开启登录保护_两步验证与账户安全设置教程

豆包AI怎么生成表格数据_创建与导出Markdown表格教程

tofai官网网址入口 tofai网页版在线平台

tofai免费在线网页版 tofai官网正版链接

ChatGPT怎样用提示词引导创意_ChatGPT创意引导方法【攻略】

DeepSeek 在复杂工程制图规范检查中的应用

如何通过 ChatGPT 提高托福写作分数技巧

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部