
https://www.php.cn/link/5f4d4b4da67c9adec00590be5904256e
工作的核心本质 —— 判断力、主体性,以及AI评估体系的内在局限
Thomas Wolf 2025年12月22日
十五年前,正值2010年寒冬,我正处在博士学业的收官阶段,开始认真思考学术圈之外的职业可能。至今仍清晰记得,在一个破纪录低温的巴黎冬日,我刚结束一场研发岗位的面试,搭乘通勤列车返程。窗外白雪皑皑,车厢内寒气逼人,而我的内心则交织着失落与不解。
我对该团队日常使用的多数开发工具都已熟悉,也确信自己能迅速掌握其余部分。但显然,这并不足以打动面试官——他们反复强调,正在寻找“更有经验”的候选人。
彼时,我并未真正领会这句话背后的分量。相较于我能明确展示的技术能力,对方更看重的是工作年限。这让我倍感不公:在我二十出头的年纪,“经验”听起来更像一种含糊其辞的托词,用以婉拒那些既具备扎实基础、又满怀热忱的学习者。
这种久违的情绪,最近又一次悄然浮现。
当看到近期关于初级岗位招聘持续收缩的数据(尤其在软件工程领域),我不由得再次想起当年那个坐在冰冷车厢里的自己。
斯坦福大学于2025年夏季发布的一项研究指出,在AI暴露度最高的职业类别中,22至25岁从业者的人数自2022年底至2025年年中下降了约6%;而同期,同一批职业中的资深从业者数量却上升了6–9%。

图表上的拐点一目了然。
无论源于相关性抑或因果关系,2022年秋季正是ChatGPT正式发布的节点——那是公众首次真切感知大模型实际能力的时刻,也是全球AI性能竞赛全面爆发的起点。这场竞赛最初由OpenAI与Anthropic引领,随后Google、xAI、阿里巴巴(Qwen)、DeepSeek、Mistral等越来越多的机构纷纷跻身第一梯队。
过去三年间,AI评测基准(Benchmarks)的进步令人震撼。例如Claude Opus 4.5如今在SWE-bench上可完成约75%的真实编程任务;Gemini 3与GPT-5已在国际科学奥林匹克竞赛中稳居金牌水准⁴。与此同时,ChatGPT的周活跃用户已逼近10亿大关⁵。

从诸多技术维度看,AI的能力跃升与普及速度惊人,常被解读为已逼近甚至达到人类专家水平。
然而,尽管奖牌频出、初级岗持续萎缩,宏观经济层面的反馈却远未达预期。
在全球及行业尺度上,AI对GDP的实际拉动效应依然微弱。有观点指出,在那些光鲜亮丽的新闻稿背后,大量(若非绝大多数)生成式AI试点项目尚未为企业带来可持续的价值⁷。此外,在更贴近现实场景的测试中——比如以真实兼职任务为基准的“远程劳动指数”(Remote Labor Index),即便是当前最强的AI Agent系统(如ManusAI),整体成功率也仅徘徊在2.5%左右。
模型在标准评测中展现的强大能力,与其在组织内部真实落地的效果之间,呈现出显著张力。
对于这种“理论高光”与“实践黯淡”的落差,常见解释包括:一是组织惯性——大型企业响应迟缓、遗留系统庞杂、部署路径艰难;二是能力阈值尚未突破——或许在通往AGI的量化路径上,哪怕取得接近60%的综合得分,仍不足以支撑复杂决策闭环。
这些因素确实都在起作用。但它们往往默认将“工作”窄化为一系列可拆解、可分配、可执行的任务集合。
这种理解,在现实中是片面的。实践中,一份工作极少只是待办事项的罗列;一位同事也绝非若干技术技能的简单叠加。
作为一家初创公司的联合创始人,我近半数时间投入在不同发展阶段的招聘工作中——这段经历堪称我职业生涯中最深刻的一课。其中一条核心体悟是:面对大多数候选人与岗位,我始终在寻找三种特质的有机融合:
? 执行力或技术功底:准确完成任务、熟练运用工具与方法的能力。
? 常识或判断力:理解任务背后的意图,及其与组织目标、价值观、文化与战略方向之间的关联。
? 主体性(Agency)或品味:主动预判下一步动作、提出建设性建议、识别风险边界、适时调整方向;甚至,在必要时果断叫停一项看似合理却实则偏离本质的任务。

执行力与技术知识相对容易在评测中被观察、测试与量化。只要任务定义清晰,核心挑战就是解决它。
而判断力与主体性,则极难被标准化评估。它们的价值往往只在动态、模糊、非均衡的情境中才得以凸显——当问题本身尚无明确定义、优先级频繁迁移,或最恰当的回应恰恰是对任务前提发起质疑时。这正是优秀成员脱颖而出的关键时刻,也日益成为当下组织运作的常态。
借由这一视角,我终于读懂了2010年那场面试的潜台词。
面试官评估的,并非我能否使用他们的工具链,而是当问题失去清晰边界之后,我会如何思考、如何选择、如何担责。
这种对“劳动者”的深层定义,也解释了为何初级岗位首当其冲受到冲击。职业早期角色传统上更聚焦于执行;随着经验积累,个体贡献重心会自然转向判断与主体性:界定问题本质、筛选关键任务、驾驭不确定性。
AI在“执行”维度的演进速度,远超其他能力维度。结果便是执行环节的成本持续走低、颗粒度不断变细,从而不成比例地压缩了初级岗位的生存空间。
从长远看,这值得警惕。判断力与主体性虽部分源自天赋,但更多是在高强度执行实践中逐步沉淀下来的。倘若入门通道过快收窄,未来资深人才的孵化机制将面临系统性削弱。
同样的分析框架,也有助于理解为何AI的经济渗透率仍显滞后,以及实现长周期、跨职能、端到端自动化所面临的结构性障碍。
AI真正的瓶颈,通常并非孤立生成文本或代码的能力,而在于难以统摄全局:无法将指令嵌入组织/团队的具体语境中,难以解析模糊需求,难以权衡多重目标,难以基于常识做出取舍,更难以判断何为真正重要之事,乃至何时该彻底终止一项任务。
执行力固然关键,但它几乎从不是工作的全部。正如Cursor联合创始人Ryo Lu近期所言:“执行早已不是我们曾经认定的工作核心。”
----Ryo Lu (@ ryolu_ ) 团队扩张的传统范式已然失效:
----我们曾习惯按职能分工——招设计师、工程师、产品经理,靠堆人力来扩大产能。但当Cursor能在几分钟内把想法变成可运行代码时,执行力就不再是瓶颈。真正稀缺的是品味与判断力。
难点在于,判断力与主体性本就难以衡量。它们的意义,往往只有置于更广阔、更动态的组织上下文中才能显现——这也解释了为何现有评测体系对其关注甚少。
然而,它们恰恰是员工在组织中创造真实价值的核心支点。若我们希望真正把握AI的经济潜力,就必须超越纯技术执行的评估逻辑,转而构建能映射真实协作生态的测量方式——承认一点:几乎没有哪份工作,是在完全静态环境中、仅凭一套固定规则就能完成的。
AI时代或将最终推高判断力、品味与主体性的权重——而这些,恰恰是工作中最难量化、最难测评、也最难被替代的部分。
回望过去,AI评测表现与现实经济影响之间的鸿沟,对20岁时的我而言,竟有一种奇异的似曾相识感。
来源:https://www.php.cn/link/5ffeb4b17ffb5626bc964f2c8b4f9cf3
源码地址:点击下载
以上就是Hugging Face 创始人 Thomas Wolf 对工作和 AI 关系的思考的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号