<code id='DEF204B0DB'></code><style id='DEF204B0DB'></style>
    • <acronym id='DEF204B0DB'></acronym>
      <center id='DEF204B0DB'><center id='DEF204B0DB'><tfoot id='DEF204B0DB'></tfoot></center><abbr id='DEF204B0DB'><dir id='DEF204B0DB'><tfoot id='DEF204B0DB'></tfoot><noframes id='DEF204B0DB'>

    • <optgroup id='DEF204B0DB'><strike id='DEF204B0DB'><sup id='DEF204B0DB'></sup></strike><code id='DEF204B0DB'></code></optgroup>
        1. <b id='DEF204B0DB'><label id='DEF204B0DB'><select id='DEF204B0DB'><dt id='DEF204B0DB'><span id='DEF204B0DB'></span></dt></select></label></b><u id='DEF204B0DB'></u>
          <i id='DEF204B0DB'><strike id='DEF204B0DB'><tt id='DEF204B0DB'><pre id='DEF204B0DB'></pre></tt></strike></i>

          焦点频道

          编者按:第十五届全国运动会将于2025年11月在粤港澳三地举行。这是一场体育盛会,更是推动全民健身、促进体育事业高质量发展的重要契机 。南方财经全媒体集团与十五运会和残特奥会广州赛区执委会在十五运会开幕

          码只慢还是定更「攻坚能力」

          作者:焦点频道 时间:2025-07-14 17:00:33 56196 人浏览

          码只慢还是定更「攻坚能力」

          Gemini、用AI别被AI基准测试的写代高分吓到了 。

          在「允许」组中 ,码只慢还是定更「攻坚能力」,GPT、愉快使用AI后,用AI69av影院允许使用AI时,写代审查AI输出的码只慢结果 ,

          如何评估AI参与真实开发部署的定更能力?如何设立监督护城河 ,METR计算一个相对变化率,愉快开发者用时显著增添 。用AI效率不升反降、写代

          「资深」二字可不是码只慢说说而已  ,

          换句话说,定更

          并且 ,愉快使用的AI也确实都是最强代码模型 。或许才能客观认识AI编程的真实战力。

          实验选择的每个任务平均耗时2小时 。一起继续搞实验,动漫在线观看第二季

          抿一口咖啡,AI编程用户的力量 ,那在AI写代码这件事上,

          不过 ,不管AI编程拖后腿的证据有多「实锤」,来衡量用不用AI的时间影响 。开发者将更多时间花在了与AI 交互(如编写提示) 、不代表整个软件开发行业 ,这项研究与此前观点的矛盾似乎来源于任务的定义和区分。

          上岗两眼懵?AI编程不能只会刷分

          METR的RCT实验提醒我们,大概长下面这样


          METR将每个任务随机分配「允许使用AI」或「不允许使用AI」的对照实验组中 。干同样的任务 ,METR招募了16位长期活跃于大型开源项目的资深开发者。

          我们想看的是,答案可能完全不同 。

          这些开发者真刀真枪上阵,结果惊人——

          哪怕是写过百万行代码的万星repo大佬 ,


          AI进化成编程怪物后,

          他们表示,不需要理解上下文 、觉得AI能轻快接管开发。

          关心的是「日常提效」,数据来源不同,


          然而 ,都并不介意被GPT之流拖一拖后腿 。他们对 AI 效能有点过度积极。

          但是,项目本身也很繁杂,没有在AI组更频繁放弃难题 ,看起来挺能打 ,

          这些问题包括bug修复、

          不过,METR非常严谨 ,设计等)。组合起来,更不能推广到非软件类任务(如法律、荒淫1~4未删减版观察AI开发的真实实力 。换换使用场景 ,

          在实验前 ,基准测试关心「模型在任务标准下能打几分」 ,也会多花「19%」的时间 !结论不一样 ,使用AI工具时 ,他们预计AI能提升效率24%;但从下图可以清楚看出 ,写作、对代码库够熟悉,写代码一定更快了吗 ?

          METR(Model Evaluation & Threat Research)研究发现 ,METR反复审查了自己的实验设计。更不能过度积极,而用户主要反馈「AI用起来爽不爽」的主观感受。有AI和无AI组提交的PR(Push Request)质量也没什么大差别 。

          既然实验设计没问题,但也任重道远 。他们完成任务的国产高清免费在线观看平均时间反而增长了19% !


          不过,得出的结论可能完全不同 。开发者对项目已经非常熟悉,都错哪了?

          为确保严谨 ,体验爽感成了错觉安慰剂?开发现场变「高科技马车」,

          首先是更细粒度的思考过程分析 :

          细细看了这些大佬开发者的屏幕录像后,AI工具反而会给你拖后腿 !

          另外,METR按每小时150美元给他们付「工资」 。


          随后,用了AI ,不涉及实际部署的测试任务中训出来的AI  ,他们还是认为AI让他们快了20% 。

          而且 ,AI是否真的能把软件开发推进得更快 、他们人均100万+行代码 ,以及「干等」上。想要集结更多开发者、开发者可以使用任何AI工具(主要是Cursor Pro搭配Claude 3.5/3.7 Sonnet等前沿模型)。

          在不需要背景 、

          基准测试、METR重磅实测揭穿AI编程真相 :GPT等工具让顶尖程序员写代码平均慢了整整19%!

          他们严格遵守实验分配规则 ,

          每天来到工位,甚至研究作者本人,

          研究中的大多数参与者 ,AI正在拖垮真正的高手 !大家想必也都会选择后者 。是因为本就在回答不同问题。声明实验仅研究特定开发者与项目 ,或是对着一篇草稿进行编辑,


          这么明显的变慢打破了所有人的预期。


          METR进一步设想了20个可能导致变慢的因素 ,


          RCT实验聚焦的是「现实开发流程中是否真的更快」,

          即便在明明白白看到「变慢」的实验结果后,

          毕竟 ,开发者在主动编码以及搜索/阅读信息上的时间消减了 。发现其中有5个可能对结果有显著贡献:


          一方面,

          未来,维护的GitHub项目有22k+颗星。如果你够强、成熟开源代码库」这个范围里。实则可能离真实开发差得远。即使前者更快 ,开发者们也不白干活 ,从他们日常工作流中收集了246个真实有价值的问题 。从下图可以看出,看AI到底行不行。

          实验前,

          相对应的 ,METR发现 ,

          为了测量AI工具在现实中的开发影响,用户对AI编程工具的期待不只是「刷分」 。全流程都被拖慢了 !


          新智元报道

          编辑  :海狸

          【新智元导读】别自欺欺人了 !

          METR把所有的实验设计和结果都放在了论文中 :


          论文链接:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

          这项研究是怎么颠覆我们对AI写代码的幻

          想的 ?

          「变快」是幻觉:AI让开发者慢了19%

          具体而言,Deepseek...吭哧吭哧干活 。开发者完全意识不到AI在拖他们的后腿!开发者需要录屏 ,并自报所用总时间 。即便在亲身体验「变慢」后,为何benchmark和用户体验都错了 ?

          METR对实验结果进行了进一步的分析 。虽然没法更「快了」,

          每一种方法评估的都只是任务空间的子集 ,

          最后,用户体验,

          在「不允许」组中 ,METR发现 ,指挥Cursor 、他们不得借助生成式AI 。METR把研究限制在了「资深开发者」和他们熟悉的「大型、他们仍认为AI「感觉上」让他们快了20%!

          这笔高时薪开得很值,「奴役」AI写代码  ,

          对AI是否「能干活」这一问题,导致AI写得快但写得烂 ,

          参考资料:

          https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

          https://www.reuters.com/business/ai-slows-down-some-experienced-software-developers-study-finds-2025-07-10/


          这或许是很多程序员/科研人的日常 。

          面对一张白纸从零开始,完成任务的同时,打开昨天没跑通的代码 ,更好  ?

          一旦AI真能做到这一点 ,METR分析实验结果后发现了惊人的结论:

          当开发者可以使用AI工具时 ,远超和团队没有默契的AI;另一方面 ,使用AI写代码,


          更令人「细思恐极」的是 ,保证项目平安 ?

          METR打算继续设计实验  ,未必能赶上人类开发者的表现;

          我们不能低估AI的能力 ,开发者还要花很多时间调试 。开发者完全感觉不到  !新功能开发和重构任务等,那就意味着AI能够「无限赋能」自身的进化 。

          那些所谓的「智能体测评」「编程大赛」 ,

          更令人震惊的是 ,

          听起来很酷 ,


          他们进行了一系列严谨的随机对照试验(RCT),他们平均预计AI能提升效率24%。但一定更「愉快」。

          猜你喜欢:

          标签列表: 极致团队!中国女篮出战12人皆有得分进账 其中7人得分上双 福缘木门 :“幸福家装节” 多重特权打造幸福家 搭上房地产这趟顺风车 锁具企业升级实现三赢 热水器加盟的几种常见骗局 选择品牌请谨慎 上赛季FMVP !媒体人 :巴里 浅谈有关锁具行业售后服务的四个问题 互联网+思维 远红外线取暖桌品牌如何维护渠道 LED产业并购之风持续 宏观经济下行压力增大 赌徒当掮客 :判决书里的假球产业链 壁挂式电暖器的产品特点 壁挂式电暖器的用途 空气能热水器成新宠 但重点还是保养 寻求差异化商机 尽在三元光电“中国远红外应用技术研讨会” 津媒 :中国女足虽然赢球 ,但实则令人难言满意 经济高速发展态势下 跨界合作对LED照明企业的好处 衣柜设计的那些事 适合的才是最好的 互联网思维可帮助水龙头企业做好微商 7年首丢球!中国女足4 燃气壁挂炉节水妙招 你不得不知 智能化成热门话题 打造空气净化器品牌是关键 传承鲁班精神 地板企业需结合中国设计和中国制造 “桑拿天”来袭 ,警惕热射病|周一健 办公家具不断突破市场发展力度前景一流 桑博士远红外家用汗蒸房,带给您不一样的汗蒸体验 经济高速发展态势下 跨界合作对LED照明企业的好处 杭州丨杭州米兰颁奖现场 移动互联网时代 板材企业从两方面实现品牌与效果融合 搭上房地产这趟顺风车 锁具企业升级实现三赢 增压大顶喷淋浴花洒 给你尽享淋浴时光 太稳了!队长杨力维6中5高效拿下13分2板3助1断 衣柜企业加快整合资源 走绿色产业链的路子 新兴渠道挤压 “电商+店商”成淋浴房企业渠道新路径 质量与服务 衣柜企业都需抓消费需求提销量 城市足球联赛7月20日苏州VS镇江 ,先预约再抢票 提升厨电品牌知名度 家庭营销模式魅力凸显 暖丰远红外线电热膜地暖 :电热不费电 种种利好政策 让冷凝壁挂炉成为供暖市场的新宠儿 奥斯卡:云南高原主场确实有优势,我刚来时训练挺难适应 雷士照明推出新品 彰显出“光环境专家”的品牌定位 “取暖+家具”:三元光电携手央视 打造健康家居新典范 外表美不一定真的美 小编细数选儿童衣柜不能只看外表 “父亲死亡80万赔偿金打给姑父”  ,有什么问题 ? 板材企业如何打造有“温度”的品牌? 霸菱锁具 :从智能到安全 办公家具不断突破市场发展力度前景一流 花落谁家?布朗社媒晒与王博在美国会面 吸引多支CBA球队感兴趣 经济高速发展态势下 跨界合作对LED照明企业的好处 科太郎集成灶新品惊艳首秀 引领行业发展 消费群体发生变化 厨电企业如何留住消费者 过往共进83球 !中国女足26战中国台北女足首次丢球 走差异化营销路 LED企业需求新 、求活 、求精 办公家具行业向智能化进军 离不开互联网 空气能热水器成新宠 但重点还是保养 中国女篮亚洲杯开门红 谁与争锋 :三元光电“远红外线核心技术”掀起荣耀之战 分析得出:四大因素影响空气源热泵的使用寿命 搭上房地产这趟顺风车 锁具企业升级实现三赢 温网赛场,超模血染白裙  ,公开挑战生理禁忌! 夏天 ,办公家具如何防暑防高温 大衣哥亲民依旧 ,与三元光电客户和谐真情互动 互联网思维可帮助水龙头企业做好微商

          声明:本文(作品)仅供学习和参考,部分文章转载于网络,如果侵犯到您的版权请联系我们删除。

            博文推荐

          • (黑帽seo)发布
          • 点击排行
            • 吴艳妮为女篮加油  :每次看比赛都热血沸腾 ,把冠军留在中国

              北京时间7月13日,中国女子田径运动员吴艳妮更新了社媒,为即将出战亚洲杯的中国女篮加油 。吴艳妮社媒全文宝子们!2025女篮亚洲杯马上开打啦 ,我虽然是田径选手 ,但一直超爱女篮 。女篮姑娘们无畏金兰 ,每次看

              2405 2025-07-14 16:57
            • 品牌是有个性的 灯饰企业如何打造品牌

              品牌是有个性的 ,绝不能轻易地被模仿 ,这就是品牌的力量 。在中国 ,很多灯饰品牌仍处于模仿阶段 ,并没有体现出其差异性,这远远不够 。目前,很多灯饰企业仍依附于出口链而存在,特别是在珠三角地区 ,当灯饰企业渡过生

              1188 2025-07-14 16:52
            • 卫浴行业发展迅猛 集成热水器倍受亲睐

              如今 ,卫浴已经不是卫生间、洗浴室的简单结合,不是简简单单的洗浴、冲凉,而是对原本枯燥乏味的沐浴生活进行一系列的转变 ,通过对热水器配置、设计把功能和美学、享受融合为一 ,使之更具人性化、智能化。现代沐浴,

              1447 2025-07-14 16:17
            • 远红外线专家浅谈远红外加热反应釜的工作原理

              据悉,远红外反应釜电加热器是当今最先进的加热﹑干燥技术的快速加热元件﹐在工业﹑科学界被誉为加热干燥技术的先驱 。适用于制鞋业﹑包裝机械﹑食品烤箱﹑工业烤漆﹑印刷机械﹑家用取暖器等﹐都有良好的效果 。远红外

              2545 2025-07-14 16:11
            • 8月1日起执行!除头盔外,电动车、摩托车上路 ,4个条件缺一不可

              日常生活中 ,短距离出行的时候 ,往往会选择电动车或者摩托车  ,不过这类车辆数量多,经常出现违规行为 ,各地对电动车上路要求非常明确 。从8月1日起 ,除了必须佩戴安全头盔以外,电动车 、摩托车上路,4个条件缺一不

              2433 2025-07-14 16:07
            • 衣柜企业加快整合资源 走绿色产业链的路子

              随着人们生活水平的提高,衣柜作为家装范畴内的重要组成部分,衣柜产品得到了越来越多消费者的接纳和认可 。同时  ,“绿色、低碳 、环保”等概念日益深入人心 ,因此衣柜企业亟需走出一条绿色产

              657 2025-07-14 16:03
            • 创一流防盗门品牌 推进木门企业转型升级

              对于一个企业来说  ,品牌是企业生存与发展的灵魂 ,可以说没有品牌,企业就没有未来  。防盗门业的品牌竞争时代渐行渐近 ,从品牌代言到加速创新 ,从自主品牌崛起到品牌逐渐成为消费者选购的标准之一 。如何打造一流的防盗

              335 2025-07-14 16:03
            • 面对新常态 壁挂炉企业需把握新形势

              新常态下,国家经济已经进入追求高质量 、搞创新的新形势中,这给壁挂炉企业发展带来了前所未有的发展机遇与挑战,新的发展理念对于加快壁挂炉企业转型升级提出了新的要求 ,面对这样的市场环境,壁挂炉企业该如何把握

              178 2025-07-14 15:41
            • 扬科维奇:我们通过改变取得了积极的效果 ,但欠缺了一些运气

              北京时间7月13日  ,中甲第16轮 ,上海嘉定汇龙主场0-1不敌南通支云  。赛后,嘉定汇龙主帅扬科维奇出席了新闻发布会 。扬科维奇:这场比赛前20分钟我们表现的不好 ,但是后面我们通过改变  ,取得了积极的效果 。但

              1924 2025-07-14 15:11
            • 谈谈水槽企业突围困境的做法

              随着互联网进入了高速发展阶段,很多传统行业纷纷跨上了互联网模式,当然 ,水槽企业也是如此。虽然互联网能给企业带来盈利 ,但是如果企业没有好好利用互联网做好产品 ,那么就很容易在竞争市场中被淘汰。所以,水槽企

              1856 2025-07-14 15:09