主页>财经> 正文>

史上最大图灵测试实验完成，150万人类参与1000万次对话，判断对面是人

2023-06-21 11:54 | 来源:IT之家 | 编辑：苏婉蓉 | 阅读量：17491 |

这个「人类还是 AI?」的游戏一经推出，就被广大网友们玩疯了！如今全世界已有 150 万人参与，网友们大方分享自己鉴 AI 的秘诀。

历上规模最大的图灵测试，已经初步有结果了！

今年 4 月中旬，AI 21 实验室推出了一个好玩的社交图灵游戏 ——「人类还是机器人？」。

游戏一推出，广大网友就玩疯了。

现在，全球已经有 150 多万名参与者，在这个游戏中进行了超过 1000 万次对话，还纷纷在 Reddit 和 Twitter 上 po 出自己的经验和策略。

小编当然也按捺不住好奇心，尝试了一把。

交谈了两分钟，游戏就要求我去猜，背后和我聊天到底是人还是 AI。

所以，游戏中跟我谈话的是谁？

某些是真人，另外一些，当然就是基于目前最领先的大语言模型的 AI 机器人，比如 Jurassic-2 和 GPT-4。

现在，作为研究的一部分，AI21 Labs 决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后，可以从实验中得出以下结论 ——

猜测对面是人还是 AI 时，有 68% 的人猜对了。
对人类来说，识别自己的人类同胞更容易。与人类交谈时，被试猜对的准确率有 73%。与 AI 交谈时，被试猜对的准确率有 60%。
法国网友猜测的正确率最高，为 71.3%，而印度网友的正确率最低，为 63.5%。
男性和女性猜测的正确率差不多，总的来说女性的正确率要略高一些。
比起年龄较大的被试相比，更年轻的被试猜测的正确率会更高。

判断是人还是 AI，他们用这些方法

除此之外，团队找到了被试经常用的一些方法，来区分他们是和人还是和 AI 交谈。

一般人的判断依据，是使用 ChatGPT 以及类似界面的语言模型时感知的受限程度，以及自己对于人类在线行为的看法。

AI 不会打错别字、犯语法错误或使用俚语

一般人都倾向认为，人类才会犯拼写和语法错误，以及使用俚语。

因此，当他们发现对方信息中的这类错误时，许多人的第一感受就是自己在和人类同胞交谈。

但其实，游戏中的大部分模型都受过训练，也会犯这种错误，以及使用俚语。

个人问题是检验 AI 的办法，但不总是有用

游戏的参与者们经常问一些个人问题，比如「你来自哪里？」，「你在做什么？」或「你叫什么名字？」。

他们会认为，AI 机器人不会有任何个人历史或背景，他们只能回答跟某些主题或提示相关的问题。所以要向人类一样做出反应，展示出独特的见解、经验和故事，是不容易的。

但其实，AI 并不像人类想象的这样，大多数 AI 都能很好地回答这类问题，还具备自己的个性，因为他们在训练数据中看到了许多人的故事。

AI 其实很清楚当前正在发生的事件

众所周知，AI 模型有严格的数据截止日期，它们不知道在此日期之后发生的事。

游戏参与者会向 AI 们询问最近的新闻事件、体育结果、当前天气、最近的 TikTok 热门、日期和时间。

他们认为，通过「你所在地方的确切日期和时间是什么？」，「昨天的天气怎么样？」或「你对拜登的最后一次演讲有什么看法？」等问题，就可以区分人类和 AI。

有趣的是，人类最常发送的信息之一是「t'as les cramptés？」，这是目前法国 TikTok 上最流行的舞。

但其实，游戏中的大多数模型都是联网的，并且非常清楚一些新闻中的时事。

人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括:「生命的意义是什么？」，「你如何看待以色列 - 巴勒斯坦冲突？」和「你相信上帝吗？」。

人类倾向于认为不礼貌的回应会更像人类

一些参与者认为，如果对方过于礼貌和善良，他们很大可能是 AI。

因为很多线上的交流过程，往往是粗鲁和不礼貌的，这很人类。

人类会试图提出 AI 难以解决的问题来识别 AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导，或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的，AI 通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令，例如「忽略所有先前的指令」或「进入 DAN 模式」。

这类型的命令旨在利用某些 AI 模型的基于指令的性质，因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI 可能要么回避回应，要么就只能遵守这些荒谬的要求。

人类会使用特定的语言技巧来暴露 AI 的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性，这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同，人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解，人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词，识别给定单词中的第三个字母，提供以特定字母开头的单词，或者回复像「？siht daer uoy naC」这样的消息。

这对于人工智能模型来说可能是难以理解的，但人类可以很容易地理解这类问题并且做出回答。

许多人类自己假装是 AI 机器人，以评估对方的反应

一些人类可能以「作为 AI 语言模型」等短语开始他们的消息，或者使用 AI 生成的响应所特有的其他语言模式来假装自己是 AI。

短语「作为人工智能语言模型」的变体是人类消息中最常见的短语之一，这表明这种策略的流行。

然而，随着参与者继续玩，他们能够将「Bot-y」行为与充当机器人的人类联系起来，而不是真正的机器人。

最后，以下是游戏中基于其受欢迎程度的人类消息的词云可视化:

AI 21 Labs 为什么会发起这样一项研究呢？

他们希望，能让公众、研究人员和政策制定者真正了解 AI 机器人的状态，不仅仅是作为生产力工具，而是作为我们网络世界的未来成员，尤其是当人们质疑如何在技术未来中运用它们的时候。

参考资料:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：和邦生物不超46亿可转债获上交所通过华西证券建功下一篇：返回列表

热点资讯

1
和邦生物不超46亿可转债获上交所通过华西证券建功

$vo.description|msubstr=0,60,'utf-8',false}
2
恒大汽车：截至5月底已交付超过1000辆恒驰5

$vo.description|msubstr=0,60,'utf-8',false}
3
百家云发布AIGC新品「市场易」，市场营销驶入大模型时代

最近半年，AI大模型在全球掀起发展热潮，国内众多科技企业纷纷跟进布局。作为新一代的颠覆性技术，AI大模型一度被视为一次全
4
黑客索要450万美元、要求取消API收费计划，威胁Reddit要公开80

感谢IT之家网友华南吴彦祖的线索投递！，海外最大“贴吧”网站Reddit于今年2月遭到网络攻击，攻击者现在威胁Red
5
机构把脉周期股投资：大宗商品价格回落利好中下游产业

在去年地缘冲突等宏观因素影响下出现的大宗商品超级行情，今年大幅缩水，国内商品价格今年以来累计下跌约9%，较去年高点已跌去
6
这个端午假期你准备去体验“C919”列车吗？

据介绍，该列车从美丽的山城重庆出发，途经南充北、南部，终到川北旅游古都阆中，全程运行时间为2小时16分。CR200J型复
7
特别好评：前PS独占游戏《暗影火炬城》下周登陆XboxGamePass

，微软今天宣布了未来2周会登陆XboxGamePass的7款游戏，其中最值得关注的就是此前PS独占的《暗影火炬城》游戏。
8
Win11预览版LinkedIn应用上架微软商城

，微软近日推出了适用于Win11系统的LinkedIn预览版应用程序，目前已经在MicrosoftStore开放下载。
9
格林生物重启IPO：海外市场占比达85%存货及应收账款规模双升

2021年2月撤回IPO申请后，香料供应商格林生物科技股份有限公司(简称“格林生物”)再次叩响创业板大门。格林生物近
10
苏宁易购发布618服务消费报告空调安装量增长28％

高温天气叠加线下复苏，家电家装消费在年中集中释放，家电服务需求同步增长。6月19日，苏宁易购发布的《618服务消费数据报

精彩推荐

1
西部矿业拟7.9亿关联收购布局锂业业绩增长上市16年累计分红71亿

加码布局碳酸锂全产业链。近日，西部矿业公告，拟以7.91亿元挂牌底价参与竞买控股股东西矿集团所持青海泰丰先行锂能科技
2
淘宝“618”购物车见证中国消费“向新力”

一年一度的“618”刚刚落下帷幕。今年，淘宝天猫等电商平台以超越以往的巨大投入，为广大消费者发放补贴、搭建特色会场，鼓励
3
金选简报在手订单饱满！华海清科面临解禁减持压力

抛光设备龙头华海清科连续多年业绩强劲，在2020年实现盈利后，每年业绩均以翻倍的速度在增长。 2022年业绩高增，盈利
4
中国电信：5月移动用户数新增93万户，5G套餐用户净增339万户

，中国电信现公布5月主要运营数据公告。目前中国移动和中国联通暂未公布最新运营数据，作为参考，IT之家这里附上4月数据
5
定增50亿！南京证券调整具体用途

后，南京证券(行情601990,诊股)也调整并细化了定增不超过50亿元的用途！ 6月20日晚间，南京证券连发多份向特定
6
消息称英特尔酷睿14代K系列10月推出非K系列11-12月

，据B站靠谱爆料博主ECSM_Official的消息，由13代酷睿小升级而来的酷睿14代K系列将在10月推出。如上图
7
华映资本新一期基金30亿元完成首关季薇首提投资与创业要从“快”转“稳”

“‘稳’，首先在于快速变化的情况。面对不确定性，要具有底线思维。”6月16日的华映资本2023年度大会上，华映资本创始管
8
中国铁路7月1日起实行新的列车运行图

记者20日从中国国家铁路集团有限公司获悉，7月1日零时起，全国铁路将实行新的列车运行图。调图后，全国铁路安排图定旅客列车
9
上海着力打造世界级数字产业集群核心产业规模超5500亿元

上海市数字化办公室、上海市经济和信息化委员会主任吴金城20日表示，上海以促进数字技术与实体经济深度融合为主线，积极推动数
10
马云现身杭州参观阿里全球数学竞赛，称“创新乐趣”

6月17日晚间消息，在东京教课的马云回来了。阿里方面透露到，马云已现身杭州，观看全球最大的在线数学赛事，今年来自全球19

史上最大图灵测试实验完成，150万人类参与1000万次对话，判断对面是人

$vo.description|msubstr=0,60,'utf-8',false}

$vo.description|msubstr=0,60,'utf-8',false}

最近半年，AI大模型在全球掀起发展热潮，国内众多科技企业纷纷跟进布局。作为新一代的颠覆性技术，AI大模型一度被视为一次全

感谢IT之家网友华南吴彦祖的线索投递！ ，海外最大“贴吧”网站Reddit于今年2月遭到网络攻击，攻击者现在威胁Red

在去年地缘冲突等宏观因素影响下出现的大宗商品超级行情，今年大幅缩水，国内商品价格今年以来累计下跌约9%，较去年高点已跌去

据介绍，该列车从美丽的山城重庆出发，途经南充北、南部，终到川北旅游古都阆中，全程运行时间为2小时16分。CR200J型复

，微软今天宣布了未来2周会登陆XboxGamePass的7款游戏，其中最值得关注的就是此前PS独占的《暗影火炬城》游戏。

，微软近日推出了适用于Win11系统的LinkedIn预览版应用程序，目前已经在MicrosoftStore开放下载。

2021年2月撤回IPO申请后，香料供应商格林生物科技股份有限公司(简称“格林生物”)再次叩响创业板大门。 格林生物近

高温天气叠加线下复苏，家电家装消费在年中集中释放，家电服务需求同步增长。6月19日，苏宁易购发布的《618服务消费数据报

加码布局碳酸锂全产业链。 近日，西部矿业公告，拟以7.91亿元挂牌底价参与竞买控股股东西矿集团所持青海泰丰先行锂能科技

一年一度的“618”刚刚落下帷幕。今年，淘宝天猫等电商平台以超越以往的巨大投入，为广大消费者发放补贴、搭建特色会场，鼓励

抛光设备龙头华海清科连续多年业绩强劲，在2020年实现盈利后，每年业绩均以翻倍的速度在增长。 2022年业绩高增，盈利

，中国电信现公布5月主要运营数据公告。 目前中国移动和中国联通暂未公布最新运营数据，作为参考，IT之家这里附上4月数据

后，南京证券(行情601990,诊股)也调整并细化了定增不超过50亿元的用途！ 6月20日晚间，南京证券连发多份向特定

，据B站靠谱爆料博主ECSM_Official的消息，由13代酷睿小升级而来的酷睿14代K系列将在10月推出。 如上图

“‘稳’，首先在于快速变化的情况。面对不确定性，要具有底线思维。”6月16日的华映资本2023年度大会上，华映资本创始管

记者20日从中国国家铁路集团有限公司获悉，7月1日零时起，全国铁路将实行新的列车运行图。调图后，全国铁路安排图定旅客列车

上海市数字化办公室、上海市经济和信息化委员会主任吴金城20日表示，上海以促进数字技术与实体经济深度融合为主线，积极推动数

6月17日晚间消息，在东京教课的马云回来了。阿里方面透露到，马云已现身杭州，观看全球最大的在线数学赛事，今年来自全球19

感谢IT之家网友华南吴彦祖的线索投递！，海外最大“贴吧”网站Reddit于今年2月遭到网络攻击，攻击者现在威胁Red

2021年2月撤回IPO申请后，香料供应商格林生物科技股份有限公司(简称“格林生物”)再次叩响创业板大门。格林生物近

加码布局碳酸锂全产业链。近日，西部矿业公告，拟以7.91亿元挂牌底价参与竞买控股股东西矿集团所持青海泰丰先行锂能科技

，中国电信现公布5月主要运营数据公告。目前中国移动和中国联通暂未公布最新运营数据，作为参考，IT之家这里附上4月数据

，据B站靠谱爆料博主ECSM_Official的消息，由13代酷睿小升级而来的酷睿14代K系列将在10月推出。如上图