1. 首页 > 精选百科

自动化系统指南用户何时与人工智能助手协作 自动化系统指南pdf

导读 识别图像中的玩法的人工智能模型通常比人眼做得更好,但并非总是如此。如果放射科医生运用人工智能模型来帮助她确定患者的X光检查是否显示

识别图像中的玩法的人工智能模型通常比人眼做得更好,但并非总是如此。如果放射科医生运用人工智能模型来帮助她确定患者的X光检查是否显示肺炎迹象,她啥时候应该相信模型的提议,啥时候应该忽略它?

麻省理工学院和MIT-IBMWatsonAI实验室的研究人员表示,定制的入职步骤可以帮助这位放射科医生回答这个问题。他们设计了壹个系统,教用户何时与人工智能助手协作。

在这种情况下,训练方式也许会发现放射科医生相信模型提议的情况,但她不应该相信,因为模型是错误的。系统自动学习她应该怎么与人工智能协作的规则,并用自然语言描述它们。

在入职期间,放射科医生运用基于这些规则的训练练习来练习与人工智能合作,并接收有关她的表现和人工智能表现的反馈。

研究人员发现,当人类和AI合作执行图像预测任务时,这种入门程序可将准确性提升约5%。他们的结果还表明,仅告知用户何时信任人工智能而不进行培训会导致性能下降。

重要的是,研究人员的系统是完全自动化的,因此它学会根据人类和人工智能执行特定任务的数据来创建入职步骤。它还可以适应不同的任务,因此可以在人类和人工智能模型协同工作的许多情况下扩展和运用,例如社交媒体内容审核、写作和编程。

“通常情况下,人们在没有经过任何培训的情况下就可以运用这些人工智能工具,以帮助他们弄清楚何时会有所帮助。这并不是大家对人们运用的几乎全部其他工具所做的事情-几乎总是有某种教程“但对于人工智能来说,这一点似乎缺失了。大家正试图从方式论和行为的角度来化解这个问题。”数据研究所社会与工程系统博士项目的研究生HusseinMozannar说道。、系统与社会(IDSS)以及有关此培训过程的论文的主要作者。

研究人员预计,这种入职培训将成为医疗专业人员培训的重要组成部分。

“例如,人们可以想象,在人工智能的帮助下做出治疗决定的医生首先必须进行类似于大家提议的培训。大家也许需要从头思考从继续医学教学到临床试验设计方法的一切,”说资深作者DavidSontag,EE反恐精英教授,MIT-IBMWatsonAI实验室和MITJameelClinic成员,计算机科学与人工智能实验室(反恐精英AIL)临床机器学习组组长。

Mozannar也是临床机器学习小组的研究员,他与电气工程和计算机科学专业的本科生JiminJ.Lee一起参加了这篇论文。DennisWei,IBM研究院顶级研究科学家;PrasannaSattigeri和SubhroDas是MIT-IBMWatsonAI实验室的研究人员。该论文可在arXiv预印本服务器上获得,并将在神经信息处理系统会议上发表。

不断发展的培训

现有的人类与人工智能协作的入门方式通常由人类专家针对特定用例制作的培训材料组成,这使得它们难以扩展。莫扎纳尔说,一些相关技术依赖于解释,人工智能会告知用户它对每个决定的信心,但研究表明解释很少有帮助。

“人工智能模型的功能在不断发展,因此人类也许从中受益的用例随着时间的推移而不断增长。同时,用户对模型的看法也在不断变化。因此,大家需要壹个也不断发展的训练程序随着时间的推移,”他补充道。

为了实现这一目标,他们的入职方式是从数据中自动学习的。它是根据包含许多任务实例的数据集构建的,例如从模糊图像中检测交通灯的存在。

该系统的第一步是收集执行此任务的人类和人工智能的数据。在这种情况下,人类会试试在人工智能的帮助下预测模糊图像是否包含交通信号灯。

系统将这些数据点嵌入到潜在空间中,潜在空间是相似数据点更靠近的数据表示。它运用一种算法来发现该空间中人类与人工智能合作不正确的区域。这些区域捕获人类信任人工智能预测但预测错误的实例,反之亦然。

当图像显示夜间高速公路时,人类也许会错误地相信人工智能。

发现区域后,第二种算法通常会利用大型语言模型,运用自然语言来描述每个区域。该算法通过寻找对比示例来迭代地微调该规则。它也许会将该区域描述为“当夜间高速公路时忽略人工智能”。

这些规则用于构建训练练习。引导系统给人类展示壹个示例(在本例中是夜间模糊的高速公路场景)以及人工智能的预测,并询问用户图像是否显示交通灯。用户可以回答是、否,或者运用人工智能的预测。

如果人类错了,他们会看到正确的答案以及人类和人工智能在这些任务实例上的表现统计数据。系统对每个区域执行此操作,并在训练过程结束时重复人类错误的练习。

莫扎纳尔说:“在那之后,人类已经知道了这些区域的一些姿势,大家希望他们将来能够利用这些姿势来做出更准确的预测。”

入职提升准确性

研究人员在两项任务上对用户测试了该系统:检测模糊图像中的交通信号灯以及回答来自多个领域(例如生物学、哲学、计算机科学等)的多项挑选题。

他们首先给用户展示了一张CAG,其中包含有关人工智能模型、其训练方法以及其在广泛类别上的表现的详细信息。用户被分为五组:一些人只看到了CAG,一些人故事了研究人员的入门程序,一些人故事了基线入门程序,一些人故事了研究人员的入门程序,并向出了何时应该或不应该的提议相信人工智能,其他人只得到提议。

只有研究人员在没有提议的情况下的入门程序显着提升了用户的准确性,将他们在交通灯预测任务上的表现提升了约5%,而没有减慢他们的速度。然而,入职培训对于回答问题任务并不那么有效。研究人员认为,这是因为人工智能模型ChatGPT为每个答案提供知道释,表明它是否值得信任。

但在没有引导的情况下提供主推会产生相反的效果——用户不仅表现更差,而且需要更多时间来做出预测。

“当你只向某人提议时,他们似乎会感到困惑,不了解该做啥。这会破坏他们的步骤。人们也不喜爱被告诉该做啥,所以这也是壹个因素,”莫扎纳尔说。

他补充说,如果这些提议是错误的,单独提供提议也许会伤害用户。另一方面,对于新人入门来说,最大的限制是可用数据量。他说,如果没有足够的数据,入职阶段就不会那么有效。

未来,他和他的合作者希望进行更大规模的研究,以评估入职的短期和长期影响。他们还希望在入职步骤中利用未标记的数据,并找到有效减少区域数量而不遗漏重要示例的方式。