AI或将赋予视障者“看见这个世界”的超能力
AI或将赋予视障者“看见这个世界”的超能力

AI或将赋予视障者“看见这个世界”的超能力

Ask Envision,这是一个使用OpenAI的GPT-4的AI助手,它是一个多模态模型,可以接收图像和文本,并输出对话回应。这个系统是为视障人士提供辅助的产品之一,开始整合语言模型,承诺为用户提供关于周围世界更多的视觉细节,使他们更加独立。

Envision在2018年推出了一款智能手机应用,用于识别照片中的文本,并在2021年初在谷歌眼镜上推出了该应用。今年早些时候,该公司开始测试一种基于开源技术的对话模型,可以回答基本问题。随后,Envision将OpenAI的GPT-4用于图像到文本的描述。

Be My Eyes是一款用于帮助用户识别周围物体的应用,成立于12年前,于今年3月采用了GPT-4。微软是OpenAI的主要投资者之一,根据微软负责AI领域的Sarah Bird的说法,微软已开始对其SeeingAI服务进行GPT-4的集成测试,该服务提供类似的功能。

在早期版本中,Envision会从头到尾朗读图像中的文本。现在它可以对照片中的文本进行总结,并回答后续问题。这意味着Ask Envision现在可以读取菜单,并回答关于价格、饮食限制和甜点选择等问题。

根据早期测试人员Richard Beardsley的说法,他通常使用Ask Envision来查找账单上的联系信息或阅读食品盒上的成分列表。通过谷歌眼镜提供的无需使用双手的选项,他可以一边拉着导盲犬的绳子,一边使用该服务。他说:“之前,你无法跳转到文本的特定部分。有了这个功能,生活变得容易得多,因为你可以直接跳转到你要找的内容。”

将人工智能整合到助视产品中可能对用户产生深远影响,盲人计算机科学家、一家为博物馆、主题公园以及谷歌和微软等科技公司提供无障碍和包容性咨询服务的Sina Bahram表示。

Bahram一直在使用带有GPT-4的Be My Eyes,并表示,由于其功能和产品的轻松使用性,这个大型语言模型与之前的技术相比有了“数量级”的差异。他说,两周前他在纽约市的街上行走时,他的商业伙伴停下来仔细观察了一些东西。Bahram使用带有GPT-4的Be My Eyes了解到那是一组贴纸,其中一些是卡通形象,还有一些是文本和涂鸦。他说这种信息水平是“一年前在实验室之外不存在的东西”。

科罗拉多大学博尔德分校的计算机科学助理教授Danna Gurari表示,盲人成为技术采用的前沿,而不是事后的考虑,这是令人兴奋的,但也有些令人担忧,因为这样一个弱势群体不得不应对GPT-4的混乱和不完整性。

每年,Gurari在计算机视觉与模式识别会议上组织一个名为Viz Wiz的研讨会,将Envision等公司与人工智能研究人员和盲人技术用户聚集在一起。当Viz Wiz在2018年首次推出时,只有四个团队参加了研讨会。而今年,有50多个团队报名参加。

在对一些图像到文本模型进行早期测试时,Gurari发现它们可能会虚构信息,或者产生“幻象”。

她说:“从之前的采访中我们知道,当盲人得到这些信息时,他们更喜欢有所了解,而不是一无所知,这是很好的。问题在于当他们基于虚假信息做出决策时,这可能会让他们感到不满。”如果AI在错误地识别药物时出现描述错误,可能会导致危及生命的后果。

将有缺陷但前景看好的大型语言模型用于帮助盲人“看到”世界也会让他们暴露在AI错误识别人们年龄、种族和性别的倾向下。用于训练AI的数据集被已知存在偏向和偏见,编码了偏见和错误。计算机视觉系统在物体检测方面存在西方偏见的历史,而人脸识别对亚洲人、跨性别者和肤色较深的女性等群体的输出结果也不够准确。

巴赫拉姆承认这些都存在风险,并建议系统为用户提供一个置信度评分,以便他们能够更明智地决定AI认为自己看到的是什么。但他说,盲人有权利获得与视觉人士相同的信息。“对每个视觉人士来说,假装他们不会立即注意到(诸如性别或肤色之类的属性),无论他们是否采取行动,都是一种不公平的行为,”他说。“那么对于没有获得视觉信息的人来说,这种(隐藏)是公平的吗?”

技术不能赋予盲人基本的独立移动能力,但Ask Envision的测试用户对该系统印象深刻。当然,它也有局限性。