可视电话AI机可以描述它观察到的物体

2019-10-31 09:55:27

一个年幼的孩子可以观察他们面前的一切,描述他们所看到的--但是对于人工智能系统来说,这是一项令人望而生畏的任务。这是因为它结合了两种不同的技能:识别对象以及生成描述场景的句子的能力。多伦多大学和蒙特利尔大学的科学家们开发了一种基于脑细胞网络的软件,他们声称这种软件可以拍摄任何图像,生成字幕,并在大多数情况下得到正确的结果。

他们的方法建立在早期涉及自然语言处理的工作基础上--即将语言或文本从一种语言转换为另一种语言的能力--或者更广泛地说,从单词和句子中提取意义。多伦多大学的计算机科学家理查德·泽梅尔说:“这是图像信息和自然语言的结合。”“这就是这里的新鲜事--形象和文字的结合。我们认为这是一个翻译问题,“他说。“当你想把一个句子从英语翻译成法语时,你必须先用英语理解句子的意思,然后再把它转换成法语。”在这里,你需要图像的含义和内容,然后你可以把它翻译成文本。“

但是软件模型首先是如何“知道”图像中的内容的呢?在系统能够处理不熟悉的图片之前,它会被训练成一个庞大的数据集--实际上有三个不同的数据集,其中包含了超过12万张已经有标题的图像。该模型还需要了解在普通英语句子中,除了其他单词之外,还有哪些单词可能会被发现。例如,导致模型生成“船”一词的图像也可能使用“水”一词,因为这些词通常一起使用。此外,它还对图像中的重要内容有了一些了解。泽梅尔指出,例如,如果图像中有一个人,模型往往会在标题中提到这一点。

结果往往是死气沉沉的。其中一幅图片的标题是“背景是一座山的道路上的停车标志”--正如图片所显示的那样;它也是准确的,因为“一个女人在公园里扔飞盘”和“一只长颈鹿站在森林里,背景是树木。”但偶尔也会绊倒。当一张图片中有两只长颈鹿彼此靠近但远离相机时,它就把它们识别为“一只大白鸟”。一个蔬菜摊后面的小贩拿出了一个标题:“一个女人坐在一张桌子旁,摆着一个大比萨饼。”有时,相貌相似的物体会被误认为是另一种--例如,用锡箔包裹的三明治可能会被误认为手机(尤其是当有人拿在他们的脸上时)。泽梅尔说,在他们的测试中,该模型提出了“可能被误认为是人类”的标题--大约70%的时间。

泽梅尔说,一个潜在的应用可能是帮助视力受损的人。一个盲人可能会拍一张他们面前任何东西的照片,让系统生成一个描述场景的句子。它还可以帮助完成标记图像的繁重任务。(一家媒体机构可能希望立即找到所有在工厂里玩曲棍球或组装汽车的儿童的档案图片--如果硬盘上的数千张图片还没有贴上标签的话,这是一项艰巨的任务。)

模特在思考吗?泽梅尔说:“在模型所做的和大脑正在做的事情之间有相似之处。”特别是在代表外部世界和对场景的特定部分给予“关注”方面。“它正朝着我们试图实现的目标迈进,那就是让一台机器能够以一种反映理解的方式来构建我们日常世界的表示法。”

泽梅尔和他的同事们将在七月的国际机器学习会议上发表一篇论文,题为“展示、出席和讲述:视觉关注的神经图像标题生成”。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。