计算机视觉都学会抢答了你呢?新研究使用图像回答问题 一周AI最

作者:admin发布时间: 2019-08-26

  原标题:计算机视觉都学会抢答了,你呢?新研究使用图像回答问题 一周AI最火论文

  呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!

  AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

  他们回顾了大量最新的对象检测工作,并系统地分析了当前的对象检测框架。他们的研究包括对象检测器组件、机器学习策略、实际应用和基准评估。他们还讨论了未来的发展方向,以促进深度学习的视觉对象检测。

  不可否认,在当今的人工智能系统中,对象检测是一项重要的技术。例如,它被用于最先进的驾驶辅助系统(ADAS)中,该系统允许汽车识别车道或检测行人和其他物体,以提高行驶安全。它在视频监控和图像检索应用中也很有用。

  这一工作有助于以结构化、系统的方式展示当前在对象检测方面的贡献。通过这种方式,到目前为止,人工智能社区通过深度学习获得了对对象检测的全面理解。此外,这项工作有助于激发对未来对象检测方法和应用的研究工作。

  美国埃默里大学(Emory University)的研究人员最近提出了一种新的模型,利用BERT作为词性标记、语法分析和语义分析任务的标记级嵌入。这是第一个使用BERT进行语法和语义分析的项目,它比传统方法简单得多,但同时却更准确。

  对于这三项任务中的每一项,研究人员都复制并简化了当前最先进的方法,提高了模型效率。然后,国务院参事徐宪平、王辉耀,精准杀肖杀头杀波公式,他们使用BERT生成的token嵌入来评估任务的简化方法。

  深度学习方法通常需要大量的计算和记忆。现在看来,研究人员已经从语法、语义和多语言视角发现了BERT有趣的特性。这项工作表明,可以使用更简单的模型来处理标记和解析。

  平均而言,在不损失精度的情况下,所提出的BERT模型比现有的性能最好的模型性能高出2.5%。研究人员和整个人工智能社区现在可以利用和改进这些模型,为未来建立强大的基准线。

  为了解决当前逐帧视频跟踪中存在的问题,谷歌的研究人员提出了一种潜在的解决方案,即使用一种名为时间周期一致性学习(TCC)的自监督学习方法。奥迪a1的产地在哪里,该方法利用相似序列过程中实例间的对应关系,学习适合于细粒度时间视频理解的表示形式。

  该模型的主要目标是学习帧编码器,使用网络架构处理图像,通过编码器将所有视频帧进行对齐,从而产生相应的嵌入。

  研究表明,每一帧嵌入都具有显著的潜力,可以实现一系列有趣的应用,包括无监督视频对齐、少镜头动作相位分类、视频间模态传输、视频帧检索等。

  随着对细粒度标记的需求不断增长,这项工作刺激了对可伸缩学习模型的需求,这种模型可以理解视频,而不需要像机器人、体育分析等应用程序那样繁琐的标记过程。

  包括TCC在内的代码已经发布,可以帮助视频理解方面的研究人员和希望使用机器学习实现视频对齐的艺术家们更好的工作。

  NTT媒体智能实验室与日本立命馆大学合作推出了一个新的数据集“ToyADMOS”,用于机器操作声音(ADMOS)中的异常检测。为了建立一个大规模的ADMOS数据集,研究人员通过故意破坏机器来收集微型机器的异常操作声音。 ToyADMOS大约有540小时的正常机器操作声音,包括超过12,000个异常声音样本,使用采样率为48 kHz的四个麦克风收集。

  它由三个子数据集组成,一个用于机器状态检查,一个具有几何形状固定任务下的机器故障诊断,一个具有移动任务下的机器故障诊断。每个子数据集包括超过180小时的正常机器操作声音和超过4,000个异常声音样本,使用四个麦克风以48 kHz采样率收集。

  ToyADMOS数据集可以帮助推动ADMOS系统的设计,这为深度学习研究进入异常声音检测领域打下了良好的基础。

  VideoNavQA是一个新的数据集,包含在House3D环境中生成的成对问题和视频。这一新发布的数据集能够从近乎理想的导航路径评估问答性能,同时考虑比当前EQA任务实例更全面的问题集合。

  他们在新的基准测试中,从常见的VQA方法中研究了许多模型。他们的工作初步了解了VQA风格的方法在这种新颖的EQA范例中的表现。

  VideoNavQA数据集在很大程度上有助于研究EQA类型任务的实用性,它可以帮助我们更好地理解EQA领域中的可实现内容,以及环境中丰富的元素。这项工作更像是Habitat Challenge的补充任务,其重点是导航,而不一定是问题回答。