数据产品

视觉和音频信息是人类感知外部世界的主要来源。人脑整合异构多模态信息以获得对周围环境的整体了解。例如,在有多个发言者的鸡尾酒会场景中,我们可以利用嘴唇运动的变化来增强对感兴趣的人的讲话的接收。因此,视听学习对于探索人形机器的感知能力是必不可少的。每种感觉都提供有关周围环境的独特信息。尽管各种感官接收到的信息不同,但由此产生的环境表征是统一的体验,而不是不相关的感觉。


一个代表性的例子是麦格克效应:语义上不同的视觉和听觉信号产生单一的语义消息。这些现象表明,在人类感知中,来自多种感官的信号通常是整合的。人类有能力在已知模态的指导下预测与另一种模态相对应的信息。例如,在没有声音的情况下,我们只要看到嘴唇动作的视觉信息,就可以大致推断出这个人在说什么。音频和视觉方面的语义、空间和时间一致性为机器具有人形跨模态生成能力提供了可能性。跨模态生成任务现在涵盖各个方面,包括单通道音频生成、立体声生成、视频/图像生成和深度估计。除了跨模态生成之外,音频和视觉模态之间的语义一致性表明,一种模态的学习可以从另一种模态的语义信息中受益。这也是视听传输任务的目标。


此外,音频和视觉信息之间的语义一致性促进了跨模态信息检索任务的发展。 亿蝌语料视听训练数据集 155 小时 – 唇语同步多模态视频数据 多设备同时拍摄 249 人的语音和匹配唇语视频,通过脉冲信号精确对齐,准确度高。可用于语音和图像领域的多模态学习算法研究。 1,998 人 - 唇语视频数据 1,998 人 - 唇语视频数据。数据多样性包括多场景、多年龄段、多时间段。在每个视频中,都收集了 8 位阿拉伯数字的唇语。该数据集中共有 41,866 个视频,总时长为 86 小时 56 分 1.52 秒。该数据集可用于人脸反欺骗识别、唇语识别等任务。 1,178小时-美式英语口语视频语音数据 1,178小时美式英语口语视频语音数据是从互联网收集的视频片段的集合,涵盖多个主题。音频被转录成文本,并且注释说话者身份和其他更多属性。该数据集可用于声纹识别模型训练、机器翻译语料库构建和算法研究。 500小时-德语口语视频语音数据 500小时-德语口语视频语音数据,真实网站采集,涵盖多个领域。诸如文本内容和说话者身份等各种属性都被注释。该数据集可用于声纹识别模型训练、机器翻译语料库构建和算法研究。

auto_1359.jpg

支持定制个性化数据采集、标注需求

百万众客及时应对各种需求,支持复杂采集任务及专业化数据标注

我要定制

Copyright ecorpus.cn 亿蝌语料,语料中国 法律声明与隐私权政策