数据产品

语料库(Corpus)指大量文本的集合。库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。

广义语料库(General corpus) 指存储在计算机中具有特定格式与标记的文本、声音、图像和视频的集合。

平行语料库(Parellel corpus)是指具有两种意思对应的语言文本的集合。

语料库又被称为"语料集",大多数时候和“数据集(Dataset)"通用。

多模态语料库(Multimodal corpus)是以言语活动为研究对象,以从原始数据中抽取信息和知识为手段,以语境模型为驱动的囊括整个言语活动的语言、声音、图像和动作的多媒体语料库(例如文本-图片语料、文本-视频语料)。


四川亿蝌语料信息技术有限公司(eCorpus Inc.) 成立于2022年,是一家专注于自然语言处理技术的研发公司;同时也是拥有最全面平行语料库资源的公司,被称为中国第一平行语料库供应商。

随着数据科技的崛起,传统语言学方法已经不能为人工智能研究赋能。语料库已经成为现代语言学,机器学习,自然语言处理,机器翻译和人工智能研究的基本材料。我们采用最新的数据标记和整理方法,从真实翻译人员或团队收集了海量双语文本,形成了各种可以用于多种计算机化研究的平行语料库。同时,我们从录音团队、拍摄团队以及政府机构,非政府组织以及其他原始数据产生单位采集了大量文本、音频、图片、视频以及多模态(例如,视频-文本数据)数据,并进行结构化加工和标记,形成人工智能开发可以直接使用的语料集或数据集。

QQ截图20240319095749



成品数据(Off-the-Shelf Dataset)

我们现有的成品数据集(dataset)包括 20 万小时语音数据集、800TB 计算机视觉数据集、约 20 亿条自然语言处理(NLP)数据和 5TB 非标记文本数据(LLM)。数据质量已通过全球人工智能公司的测试并获得信任。

QQ截图20240319100248


数据服务(Data Service)

配备专业的数据采集设备、工具和环境,以及在数据采集和质量控制方面经验丰富的项目经理。我们可以满足各种场景和类型的数据收集要求。

QQ截图20240319100307


行业经验(Experience in Industries)

我们的员工大多拥有多年数据处理经验,深入了解不同场景的数据需求;亿蝌语料拥有可靠的数据采集、标注工具和自动数据处理能力,提供外语教育、机器翻译引擎开发、大语言模型研究、对话机器人语料制作、车载、智能家居、AR/VR等多场景数据解决方案。

QQ截图20240319100331



核心价值:通过高质量的数据服务,为人工智能产业的快速发展提供坚实的基础设施。



支持定制个性化数据采集、标注需求

百万众客及时应对各种需求,支持复杂采集任务及专业化数据标注

我要定制

Copyright ecorpus.cn 亿蝌语料,语料中国 法律声明与隐私权政策