• 企业资讯

    首页 关于我们

    企业资讯

    千鱼数据集6月上新速递!!!
    发布时间:2025/06/12
    返回列表

    千鱼本月数据集重磅上新!!数据集覆盖语音识别、、、、语音合成、、、、自然语言处理及多模态四大核心领域,,,,有效提升训练数据质量,,,增强模型泛化能力,,,,加速构建更智能的AI系统!!!!

     

     核心亮点速览:

    ✔ 全球多语种正则/逆正则数据集

    →覆盖14个语种/地区、、、700人、、200小时、、、、17个数据类型

    ✔ 多语种正则数据集

    →支持20+语言、、26种标签类型、、、、多语言文本标注

    ✔ 5000小时中文双工数据集

    →6000人真实发音、、、多场景语音采集

    ✔ 方言&多语种平行语料库

    →含737小时粤语&闽南语日常对话、、、、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话

    ✔ 经典人物IP语音合成数据集

    →四大名著人物特色IP、、、、经典角色声音复刻

    ✔ 百类音效数据集

    →300小时多场景音效、、100个精细化三级分类

    ✔ 多国OCR数据集

    →30种语言覆盖、、、5万张数据图像采集

     

    全球多语种正则/逆正则数据集

    本次上新的语音及对应正则/逆正则文本数据集,,,,可以帮助大幅提升端到端语音识别模型在数字、、、、网址、、时间等场景下的表现。。。该数据集既可优化语音识别系统的文本标准化能力,,也可提高整体识别文本可读性,,便于后续的语义理解与处理。。。。

    产品规模:覆盖14个语种/地区,,700人,,,约200小时,,,可扩展至上千小时

    数据类型:包含17个类型,,,包含基数词、、、、小数、、、序数词、、百分比、、、、分数、、、单独数字、、电话/传真号码、、、数学、、时间表达、、、、日期表达、、、货币、、、电子邮件地址、、、、网址、、、单位、、、全球定位系统、、、、特殊符号等

     

    多语种正则数据集

    本次上新的正则数据集支持20+语言,,,,约26种标签类型,,,多语言文本数据标注,,,,对于构建跨语言NLP系统至关重要。。。。

    标签类型:共4大类,,包含数字相关、、、单位/货币相关、、、、时间相关、、数字字母符号混合

    涵盖语种:中文、、粤语(广州&香港)、、西班牙语、、意大利语、、、、日语、、韩语、、、、法语、、、德语、、、、葡萄牙语、、、、印尼语、、泰语、、俄语、、、越南语、、、土耳其语、、塔加洛语、、罗马尼亚语、、、印地语、、荷兰语、、、瑞典语、、、、波兰语、、挪威语、、、、丹麦语等

     

     5000小时中文双工数据集

    本次上新的双工数据集共5000小时,,,覆盖多终端、、、、多场景的真实对话,,,,反映用户在不同设备下的真实交互行为。。。。该数据集是构建中文对话式AI、、、、语音助手、、、、多模态大模型等应用的理想基础资源。。。。

    产品规模:6000人,,5000小时

    语料类型:日常闲聊/商务会议/AI/新能源

    环境要求:普通安静环境

    发音人信息:性别均衡

    正确率:字准97%

     

     方言&多语种平行语料库

    本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话(手机/电话采集),,,和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话(手机/电话采集),,目前,,翻译平行语料建设正朝着更智能、、、更专业的方向发展。。

    产品类别:粤语平行语料库-625小时(香港+广东)、、闽南语平行语料库-112小时(漳州+泉州)、、、、俄语/马来语/土耳其语/墨西哥西语各100小时对话

    数据类型:对话(日常)

     

    经典人物IP语音合成数据集

    本次上新的语音合成数据集涵盖了经典四大名著人物IP语音,,打造极具辨识度的角色IP语音库,,,精准还原人物性格特征,,,,适配不同应用场景需求。。。。

    特色IP:

    ·          贵族世家公子与才情少女

    ·          西天取经核心团队成员

    ·          传奇丸子头少年英雄
     

     

     百类音效数据集

    本次上新的百类音效数据集音效总时长300+小时,,,,包含4大一级分类、、22个二级分类 、、、100+精细三级分类,,覆盖环境音、、拟声音、、、、特效音等全场景需求,,,,显著提升合成语音场景适配性,,,增强语音交互沉浸感。。。

    一级分类:人类声音 (140H)、、、、环境声音 (70H)、、、动物声音(20H)、、机械声音(70H) 

    二级分类:如呼吸系统声、、心跳声、、、家养宠物、、风声、、水声、、建筑声音、、、、爆炸声等

    三级分类:如口哨声、、打嗝声、、蛙叫、、、溪流声、、风声、、、汽车鸣笛等

     

    多国OCR数据集

    本次上新的OCR数据集覆盖约30+国家/地区主流语种,,百万级高质量图像样本,,,包含广告牌、、、、菜单、、收据/小票、、、说明书等多元场景,,,大部分数据有标注结果,,准确率平均可达97%,,,可适配更多行业实际应用需求。。

    涵盖语种:中、、美、、法、、、德、、、意、、、、日、、韩、、、、葡、、俄、、西班牙、、印度、、、越南等

    覆盖场景:自然场景类、、文档类、、、、手写、、、、票据类等

    应用场景:多语种文字识别、、、票据识别、、、、复杂手写体识别等多场景OCR任务

     

    分享到微信朋友圈

    打开微信,,,点击底部的"发现"

    使用“扫一扫”即可将网页分享至朋友圈。。

    站点地图