全球最大甲骨文多模态数据集开源


“数字甲骨共创中心”将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。

基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,加速甲骨文研究智能化进程。

地址:https://www.jgwlbq.org.cn/home

数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯 SSV 数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起,并获得中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等全球高校和研究机构的支持。

此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。


相關推薦

2023-09-05

万个中文语音样本,42.8 万个英文语音样本;是目前所知最大的中英文语音-文本跨模态指令跟随数据集。不过其目前还在整理中,官方表示整理完后会进行开源。 更多详情可查看完整论文。

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-03-02

组织,推动国内外开发者协同创新。通过开源开放方式,全球开发者可以自由探索、共同贡献、协同创新。未来,FlagOpen也将支撑全球AI企业、机构基于FlagOpen构建AI大模型软件发行版本、平台、商业软件等。 FlagOpen开源平台入

2023-08-16

等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容积累与上海A

2023-09-07

讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评

2023-03-31

AION-AI 发布了 OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM)的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示

2023-08-19

水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

2023-10-11

软件”产品商业化能力备受市场认可。2020年被Gartner列入全球AutoML关键供应商库,并连续四年入选 IDC中国机器学习开发平台厂商全国Top3。在全球人工智能开源领域,自主研发的多项全球首个开源项目,填补AI领域技术空白,引领

2023-10-18

。 3、政策影响 世界已划分出明确的监管阵营,但全球治理的进展仍较为缓慢,最大的人工智能实验室正在填补这一空白; 据预测,人工智能将影响一系列敏感领域,包括选举和就业,但我们还没有看到显著的影响。

2023-07-08

会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享。 在7日下午举行的大会主题演讲中,华为

2023-11-06

大语言模型测评MME中,综合得分排名第一。该评测首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知

2024-10-22

开发生成式 AI 时高出三倍。 包括微软、亚马逊、谷歌和甲骨文在内的几家全球最大的数据中心运营商已宣布投资核能,以抵消其日益增长的不可再生能源消耗,但这些投资可能需要数年时间才能见效。 对生成式 AI 初创公司的

2023-08-26

模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言(Vision Langua

2023-03-21

这种程度的下载量实际上已经维持了三四个月。他认为,甲骨文全新的 Java SE 定价模式加速了 Temurin 的采用;且这一同比增长也确实表明,它对那些寻求强大、安全、高质量 Java 运行时的开发人员和企业具有吸引力。 事实上,