中新社北京分社正文

超大规模新型预训练模型“文汇”发布

2021年01月13日 11:14 来源:中新网北京

  中新网北京新闻1月12日电  超大规模新型预训练模型“文汇”日前发布,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型运用数据驱动的方法建构预训练模型,将用户行为、常识知识以及认知联系起来,让AI主动“学习”与创造。

  此次“文汇”模型发布,是由北京智源人工智能研究院(下称“智源研究院”)、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等共同发布的。

  数据显示,“文汇”模型参数规模达113亿,仅次于DALL·E模型的120亿参数量,是目前我国规模最大的预训练模型,已实现与国际领先预训练技术的并跑。

  为推动我国自主的大规模预训练模型,解决目前国际主流模型存在的问题,2020年10月,智源研究院启动了新型超大规模预训练模型研发项目“悟道”。

  此次发布的是“文汇”(面向认知的超大规模新型预训练模型)的一期研发成果,主要用于自动生成图片、文字以及视频,具有初级的认知能力。

  智源研究院院长、北京大学信息技术学院教授黄铁军指出,“文汇”模型针对性地设计了多任务预训练方法,可以同时完成文→文、图→文以及图文→文等多项任务,实现对多个不同模态的概念理解。经过预训练的“文汇”模型不需要进行微调就可以完成“用图生文”等任务,对模型进行微调则可以灵活地接入如视觉问答、视觉推理等任务。

  目前,“文汇”模型已支持基于认知推理的多种自然语言及跨模态应用任务,部分应用即将与搜狗、阿里巴巴、学堂在线、智谱.AI、循环智能等机构合作上线。

  目前已有四个样例应用可用于展示模型效果:

  (一)基于上传图片的开放域问答

  本应用基于图片文本的多模态认知预训练百亿模型,可以支持用户上传图片后,针对图片内容进行提问或生成图片的一句话描述。如上传图片后询问“图片中的电脑在水杯的什么位置?”或“生成对应商品图片的一句话描述”。将于未来大规模应用于阿里的电商场景。

  (二)语言操作数据可视化

  本应用基于数据可视化技术,通过将自然语言转化为可视化查询语句QUDA,从而达到“上传图表,输入指令,输出可视化图像”的功能目标。只需要一句自然语言的话,就可以实现数据的可视化自动统计与查询。

  (三)基于预训练语言模型的诗词创作应用

  本应用可以基于输入的诗歌题目、朝代、作者,生成仿古诗词。与传统基于规则或监督学习的诗歌生成不同,这个应用创作的诗歌来自于自然语言的生成,且无标注数据进行fine-tune,并且可以模仿任意诗人创作任意新颖题目的诗歌,如《赠抗疫英雄》唐李白。

  (四)可控人设的开放域问答

  本应用支持用户上传问题,并生成具有人物角色风格的定制化文本回答。与传统的开放式问答不同,“文汇”模型生成的答案具有人设的语言特色,问答内容趣味横生。目前该应用将计划在搜狗的问答场景中使用。

  下一步,智源研究院将联合优势单位加快以上四类大规模预训练模型的研发进度。并计划在今年6月实现“中文自然语言应用系统”“基于图文增强和知识融入的图文应用系统”“基于认知的复杂认知系统”等一批各具特色的超大规模预训练模型,以期达到对国际领先AI技术的赶超,尽快实现我国在国际AI前沿技术研究的领跑。(完)

编辑:陈建

中国新闻社北京分社版权所有::刊用本网站稿件,务经书面授权
主办单位:中国新闻社北京分社 地址:北京市西城区百万庄南街12号 邮编:100037
信箱: beijing@chinanews.com.cn  技术支持:中国新闻社网络中心