【SZCCF·论文指导讲座】——探索人工智能领域对话及文本生成

人工智能领域近几年飞速发展,在图像、视频、游戏博弈、金融等大数据分析领域都实现了跨越式的进步并催生了很多改变日常生活的应用。近段时间,自然语言处理(NLP)成为了人工智能领域的一大研究热点。

而在基于自然语言的人机交互以及图像和视频和文本描述等任务中,对话及文本生成是最重要的核心步骤之一,同时这也是近年来 NLP 领域一大核心研究主题。目前,对话及文本生成方面的难题包括生成内容与上下文的一致性、融合常识等知识的方法、如何在保证相关性的同时提供新颖性和趣味性等问题都亟待解决。

深圳市计算机学会特邀两位来自腾讯 AI Lab 高级研究员、自然语言处理顶会ACL入选论文作者做论文指导讲座,涉及对话中的人设保持、固定格式文本生成和对话中的知识融合等研究方向。

会议流程如下:

一、主办单位

深圳市计算机学会

二、活动时间

2020年10月17日9:30-11:30

三、活动地点

深圳大学城内

四、活动安排

五、嘉宾简介及论文摘要

·王琰

王琰,博士,毕业于香港城市大学,现担任腾讯公司人工智能实验室(AI Lab)高级研究员,主要负责智能闲聊和文本生成相关的研究与算法工作。主导开发了腾讯AI开放平台智能闲聊服务,为腾讯数十款智能音箱、客服以及智能NPC产品提供千人千面的闲聊能力,并在ACL、EMNLP、NAACL、AAAI等自然语言处理和机器学习顶级会议发表论文二十余篇。

1. 宣讲论文题目:《Generate, Delete and Rewrite: A Three-Stage Framework for Improving Persona Consistency of Dialogue Generation》

2. 宣讲论文摘要:Maintaining a consistent personality in conversations is quite natural for human beings, but is still a non-trivial task for machines. The persona-based dialogue generation task is thus introduced to tackle the personality-inconsistent problem by incorporating explicit persona text into dialogue generation models. Despite the success of existing persona-based models on generating human-like responses, their one-stage decoding framework can hardly avoid the generation of inconsistent persona words. In this work, we introduce a three-stage framework that employs a generate-delete-rewrite mechanism to delete inconsistent words from a generated response prototype and further rewrite it to a personality-consistent one. We carry out evaluations by both human and automatic metrics. Experiments on the Persona-Chat dataset show that our approach achieves good performance.

3. 中文概要:对人类来说,在对话中保持一致的个性和人设是一件很自然的事情,但对于机器来说这仍是一个遥不可及的目标。因此,提出了基于人设的对话生成任务,希望通过将明确的角色信息融入到对话生成模型中来实现对话中的人设一致。本文提出了一种三阶段生成框架,通过采用生成-删除-重写(GDR)的机制来从生成的回复原型中删除不一致的单词并重写为人设一致的回复。研究者在 Persona-Chat 数据集上进行了实验,结果表明新提出的方法在人工和自动指标上均取得了非常好的表现。

·李丕绩

李丕绩,博士,毕业于香港中文大学,2018年8月加入腾讯AI Lab NLP中心任高级研究员,从事对话系统和文本生成相关的科研和落地相关工作。在相关领域顶级会议和期刊发表多篇论文。担任EMNLP 2020 summarization方向的Area Chair,多次担任ACL, EMNLP, NAACL, NeurIPS, SIGIR, TACL等会议和期刊的PC Member和审稿人。

1. 宣讲论文题目:《 SongNet: Rigid Formats Controlled Text Generation》

2. 宣讲论文摘要:Neural text generation has made tremendous progress in various tasks. One common characteristic of most of the tasks is that the texts are not restricted to some rigid formats when generating. However, we may confront some special text paradigms such as Lyrics (assume the music score is given), Sonnet, SongCi (classical Chinese poetry of the Song dynasty), etc. The typical characteristics of these texts are in three folds: (1) They must comply fully with the rigid predefined formats. (2) They must obey some rhyming schemes. (3) Although they are restricted to some formats, the sentence integrity must by guaranteed. To the best of our knowledge, text generation based on the predefined rigid formats has not been well investigated. Therefore, we propose a simple and elegant framework named SongNet to tackle this problem. The backbone of the framework is a Transformer-based auto-regressive language model. Sets of symbols are tailor-designed to improve the modeling performance especially on format, rhyme, and sentence integrity. We improve the attention mechanism to impel the model to capture some future information on the format. A pre-training and fine-tuning framework is designed to further improve the generation quality.Extensive experiments conducted on two collected corpora demonstrate that our proposed framework generates significantly better results in terms of both automatic metrics and the human evaluation.

3. 中文概要:基于神经网络的文本生成在各种任务中取得了巨大的进步。大多数任务的一个共同特点是,在生成时,文本不受某些严格格式的限制。但是,我们可能会遇到一些特殊的文本范式,如歌词(例如给定乐谱配词)、十四行诗、宋词等。就我们所知,基于预定义的硬性格式的文本生成还没有得到很好的研究。因此,我们提出了一个简单而优雅的框架,命名为SongNet来解决这个问题。该框架的骨干是一个基于Transformer的自回归语言模型。

六、报名注册

  1. 参会人员报名时间

·报名截止到2020年10月16日17:00。

深圳市计算机学会(SZCCF)官网:https://szccf.org.cn/

微信公众号:深圳市计算机学会

微信号:icnlab

联系电话:王宏刚  17898468114

报名后扫码进入讲座通知群

深圳市计算机学会

2020年10月13日