Dialogue Transformers——RASA TED policy 论文翻译

Dialogue Transformers是rasa工程师为多轮对话管理提供的一种思路。使用Transform架构管理对话,把self-attention机制应用到每一轮对话序列上。当前常见做法是使用层次RNN去编码多轮对话,这个假定了每轮对话都与完整序列相关,当当前对话有多个话题重叠时候,就会出现偏差。而transform架构,会通过selfattention机制,适当的忽略无关的历史上文,改进了RNN的缺陷。


在现实中,对话中的每一句话不一定都是对另一方最近的一句话的回应。有些会话是一组交错的话语片段,这些会话的顺序不能直接在谈话中互相跟踪。一个直观的例子是如下,这是个面向任务的对话系统中。

BOT: Your total is $15.50 - shall I charge the card you used last time?

USER: Do I still have credit on my account from that refund I got?

BOT: Yes, your account is $10 in credit.

USER: Ok, great.

BOT: Shall I place the order?

USER: Yes.

BOT: Done. You should have your items tomorrow.

这个对话本来是支付钱的,但是中途插进了一个查询余额的片段。

在目前多轮对话有两种方法。

第一种,Dialogue Stacks,这种模型认为子对话都存在于堆栈上,其中新主题到来时候引入到堆栈上,并且主题结束后就从堆栈中弹出,然后继续堆栈中的下一个主题。简单的理解,就是类似于函数调用,调用新函数时候,CPU将旧函数信息压入到堆栈,函数执行完成后,出栈。

在20世纪80年代,Groz和Sidner提出将对话历史作为一个话题堆栈[参考文献3],RavenClaw实现了对话系统用于处理子对话的特定目的的堆栈[参考文献4]。虽然堆栈自然允许处理和结束子对话,但堆栈的严格结构也有局限性。RavenClaw的作者主张显式地跟踪主题,以支持用户意图的上下文解释。但是,一旦从对话堆栈中弹出一个主题,它就不能再提供此上下文。在上面的示例中,用户可能会再问一个 so that used up my credit, right?如果refund credits的主题已经从堆栈中弹出,这将不再有助于澄清用户想知道什么。因为,在对话过程中,我们不能限制人们主题交错和重新介入的这些方式,因此我们需要一种比堆栈更灵活的架构。

第二种,RNN,近年来,一种常见的选择是使用RNN来处理多轮对话序列,无论是对于开放域[5,6]还是面向任务的系统[7]。我们期望,只要有足够的训练数据,RNN应该能够学习任何期望的行为。然而,在当前没有足够的语料库的情况下,并不能保证RNN可以学习生成这些行为。Vlasov等人[2]和Sahay等人[8]曾对RNN的基本结构进行修改,以将这种行为的归纳偏差纳入对话策略中,以此克服RNN的不适合对话建模的一个特性,RNN使用整个输入元素序列来生成编码,除非更复杂的结构(如长短期内存(LSTM))单元被训练到足够的数据上,以明确地知道它应该“忘记”序列的一部分。

第三种,transform,近年来,transformer架构取代了RNN作为语言模型训练的标准,通过transformer XL[9]和GPT-2[10]等模型,在一系列语料上都实现了低困惑度,并产生了对各种下游任务有用的表示法[11,12]。此外,transformer对意外输入(例如对抗性示例)更为稳健[13]。直观地说,由于self-attention预先选择了哪些标记将对编码器的当前状态起作用,transformer可以忽略序列中不具信息性(或对抗性)的token。为了在每个时间步进行预测,LSTM需要更新其内部内存单元,并将此更新传播到下一个时间步。如果当前时间步的输入是意外的,内部状态会受到干扰,在下一个时间步,神经网络会遇到一个与训练过程中遇到的任何情况都不同的记忆状态。transformer通过self-attention机制来解释时间历程,使每个时间步的预测相互独立。如果一个变压器接收到一个不相关的输入,它可以忽略它,只使用以前的相关输入进行预测。由于transformer在每一步都选择序列中的哪些元素来产生编码器状态,我们假设它可能是处理对话历史的一个有用的架构。会话中的话语序列可能代表多个交错的话题,而transformer的self-attention可以同时学习如何理清这些话语片段,并做出适当的回应。

当前使用transform的相关工作有:

a. Transformers for open-domain dialogue,很多作者最近在对话建模中使用了transformer架构。Henderson等人[14]在Reddit的一个大型数据集上训练响应选择模型,其中对话上下文和响应都用Transformers编码。这些架构可以在一个大型的、多样化的数据集上进行预先训练,然后针对特定领域中的面向任务的对话进行微调。Dinan等人[15]使用了类似的方法,使用transformers对对话上下文以及背景知识进行编码,以研究基于开放域的对话。他们提出的体系结构有两种形式:一种是检索模型,transformers对通过排序选择的候选响应进行编码;另一种是生成模型,其中使用一个transformers作为解码器,逐项生成响应。我们的解决方案和这些方法的关键区别在于,我们在语篇层面上运用self-attention,关注的是对话的顺序,而不是单个回合中的标记序列。

b. Topic disentanglement in task-oriented dialogue,最近的研究试图为对话策略生成神经网络结构,以此可以在单个会话中处理交错的语篇片段。Vlasov等人[2]引入了递归嵌入对话策略(REDP)架构。REDP的ablation study强调REDP性能的提高是来源两方面,一个是对话历史上的注意机制,一个是从意外用户输入中恢复的复制机制。对标准RNN结构的这种修改使对话策略能够“跳过”对话历史中的特定回合,并在意外输入前后产生相同的编码器状态。Sahay等人[8]进一步发展了这个研究路线,他在不同注意力机制中,引入masking,提高有效性。在这项工作中,并没有扩充基本的RNN架构,而是用一个transformer取代它。默认情况下,RNN处理序列中的每个项目以计算编码。REDP的修改是因为并非所有的对话历史都是相关的。基于这个原因,可以进一步用self-attention来代替RNN,不需要先验假设整个序列是相关的,而是对话策略应该选择哪些历史转折点,并选择相关响应。


我们Transformer Embeding Dialog(TED)Policy,大大简化了REDP的体系结构。与REDP类似,我们不使用分类器来选择系统操作。我们通过联合训练每个对话状态和每个系统动作的最大相似性。在推理时,将对话的当前状态与所有可能的系统动作进行比较,选出相似度最高的一个。[14,16,17]在任务型对话检索模型的训练中也采用了类似的方法。图1说明了TED policy的两个时间步骤(即对话回合)。一个步骤由几个关键部分组成。

a、 首先要特征化,策略将用户输入、系统动作和时隙特征化。TED策略可以是端到端的,也可以是模块化的。模块化方法类似于基于POMDP的对话策略[18]或混合代码网络[7,19]。使用外部自然语言理解系统,用户输入被特征化为一个二进制向量,表示识别的意图和检测到的实体。对话策略从一个固定的系统动作列表中预测一个动作。系统动作的特征是以二进制向量表示动作名称,遵循[2]中详细解释的REDP方法。“端到端”的方法指的是对话序列之外没有监督。也就是说,NLU输出或系统动作名称没有黄金标签。TED是一个end-retrieval模型,它并不生成一个新的策略响应。在端到端的设置中,用户和系统的话语被编码为词袋向量。在对话的每一步,槽总是以二进制向量的形式来表示它们的存在、不存在或值对用户重不重要。我们使用一个简单的槽跟踪方法,用最近的值覆盖每个槽。


b. Transformer结构

Transformer的输入是用户输入和系统动作的序列。因此,我们利用transformer中的self-attention机制,在每轮对话中,动态地访问历史对话的不同部分。对历史对话的关联性是从数据中学习出来的,并在每轮对话中重新计算。最重要的是,它允许对话策略在这一轮对话中考虑用户的话语,而在另一个轮对话中完全忽略它。

c. Similarity

一轮对话的损失函数来自于一个向量空间,这个空间是所有负采样的汇总和每一步的损失的平均值汇总到一轮对话上。

总的损失函数就是,所有的每步对话的损失函数的平均值。

在推理阶段,点积相似度就作为下一个对话的检索问题的

在模块化训练中,我们使用平衡批处理策略来减轻不同类别的不平衡,因为有些系统动作要比其他动作频繁得多。


我们的实验目的是比较LSTM的性能。具体地说,我们想测试TED的策略,在对话历史中找出相关的对话轮次,以便进行下一步格行动预测。因此,我们需要一个会话数据集,系统动作依赖于多轮对话历史。这个要求排除了像WikiQA[21]这样的问答数据集作为评估的候选。此外,系统动作需要做标记以评估下一个操作检索的准确性。注意,这些指标如召回率@k[22]可以用在未标记的数据上,但由于典型的对话包含许多通用的回答,例如“是”,在许多情况下都是正确的,因此召回率@k值得怀疑。因此,我们从实验中排除了未标记的对话语料库,如Ubuntu对话语料库[22]或MetalWOZ[23]。



图2。REDP、TED策略和LSTM基线策略在[2]中的数据集上的性能。并表示3条阴影区域的平均偏差。横轴表示用于训练模型的训练对话量,纵轴表示测试集中每个动作都被正确预测的对话数。

目前唯一可以同时满足我们两个标准的对话数据集是REDP数据集[2]、MultiWOZ[24,25]和Google Taskmaster-1[26]。对于后者,我们必须从实体注释中提取操作标签,这并不总是可行。在我们的实验中,两个不同的模型作为基线。首先,Vlasov等人[2]提出的REDP模型是专门为处理长期历史依赖而设计的,但它是基于LSTM的。其次,另一个基于LSTM的策略与TED相同,只是transformer被LSTM替换了。我们使用第一个(REDP)基线对[2]数据集进行实验,因为当长程依赖性起作用时,这个基线会更强。对于MultiWOZ实验,我们只与简单的LSTM策略进行比较,因为MultiWOZ数据集几乎与历史无关。所有实验都可以在github.com/RasaHQ/TED-p中看到

A. Conversations containing sub-dialogues

我们首先在Vlasov等人的数据集上评估实验[2]。此数据集专门用于测试对话策略处理中非合作或用户输入异常的能力。它由饭店预订领域中的面向任务的对话组成,包括合作(用户提供与任务相关的必要信息)和非合作(用户提出与任务无关的问题或进行闲聊)对话。这个数据集的一个特性是,系统在非合作用户行为出现之后,可以重复前面提出的问题。[8]中也使用这个数据集来比较不同注意机制的性能。图2显示了不同的对话策略在测试对话中的表现,这是用来训练模型的对话轮次量的功能。TED策略的性能与REDP不相上下,没有任何专门设计的体系结构来解决任务,并且显著优于基于LSTM的简单策略。在极端低数据环境下,TED政策的表现优于REDP。值得注意的是,REDP在非合作性对话以后,严重依赖其复制机制来预测先前提出的问题。然而,TED策略既简单又通用,在不依赖对话属性(如重复问题)的情况下也能实现类似的性能。此外,由于transformer架构,TED策略的训练速度比REDP快,并且需要更少的训练时间来达到同样的精度。


图3。一个例子说明TED策略的注意权重对话。在垂直轴上是预测的对话轮次,横轴上是对话历史TED策略的出现次数。我们使用单向transformer,所以上面的三角形用0来mask以避免参与到未来的对话轮次。

图3在显示了一个对话中TED policy的attetion权重。这个示例在对话的中间包含几个闲聊。图中显示,当尝试完成任务时,自我注意机制会完全忽略这一系列的闲聊互动(即提出进一步的所需问题)。请注意,即使TED策略没有使用稀疏attetion体系结构,学习的权重也是稀疏的。重要的是,TED政策从历史中选择与当前预测相关的关键对话步骤,而忽略了不具信息性的历史对话。在这里,我们只看到一个对话,但是对于任意数量的闲聊对话,结果是相同的。


B. Comparing the end-to-end and modular approaches on MultiWOZ

在证明了轻量级TED策略的性能至少与专用REDP不相上下,并且在对包含长期历史依赖的会话进行评估时显著优于基本LSTM策略,我们现在将TED与MultiWOZ 2.1数据集上的LSTM策略进行比较。

与上一节不同,本节的LSTM策略是一种与TED相同的架构,但是transformer被LSTM单元取代。我们选择MultiWOZ作为这个实验,因为它涉及多轮对话并提供系统动作标签。不幸的是,我们发现它并不包含很多长程依赖项,我们将在本节后面的部分中演示。因此,TED和REDP在概念上都没有LSTM的优势。随后我们展示了TED策略在这个常用的基准数据集上的性能与LSTM相当。multiwoz2.1是一个包含10438个人类对话的数据集,用于Oz向导的七个不同领域:酒店、餐厅、火车、出租车、景点、医院和警察。特别的是,对话是在用户和职员(向导)之间进行的。用户请求信息,向导可以访问关于用户可能要求的所有内容的知识库,提供该信息或执行预订。对话用向导操作的标签进行注释,以及向导在每个用户回合后对用户目标的了解。在我们的实验中,我们将multiwoz2.1数据集分成训练集和测试集,分别包含7249和1812个对话。不幸的是,我们不得不完全忽略1377个对话,因为它们的注释是不完整的。

a、 端到端训练。作为multiwoz2.1的第一个实验,我们研究了一个端到端的检索设置,其中用户的话语直接用作TED策略的输入,然后从预定义的列表(从MultiWOZ中提取)中检索正确的响应。向导的行为取决于对知识库的查询结果。例如,如果只返回一个场地,向导可能会引用它。我们通过(i)删除所有用户和向导的话语来边缘化这种知识库依赖性[27],以及(ii)引入状态槽来指示场地是可用的、不可用的、已预订的还是唯一的(即向导将在下一轮推荐或预订特定场地)。这些插槽的特征是1-K维的二进制向量。

表1.端到端和模块化模式下TED policy的准确性和F1分数,以及采用更换为LSTM的transformer。模型评估依据使用max history N.All scores的MultiWOZ 2.1数据集

关注测试集上操作级别的预测。为了计算TED策略预测的准确性和F1分数,我们将MultiWOZ数据集提供的动作标签(例如request_restaurant)分配给输出语句,并将其与正确的标签进行比较。如果存在多个标签,我们将它们按字母顺序连接到单个标签。表一显示的结果F1分数和精度在hold-out测试集。F1分数与准确度之间的差异源于这样一个事实:与大多数其他标签相比,一些标签,s.a.bye_general,出现频率非常高(4759次),而美国推荐的“餐厅”【U select_restaurant】,仅出现11次。与1.0相比,准确性和F1分数通常较低,这一事实源于MultiWOZ dialog数据集更深层的问题。特别是,由于向导的多个特定行为在大多数情况下被认为是“正确的”,MultiWOZ数据集不适合在监督下学习对话政策。换言之,向导在MultiWOZ中的一些行为不是确定性的,而是概率性的。例如,当向导应该询问用户是否需要其他内容时,就无法了解,因为这是担任向导角色的人员的个人偏好。我们在[28]中详细阐述了MultiWOZ数据集的这一问题和其他几个问题。

b. 模块化训练.

FIG. 4. MultiWOZ 2.1 dialogue SNG0253, as-is (first column), as predicted by the end-to-end TED policy (second column), and as sequence of user intents and system actions predicted by modular TED policy (third column). The two predictions are sensible, yet incorrect according to the labels. Furthermore, the end-to-end and modular TED policies make similar kinds of mistakes.


我们现在重复上述实验,使用相同的MultiWOZ对话子集,但现在采用模块化方法。我们模拟了一个外部的自然语言理解管道,为TED策略提供了黄金用户意图和实体,而不是原始的用户话语。我们从向导的信任状态的变化中提取意图。这种信念状态由MultiWOZ数据集以一组槽位(例如餐厅区、酒店名等)的形式提供,在每轮用户对话后更新。因此,一个典型的用户意图是通知{“restaurant_area”:“south”}。然而,用户并不总是提供新的信息,因此其意图可能只是通知(没有任何实体)。如果这个对话的最后一个用户意图是不具信息性的,我们假设它是一个告别,因此将其注释为bye。使用模块化方法而不是端到端学习可以使F1分数翻倍,同时也可以稍微提高精确度,如表1所示。这并不奇怪,因为模块化方法接受了额外的监督。虽然分数表明模块化TED策略比端到端TED策略表现更好,但所犯错误的种类是相似的。我们用测试集中的一个示例对话框SNG0253来演示这一点,如图4所示。图4的第二列显示了端到端的预测。这两个预测的反应都是合理的,也就是说,这些反应可能来自人类。然而,这两个结果都被标记为错误的,因为根据黄金对话(第一栏),第一个答案应该只包括第二句话(request_-train,而不是inform-train)。然而,对于第四轮,情况正好相反:根据目标对话,响应应该包括关于列车的附加信息(inform_train_request_train),而预测对话只要求更多信息(request_train)。第三栏显示模块化的TED策略也犯了同样的错误:它不是只预测请求序列,而是预测在第二个轮中同时采取两个动作,inform action和request action。在最后一个回合,模块化TED策略预测reqmore_general,而不是request_train,这意味着向导会询问用户是否需要其他任何东西。这个回答非常合理,事实上也出现在训练集的类似对话中(例如,见对话PMUL1883)。因此,不存在正确的行为,也不可能获得高分,如表1的测试分数所示。据我们所知,使用MultiWOZ进行下一个动作检索的最新F1分数由[17]和[29]给出,分别为0.64和0.72。然而,这些数字并不能直接与我们的比较:我们从所有56128个可能的回答中检索操作,并将检索到的响应的标签与正确响应的标签进行比较,而它们从20个阴性样本中检索并直接比较文本响应。


c. History independence

如表一所示,只考虑最后两轮(即当前用户的话语或意图,以及在此之前的一个系统动作),而不是最后10轮,端到端的准确度和F1分数下降不超过0.04,模块化架构不超过0.08。对于我们在下一段中讨论的端到端LSTM架构,如果考虑较少的历史记录,性能甚至会提高。因此,MultiWOZ似乎对对话历史的依赖性很弱,因此我们无法评估TED政策处理对话复杂性的能力。

d. Transformer vs LSTM.

作为最后的实验,我们用LSTM替换了TED架构中的transformer,并进行了与之前相同的实验。结果如表1所示。LSTM和transformer版本的F1分数相差不超过0.05,这是可以预期的,因为在MultiWOZ中,绝大多数信息都是由最近的一个回合携带的。然而,LSTM版本缺少transformer版本的准确性。具体来说,LSTM的端到端培训的准确度得分要低0.13分。由于我们在本节前面已经指出的模棱两可的问题,很难断言这种差异的原因。


结论

我们介绍了一种transformer embedding dialogue(TED)策略,在该策略中,transformer 的self-attention机制在对话轮次的顺序上运行。我们认为这是一个比RNN更合适的体系结构,因为在现实生活中存在交叉主题。我们证明了TED策略可以以模块化和端到端的方式应用于MultiWOZ数据集,尽管我们也发现,由于缺乏历史依赖性和对个体群体工作者偏好的依赖性,该数据集不适合用于对话策略的监督学习。我们还对一个面向任务的数据集进行了实验,专门用来测试从非合作用户行为中恢复的能力。TED更快、更简单、更通用,TED policy的性能优于基线LSTM方法,并与REDP不相上下。我们证明学习的注意权重很容易解释,并且反映了对话逻辑。在每一个对话回合,一个transformer选择前几轮对话,给出当前预测,有选择地忽略或关注对话历史的不同轮次。


[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017.

[2] Vladimir Vlasov, Akela Drissner-Schmid, and Alan Nichol. Few-shot generalization across dialogue tasks. arXiv preprint arXiv:1811.11707, 2018.

[3] Barbara J Grosz and Candace L Sidner. Attention, intentions, and the structure of discourse. Computational linguistics, 12(3):175–204, 1986.

[4] Dan Bohus and Alexander I Rudnicky. The ravenclaw dialog management framework: Architecture and systems. Computer Speech & Language, 23(3):332–361, 2009.

[5] Alessandro Sordoni, Yoshua Bengio, Hossein Vahabi, Christina Lioma, Jakob Grue Simonsen, and Jian-Yun Nie. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, pages 553–562. ACM, 2015.

[6] Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, and Joelle Pineau. Building end-to-end dialogue systems using generative hierarchical neural network models. In Thirtieth AAAI Conference on Artificial Intelligence, 2016.

[7] Jason D Williams, Kavosh Asadi, and Geoffrey Zweig. Hybrid code networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning. arXiv preprint arXiv:1702.03274, 2017.

[8] Saurav Sahay, Shachi H. Kumar, Eda Okur, Haroon Syed, and Lama Nachman. Modeling intent, dialog policies and response adaptation for goal-oriented interactions. In Proceedings of the 23rd Workshop on the Semantics and Pragmatics of Dialogue - Full Papers, London, United Kingdom, September 2019. SEMDIAL. URL semdial.org/anthology/ Z19-Sahay_semdial_0019.pdf.

[9] Zihang Dai, Zhilin Yang, Yiming Yang, William W Cohen, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.

[10] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 2019.

[11] Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461, 2018.

[12] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[13] Yu-Lun Hsieh, Minhao Cheng, Da-Cheng Juan, Wei Wei, Wen-Lian Hsu, and Cho-Jui Hsieh. On the robustness of self-attentive models. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1520–1529, 2019.

[14] Matthew Henderson, Ivan Vuli´c, Daniela Gerz, I˜nigo Casanueva, Pawe l Budzianowski, Sam Coope, Georgios Spithourakis, Tsung-Hsien Wen, Nikola Mrkˇsi´c, and Pei-Hao Su. Training neural response selection for task-oriented dialogue systems. arXiv preprint arXiv:1906.01543, 2019.

[15] Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Wizard of wikipedia: Knowledge-powered conversational agents. arXiv preprint arXiv:1811.01241, 2018.

[16] Antoine Bordes, Y-Lan Boureau, and Jason Weston. Learning end-to-end goal-oriented dialog. arXiv preprint arXiv:1605.07683, 2016.

[17] Shikib Mehri, Evgeniia Razumovsakaia, Tiancheng Zhao, and Maxine Eskenazi. Pretraining methods for dialog context representation learning. arXiv preprint arXiv:1906.00414, 2019.

[18] Jason D Williams and Steve Young. Partially observable markov decision processes for spoken dialog systems. Computer Speech & Language, 21(2):393–422, 2007.

[19] Tom Bocklisch, Joey Faulkner, Nick Pawlowski, and Alan Nichol. Rasa: Open source language understanding and dialogue management. arXiv preprint arXiv:1712.05181, 2017.

[20] Ledell Wu, Adam Fisch, Sumit Chopra, Keith Adams, Antoine Bordes, and Jason Weston. Starspace: Embed all the things! arXiv preprint arXiv:1709.03856, 2017.

[21] Yi Yang, Wen-tau Yih, and Christopher Meek. WikiQA: A Challenge Dataset for Open-Domain Question Answering. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 2013– 2018. Association for Computational Linguistics, 2015. doi:10.18653/v1/D15-1237.

[22] Ryan Lowe, Nissan Pow, Iulian Serban, and Joelle Pineau. The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems. arXiv preprint arXiv:1506.08909, 2016. URL arxiv.org/abs/1506.0890

[23] Hannes Schulz, Adam Atkinson, Mahmoud Adada, Kaheer Suleman, and Shikhar Sharma. MetaLWOz, 2019. URL microsoft.com/en-us/ research/project/metalwoz/.

[24] Pawe l Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Inigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gaˇsi´c. Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling. arXiv preprint arXiv:1810.00278, 2018.

[25] Mihail Eric, Rahul Goel, Shachi Paul, Abhishek Sethi, Sanchit Agarwal, Shuyag Gao, and Dilek HakkaniTur. Multiwoz 2.1: Multi-domain dialogue state corrections and state tracking baselines. arXiv preprint arXiv:1907.01669, 2019.

[26] Bill Byrne, Karthik Krishnamoorthi, Chinnadhurai Sankar, Arvind Neelakantan, Daniel Duckworth, Semih Yavuz, Ben Goodrich, Amit Dubey, Kyu-Young Kim, and Andy Cedilnik. Taskmaster-1:Toward a realistic and diverse dialog dataset. In 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, 2019. URL https: //storage.googleapis.com/ TASKMASTER-1-2019/landing_page.html.

[27] Nikola Mrkˇsi´c, Diarmuid O S´eaghdha, Tsung-Hsien Wen, Blaise Thomson, and Steve Young. Neural belief tracker: Data-driven dialogue state tracking. arXiv preprint arXiv:1606.03777, 2016. [28] Johannes EM Mosig, Vladimir Vlasov, and Alan Nichol. Where is the context?–a critique of recent dialogue datasets. arXiv preprint arXiv:2004.10473, 2020.

[29] Shikib Mehri and Maxine Eskenazi. Multigranularity representations of dialog. arXiv preprint arXiv:1908.09890, 2019.

发布于 2020-12-15 08:54