2021年7月22日-25日,庆祝中国中文信息学会成立40周年系列活动 - 第十六届中国中文信息学会暑期学校暨《前沿技术讲习班》第二十三期和第二十四期在京举行。本届讲习班主题为:预训练语言模型的基础理论与方法及其典型应用。讲习班吸引了来自全国各高校及科研院所的专家、学者、学生、产业界研发人员等近400人参加。
哈尔滨工业大学车万翔教授、清华大学刘知远副教授、中国科学院自动化研究所张家俊研究员担任本届讲习班的学术主席。刘知远副教授和车万翔教授分别致开幕辞,先后介绍了讲习班的课程内容和特邀讲者,并欢迎学员们来京参会!
讲习班邀请了哈尔滨工业大学车万翔教授、科大讯飞崔一鸣研究员、微软亚洲研究院董力研究员、百度公司孙宇研究员、清华大学刘知远副教授、循环智能杨植麟博士、复旦大学邱锡鹏教授、上海交通大学赵海教授、字节跳动王明轩研究员、清华大学黄民烈副教授、中国人民大学赵鑫副教授和陈旭助理教授、中科院计算所郭嘉丰教授和范意兴助理研究员、清华大学兰艳艳教授、中科院自动化所刘康研究员和中科院软件所韩先培研究员在不同的方向作了系统深入的讲解,并对预训练模型及其各领域的应用提出了未来的研究方向。
7月22日,车万翔教授和崔一鸣研究员作题为《自然语言处理:基于预训练模型的方法》的报告,重点介绍基于预训练模型的自然语言处理技术,包括基础知识、预训练词向量和预训练模型三大部分。基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具;预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用方法;预训练模型部分介绍几种典型的预训练语言模型和应用,以及预训练模型的最新进展。除理论知识外,还结合具体代码进行深入介绍,达到理论和实践的统一。 车万翔教授作题为《自然语言处理:基于预训练模型的方法》的报告
崔一鸣研究员作题为《自然语言处理:基于预训练模型的方法》的报告
7月23日上午,董力研究员作题为《跨语言预训练模型》的报告,主要介绍跨语言预训练的最新研究进展与趋势,对当前跨语言预训练方法、微调技术;同时,还将介绍跨语言文本理解与生成的常用评测方式。此外,对当前跨语言预训练研究面临的挑战进行了探讨。
孙宇研究员作题为《跨模态预训练模型》的报告,融合跨模态知识、跨模态对抗训练、多个模态统一建模等是跨模态预训练的新思路。报告针对语言-视觉、语言-语音跨模态预训练,介绍该领域最新的进展和趋势。
董力研究员作题为《跨语言预训练模型》的报告
孙宇研究员作题为《跨模态预训练模型》的报告
下午,刘知远副教授作题为《知识指导的预训练语言模型》的报告,作为典型的数据驱动方法,以预训练语言模型为代表的深度学习仍然面临可解释性不强、鲁棒性差等难题,如何将人类积累的大量语言知识和世界知识引入模型,是改进深度学习性能的重要方向,同时也面临很多挑战。报告系统介绍了知识指导的预训练语言模型的最新进展与趋势。
杨植麟博士作题为《面向生成的预训练模型》的报告,探讨如何在纷繁复杂的任务体系和架构体系当中寻找统一的解决方案,其中将重点讨论「生成理解一体化」的思想,讨论基于生成的方式如何统一预训练和微调任务。同时,报告还讨论了基于生成的思想在少样本学习、知识探测、诗歌生成等下游任务的应用,以及基于生成的预训练模型在工业界对话理解场景的落地案例。
刘知远副教授作题为《知识指导的预训练语言模型》的报告
杨植麟博士作题为《面向生成的预训练模型》的报告
7月24日上午,邱锡鹏教授作题为《预训练模型在NLP基础任务中的应用》的报告,介绍预训练模型在NLP基础任务上的应用,主要包括1)如何在下游任务精调预训练模型;2)在NLP基础任务上的应用;3)重点介绍了一种统一生成框架,可以用来解决众多NLP基础任务。
赵海教授作题为《预训练模型在机器阅读理解任务中的应用》的报告,主要探讨语言模型、表示对于机器阅读理解的技术性影响,包括技术演化的时间线、现状和挑战,特别是最近一年的最新进展和一些个人新的思考。
邱锡鹏教授作题为《预训练模型在NLP基础任务中的应用》的报告
赵海教授作题为《预训练模型在机器阅读理解任务中的应用》的报告
下午,王明轩研究员作题为《机器翻译的预训练方法》的报告,报告围绕单语预训练、多语言预训练、多模态预训练三个方面来介绍机器翻译中利用预训练提升的最新进展。预训练在机器翻译中需要达到三个目标:设计有效目标从而适应翻译任务;充分利用大量单语和有限双语、文本和不同模态数据;拉近跨语言跨任务表示。通过预训练和细调方法,在双语翻译,多语言联合翻译(包括zero-shot场景),语音翻译,图像辅助翻译等不同翻译场景都取得了显著提升。
黄民烈副教授作题为《基于预训练模型的对话系统》的报告,报告围绕基于预训练模型的对话系统,阐述其中重要的问题、挑战,以及最新的方法,特别是大数据、大模型下的框架和任务设计。
王明轩研究员作题为《机器翻译的预训练方法》的报告
黄民烈副教授作题为《基于预训练模型的对话系统》的报告
7月25日上午,赵鑫副教授和陈旭助理教授作题为《预训练模型在推荐系统中的应用》的报告,聚焦预训练模型在推荐系统领域的应用,对最近几年的相关研究进行简要梳理和回顾,主要内容包括:1)基础背景:预训练模型和推荐系统的相关背景知识;2)预训练模型在推荐系统中应用的动机和挑战:为什么预训练模型在推荐系统领域受到广泛关注,应用过程中的主要难点是什么;3)预训练模型在推荐系统中的应用策略和相关方法:如何更好地利用推荐系统中用户的行为数据、设计更好的模型架构和学习算法;4)预训练模型在推荐系统中应用的未来展望:该领域亟待解决的问题和未来的发展方向。
郭嘉丰研究员和范意兴助理研究员作题为《预训练模型在信息检索中的应用》的报告,聚焦预训练模型在信息检索中的应用,对最近几年的相关研究进行系统的梳理和回顾。主要内容包括:1)基础背景:信息检索的相关背景知识介绍;2)预训练模型在检索召回阶段的应用:包括预训练模型在传统稀疏检索框架下的应用以及基于预训练模型的稠密检索方法;3)预训练模型在重排序阶段的应用:包括基于预训练模型的表示学习、交互学习建模方法与模型加速,以及基于生成模型的排序建模等;4)面向信息检索的预训练模型设计:如何构建满足信息检索任务需求的自监督学习任务,进一步提升信息检索的性能。
赵鑫副教授作题为《预训练模型在推荐系统中的应用》的报告
陈旭助理教授作题为《预训练模型在推荐系统中的应用》的报告
郭嘉丰研究员作题为《预训练模型在信息检索中的应用》的报告
范意兴助理研究员作题为《预训练模型在信息检索中的应用》的报告
下午,兰艳艳教授作题为《学术论文写作的一些体会》的报告,结合个人研究背景和经历,主要介绍了学术论文写作的一些体会,包括逻辑的重要性,3W2H写作法则,论文的润色技巧,复盘与提高等。
刘康研究员和韩先培研究员作题为《Research:the Good, the Bad and the Ugly》的报告,介绍两位讲者在多年的科研经历中遇到过、看到过、听到过的Good、Bad、Ugly的科研方法(包括但不限于其中的故事、心态、理念、方法等),希望对于同学们的学习、科研和生活有所帮助。
兰艳艳教授作题为《学术论文写作的一些体会》的报告
刘康研究员和韩先培研究员作题为《Research:the Good, the Bad and the Ugly》的报告