2020年9月4-6日,第九届全国社会媒体处理大会(SMP2020)在线上成功举行,会议由中国中文信息学会社会媒体处理专委会主办,浙江大学承办,智源社区支持。本届会议邀请到了多位著名专家和业界翘楚进行大会主题报告,另外还邀请计算科学、社会科学等多个领域的著名学者进行专题论坛报告。
会议包括2场前沿讲习班、3场特邀报告、2场青年科学家报告,还有社交机器人、计算传播学、智能教育、情感计算、数据挖掘、智慧司法、社会舆情分析和计算历史学8个分论坛,另外还举办了3场主题论坛,分别是顶级会议论坛、重大公共卫生安全论坛和企业论坛,总共囊括了90位学者的分享。每场报告都吸引了大量观众的共同参与,论坛嘉宾与观众在问答区积极互动、气氛热烈。会议注册人数达3046人,创历史人数新高,会议录用口头报告摘要和海报展示摘要各34篇。
9月4日,SMP 2020前沿讲习班首先在线上火热开展,本次讲习班邀请了复旦大学邱锡鹏教授、上海交通大学严骏驰副教授作前沿讲习班报告。邱锡鹏教授作题为《自然语言处理中的预训练模型》的报告,主要涵盖了预训练模型的原理介绍、预训练模型的迁移方法、预训练模型的改进模型及对预训练模型及其未来发展趋势进行展望。严骏驰副教授作题为《组合优化问题的机器学习研究-以图匹配问题为例》的报告,介绍了组合优化问题机器学习研究的研究背景和相关进展。特别将以图匹配问题为例,介绍了基于机器学习的图匹配模型与算法,及图匹配与聚类的协同学习等最新进展。
9月5日上午,SMP2020会议在Zoom和B站同步开幕,学会理事长方滨兴院士、专委会主任刘挺教授、大会主席庄越挺教授和林鸿飞教授分别为大会致辞,程序委员会主席东昱晓研究员介绍了大会的组织情况,开幕式由程序委员会主席杨洋副教授主持,吸引了1万余名观众在线参与。
大会开幕式
开幕式后,中国工程院院士潘云鹤教授作为首位特邀报告嘉宾进行了题为《大数据智能》的主旨报告。潘院士首先回顾了大数据概念的提出,结合世界变化的趋势,指出当前新的信息流会推动科技与产业的新变化,人工智能将面临60年来的大变局,迈向人工智能2.0时代。基于此,他提出了新一代人工智能发展规划的五个方向,大数据智能、群体智能、跨媒体智能、人机混合增强智能、自主智能系统。
接下来,他介绍了各种形式的知识及其表达技术,他认为从人工智能的概念看,结构化的数据就是一种知识,而知识图谱、深度神经网络是一种知识表达。数据会不断推动新的知识表达技术的诞生,而多种知识的协同使用,能够提高系统的智能水平,提高识别效率。
最后,他展示了目前大数据智能的一些应用实例,并指出智能城市中最关键最重要的数据尚待聚集,需要权威、技术和市场的合作,大数据智能及其新知识表达是非常有前景的研究领域。
中国工程院院士潘云鹤作特邀报告
9月5日下午,微众银行首席人工智能执行官、香港科技大学讲席教授杨强进行了题为《数据孤岛:AI 向善与联邦迁移学习》的主题报告。杨教授首先指出了深度学习热潮下,大数据的重要性以及数据难以获取、数据质量差的痛点。随着数据相关的法律规范越来越严格,联邦学习(Federated Learning)应用而生,通过“数据不动,模型动”的思想,把数据保留在本地,在加密状态下沟通模型参数,并使得模型的效果达到和这些数据物理聚合在一起类似的效果。
报告中,杨教授介绍了横向联邦学习(Federated Averaging)、加密/解密、纵向联邦学习等技术,以及联邦学习激励机制的相关研究,并分享了联邦学习在反洗钱、信贷风控、保险业、营销推荐、计算机视觉、语音识别引擎、物联网及医疗健康等方面的落地应用。接着,杨教授介绍了分布式机器学习技术:联邦迁移学习,以及在联邦学习中对抗攻击和自动联邦学习(AutoFL)的研究。
最后,杨教授介绍了在联邦学习生态上的建设,包括保护数据隐私安全的联邦学习技术开源平台、联邦学习技术标准建设,联邦学习产业生态发展联盟等。杨教授指出,“联邦学习是众多人工智能和社会相结合的技术中的一个,我希望以后的人工智能不仅要关注算法,也要关注AI向善的问题”。
微众银行首席人工智能官、香港科技大学讲席教授杨强作特邀报告
英国皇家工程院院士、欧洲科学院院士、英国帝国理工学院郭毅可教授作了题为《Why we need interdisciplinary efforts to build the "telescope" in leveraging social media analytics?》的报告。郭院士指出,社交数据是社会生活的度量,日常生活中每天不同平台都有非常多的社交数据诞生,例如微博、微信等。随着大数据分析等技术的发展,极大地推动了社交媒体分析领域的进展。很多问题仅依赖大数据构建模型是不够的,数据需要依赖现实场景才能具有意义。从本质上来说社交媒体分析是跨学科性的,对社交媒体分析往往需要数据现实场景,需要大量心理学、教育学、社会与政治科学等领域的知识。
郭院士通过多个例子向听众阐释了社交媒体分析的跨学科性。其一:厚数据与大数据的融合性分析。所谓厚数据就是能从中挖掘出社会和文化意义的数据。本质上大数据和厚数据是互补的,大数据再分析中需要和场景结合起来,而厚数据能够弥补大数据再被解读过程中缺失的背景元素。其二:纳入公民科学实践。在新冠疫情的背景下进行智慧城市建设是纳入公民科学实践非常成功的案例。建设一个免疫的智慧城市,需要每个人都贡献出数据,解决包括人员流动、社会合作、决策过程等问题。
最后,郭院士谈到了伦理界定的问题。现代社会产生了大量的社交数据,这一点是伟大的但是也是危险的。因个人对数据的认知是会有偏差的,人的主观会影响甚至改变客观观察。社会媒体分析时,不能掉入偏差陷阱中。
英国皇家工程院院士、欧洲科学院院士、英国帝国理工学院郭毅可做特邀报告
9月6日上午,青年科学家吕琳媛教授和杨植麟博士首先为大家带来了两场精彩的青年科学家报告。
吕琳媛教授作题为《网络重要节点挖掘及其应用》的报告。吕教授指出,图网络是一种非常便捷的表示各类数据的普适性结构,很多复杂的系统都可以抽象成网络的关系,例如,生物领域有人脑神经网络、蛋白质相互作用网络等等。人们发现网络当中存在着少量节点对于揭示网络的微观特征有着重要的作用。重要节点挖掘研究因其具有广泛的应用价值越来越受到关注。
那么如何发现网络中重要的节点呢? DHC定理描述了网络的三种指标之间的关系:D(度)表示节点连接了多少条边;H:H-index借鉴了学术指数,表示其最多有h个邻居,度大于等于h;C:核数,表示节点在网络中的位置,刻画了节点的传播影响力。
由DHC定理得到的各阶H指数可以作为衡量节点重要性的指标,可以用来刻画节点的传播影响力。利用DHC定理发现网络中重要节点在不同领域有着诸多应用场景,例如,发现网络中比较重要的脑区;城市在线媒体影响力分析;分析不同国家在贸易中的重要性;基于专利数据分析国家创新力等等。未来基于图网络的数据挖掘领域有着巨大的前景,例如,含权网络的扩展和应用、有向网络的拓展和应用、基于圈的动力学圈传播、超网络分析、高阶圈等等。
电子科技大学吕琳媛教授做青年科学家报告
循环智能(Recurrent AI)联合创始人杨植麟博士进行了题为《从学习的角度看NLP现状与未来》的报告。杨博士首先从技术角度,总结了NLP领域模型结构、预训练(Pretraining)和微调(Finetuning)三方面的进展。基于此,杨博士介绍了其发明的Transformer-XL和XLNet,提出了在实现中可以采用的标准流水线,同时将数据效率和模型效率做到了极限,并且以提升保险销售转化率为例,结合真实应用场景落地案例,极好的体现了产学研的转化。
杨博士指出,技术的突破,本质上都是以某些现象为基础,对现象进行利用与开发。NLP的突破,本质上就是利用两个现象,一是数据驱动的方式(监督、自监督、半监督)可以泛化;二是效果随着模型可优化的表达能力的增大而增大。未来发展和优化的方向会是以计算流的思路,构建以超大算力为基础的复杂算法系统。
最后,杨博士带来了自己对NLP产业发展的思考,分析了创业公司、互联网大厂、传统行业巨头在NLP领域会采取的策略,预测NLP的未来应用发展会经历从学术性的开放式进展到军备竞赛型垄断的转变。
循环智能联合创始人杨植麟博士做青年科学家报告
9月6日下午,在结束三场分论坛后举行了会议闭幕式,SMP 2020会议圆满落幕,SMP 2021会议将于北京举行。