(4) 报告题目:强化学习中的几种常用方法 讲者: 刘全 教授 苏州大学
(5) 报告题目:视觉理解中的场景图生成方法 讲者:刘纯平 教授 苏州大学
(6) 报告题目:基于双网络的安全深度强化学习方法 讲者:朱斐 博士 苏州大学
(7) 报告题目:连续空间的强化学习方法设计 讲者:钟珊 博士 苏州大学
点击链接入会,或添加至会议列表:
https://meeting.tencent.com/s/J9EgRMRny3ck
会议 ID:655 623 032
会议密码:2020
报告时间:2020年10月11日上午9:00
报告信息:
(4) 报告题目:强化学习中的几种常用方法
讲 者: 刘全
报告摘要: 深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映射。本报告介绍几种强化学习中的常用算法:动态规划、蒙特卡洛、时序差分,并进一步介绍其在深度学习方面的应用。
讲者简介: 刘全,男,1969年10月生,教授,博士生导师。 毕业于吉林大学计算机软件与理论专业,获博士学位, 南京大学软件新技术国家重点实验室博士后。近年来,共主持了“石油勘探开发分布式数据库建设”、“基于tableau的逻辑强化学习研究”等国家级项目8项,主持了“采油工程信息可视化系统”、“油田信息处理网络系统”、“基于核方法的强化学习应用研究”等省部级和市(局)级科研项目10多项,获省部级科技进步奖 2项,市(局)级科技进步奖 8项。先后在国内外学术会议及《计算机学报》、《软件学报》等国内核心期刊和统计源期刊上发表论文80余篇,其中 30篇被SCl检索,40篇被 EI检索。目前主要研究方向为:深度学习、强化学习、统计软件工程、分布式数据库检索及修正、网络信息安全及处理等。2012年获江苏省教工委优秀共产党员称号。2011年、2012年入选江苏省“六大人才”、江苏省“333”人才培养计划。目前为《通信学报》编委。E-mail: quanliu@suda.edu.cn
(5) 报告题目:视觉理解中的场景图生成方法
讲 者:刘纯平
报告摘要: 场景图生成是计算机视觉领域中视觉内容高层理解的基础,也是目前研究的热点之一。它以挖掘场景中目标实体间的位置关系、属性关系等为目标,并以图的形式对场景内容进行表示,为基于场景图的图像生成、看图说话与视觉问答等提供丰富的高层语义信息。本报告介绍场景图生成的常用方法,并进一步介绍课题组在这方面的研究进展。
讲者简介:刘纯平,女,博士,教授,博士生导师。2002年毕业于南京理工大学计算机学院,获模式识别与智能系统专业博士学位。2010年7月到2011年9月在美国University of Central Florida计算机视觉实验室作公派访问学者,师从Mubarak Shah教授。中国计算机学会会员,江苏省人工智能学会模式识别专委会、江苏省人工智能基础与应用专委会委员。近年来,主持和参加国家自然科学基金、江苏省自然科学基金、江苏省高校自然科学基金、江苏省产学研前瞻性研究项目等20余项;主持并完成横向项目研发10余项。在IEEE TCSVT、Soft Computing、FSC、PRL、KSEM、ACPR、计算机学报、通信学报等国内外重要会议及期刊上发表论文70余篇;申请发明专利20项,其中授权发明专利11项;软件著作权16项;参编十一五规划教材2部,修订教材1部,出版学术专著1部,出版教育学专著1部。2010年获苏州市科技进步奖1项;2011年获江苏省精品教材1项;2013年获江苏省本科毕业设计优秀指导团队;2017年获江苏省本科教学成果奖1项;2017年获江苏省研究生教学成果奖1项;获苏州大学优秀骨干教师、利苏奖教金、苏州大学优秀党支部书记、交行奖教金等荣誉。目前主要研究方向:图像与视频大数据下的处理与分析、计算机视觉、多源信息融合处理、深度学习、模式识别等。主讲课程:计算机视觉、数字图像处理与分析、数字媒体技术、多媒体技术基础。
(6) 报告题目:基于双网络的安全深度强化学习方法
讲 者:朱斐
报告摘要:深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一。然而,大部分深度强化学习的工作较少考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解。实际上,不受安全控制的探索性学习很可能会带来重大风险。针对上述问题,提出了一种基于双深度网络的安全深度强化学习方法,利用两个经验池:一个用于记录探索失败时的临界状态和危险状态的危险样本经验池,一个用于记录剔除了临界状态和危险状态的安全样本经验池。在原始网络模型上增加一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数。由于方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态、优先选取安全状态来提高安全性。
讲者简介:朱斐,男,1978年1月生,博士,苏州大学计算机科学与技术学院副教授,中国计算机学会高级会员,中国运筹学会会员。2016-2018年(美国加州大学圣地亚哥分校,博士后)、2010年(美国Troy大学)进行交流访问和合作研究。近年来,主持国家自然科学基金1项,作为主要成员参与国家自然科学基金项目5项,主持江苏省高校自然科学基金重大科研项目1项、江苏省高校自然科学基金面上项目1项、教育部重点实验室项目1项、江苏省重点实验室开放课题1项、苏州市重点产业技术创新—前瞻性应用研究项目1项,苏州市工业应用基础项目1项,主持开发横向项目10余项。在计算机学报、软件学报、计算机研究于发展、电子学报、自动化学报、通信学报等期刊发表论文20余篇,发表SCI论文10余篇,获发明专利授权10余项。E-mail:zhufei@suda.edu.cn.
(7) 报告题目:连续空间的强化学习方法设计
讲 者:钟珊
报告摘要:学习最优策略是强化学习要解决的核心问题。模型学习是指利用在线获取的样本,在学习最优策略的同时来学习环境的动态性模型,然后利用动态性模型产生模拟样本进一步加速策略的学习。然而,当模型不精确时,不仅无法有效促进策略的收敛,反而会生成一个较差的策略。因此,模型的好坏对最终的算法具有较大的影响。本报告将从模型的近似方式、何时使用模型和如何利用模型规划等角度来介绍基于模型的最优策略学习方法。
讲者简介:钟珊,女,1983年12月生,副教授。毕业于苏州大学计算机科学与技术专业,获博士学位。目前正主持国家自然科学基金青年基金项目“基于近似多步模型的连续空间强化学习方法研究”。先后在国内外学术会议、国际期刊《Frontiers of Computer Science》、《Journal of Grid Computing》以及国内期刊《计算机学报》、《计算机研究与发展》等发表论文10余篇,均被SCI或EI收录。目前主要研究方向为深度学习、强化学习、计算机视觉。2020年获得江苏省“青蓝工程”优秀骨干教师。E-mail:sunshine-620@163.com