近日,第11届ICAART(国际智能体与人工智能会议)在捷克首都布拉格召开,为期三天。
自2009年举办第一届以来,ICAART每年都聚集了大批对智能体和人工智能领域感兴趣的科学家、研究员、工程师、和相关从业人员。
会议分两个方向:专注于智能体、多智能体系统和软件平台、以及分布式人工智能;以及侧重于人工智能、知识表示、规划、学习、调度、感知反应性人工智能系统、进化计算以及与智能系统和计算智能相关的其他主题。
今年的主题演讲邀请到了四位来自全球不同地区高等学府的学术权威,演讲主题涵盖人工智能、仿真技术、进化艺术、手写识别、计算可持续性等热门议题。本文挑选了其中三位演讲人,对其演讲内容了进行高度提炼和概括。
此外,今年ICAART大会最佳论文由来自美国BShalem Research的研究员Avi Bleiweiss获得,他提出了一种基于LSTM(长短期记忆网络)的神经网络模型,通过迁移学习的方法,从相对较大的数据集上获得预训练模型然后在特定稀疏数据集上进行优化,提高对网络侮辱性评论进行分类的目标性能。本文将对论文内容进行简要概述。
进化艺术与机器学习
首先登台演讲的是来自葡萄牙科英布拉大学的教授Penousal Machado
Machado博士目前领导科英布拉大学的认知和媒体系统。他的研究兴趣包括进化计算、计算创造力和进化机器学习。除了这些领域的众多科学论文外,他还获得过包括欧洲进化计算杰出贡献奖EvoStar奖、以及葡萄牙人工智能协会授予的人工智能卓越奖和优秀奖。 他的作品曾在葡萄牙国家当代艺术博物馆和纽约现代艺术博物馆(MoMA)中展出。
Machado博士的演讲主题是“进化艺术(Evolving Art)”。近年来,进化计算技术应用于艺术的多个领域。Machado博士的演讲重点是如何使用它们来创建不同类型的创作、领域的主要挑战、以及过去的开发如何与当前的方法、趋势和挑战相关联。
进化艺术的表达和评估
进化艺术在国内或许是一个陌生的概念,甚至它的呈现方式解释起来都不太容易。
进化艺术是生成艺术(generative art)的一个分支,这意味着艺术家本身是不参与艺术品的制作,而是让一个自主系统(比如计算机)进行创作。
简单而言,进化艺术通过进化计算来绘图,在不断地迭代后,最终获得一件艺术作品。举一个例子,譬如你看到一只猫的图片后,想要在猫身上加入一些蝙蝠的元素,程序会根据你的选择演变出一组新的生物,然后你可以继续选择,直到找到他们喜欢的生物形态。这就激发出了无限的创造力,结合进化计算和艺术领域,艺术家可以探索他们从未梦想过的事物
回到演讲本身,Machado博士首先介绍了一下进化艺术30多年历史上的一些重要人物,包括首次提出进化艺术概念的Richard Dawkins、Karl Sims、William Latham、和Steven Rooke。
进化艺术中有两个关键问题:一是表示方法,二是评估方法。
首先是表示方法。Machado博士介绍了进化艺术中的一个基本概念:基于表达式的进化图像。1991年,进化艺术的开创者Karl Sims提出了遗传编程,使用基于表达式的方法来实现图像进化,显著地提升了进化图像的复杂度和审美效果。
举个例子:图像1可以用A*B表示,图像B可以用C*D表示,通过遗传编程,他们进化出的子图像可以是A*B、C*D、A*C、B*D,如果使用随机模式,那么他们的可能性还会有更多。
通过这种方法,Machado博士认为进化艺术可以进化成任何一种可能性。
这里Machado博士提到两个重要的进化艺术应用。第一个是进化艺术工具NEVAR,由Machado博士在1997年创建,它的优点在于它允许存储过去创建的图像,让这些图可以用作新图像的起点。NEVAR运行在并行进化算法上,这意味着用户可以同时运行多个实验。
另一个是PICBREEDER,这是一个基于进化艺术概念的协作艺术应用程序,这种技术可以让图片像动物一样繁殖。
其次是评估方法。如何让用户从进化艺术作品获得美感,然后将评估出来的好结果建立成相应的适应度函数(fitness functions)加入到进化过程中,以实现不同的审美视觉效果。
Machado博士提到了许多方法,比如传统的美学概念,包括黄金比例、分形维数、拉夫定律等;复杂性是一种美学相关的特征,视觉上复杂但易于处理的图像往往有趣;对黑白图片可以使用分形和JPEG压缩估计图像复杂度;不同的适应函数也能合并在一起,比如复杂度、对比色、和颜色渐变。
近几年,Machado博士也开发了和用户实现互动的交互界面,让用户决定自己决定适应函数,进化出符合他们喜好的图像。
2. 机器学习
在进化艺术中加入机器学习可以追溯到1994年,当时的研究员提议通过使用人工神经网络实现自动化图像进化过程。这项研究主要是用机器学习的方式学习用户的偏好,并应用这些知识来进化获得美学上令人愉悦的图像。
研究表明,机器学习取得了一定的效果,和均匀概率的随机过程相比,人工神经网络通常能制作出更复杂的图像。但由于进化图像数据集本身的质量和收集难度,导致在实际自动化的过程中遇到不少难题。
2012年,Machado博士的一项研究取得了令人意想不到的进展—结合机器学习,进化艺术竟能产生具象图像。研究表明,使用基于通用表达的遗传编程图像生成引擎和面部检测器系统,系统能够进化出一些看上去像是人脸或者是面具的图像。
随后的几年里,进化艺术和机器学习之间的联系越来越多。譬如,2016年的一份研究就表明,使用进化艺术可以生成类似人脸却无法被识别成人脸的图像,这可以帮助人脸识别系统增加训练数据,建立庞大的数据集。
近几年,对抗生成网络(GAN)将生成艺术的水平又提升了一大截,在2017年的一篇论文中,研究员开发了一个基于GAN的系统,能够通过观察艺术和学习风格来创作艺术;通过偏离学习风格,增加艺术的唤醒潜力,从而变得富有创造力。
去年,首张基于GAN创作的油画在佳士得拍卖中心卖出了43万美元,尽管这在艺术世界里只是个小数字,但公众依然难以相信一个机器的画作能拍卖出这么高的价格。
这也引出了Machado博士在演讲中的问题:“这(人工智能的画作)是艺术吗?”
3. 艺术不是艺术创作,而是对艺术的热爱
Machado博士随后避开了这个敏感的问题,提到了另一个问题:“人工智能是艺术家吗?”
他的答案是:显然不是。Machado博士认为,人工智能不是艺术家的原因是“艺术不是艺术创作,而是对艺术的热爱。”“如果你要造一个人工艺术家,你首先要开发一个系统,在面对一幅艺术作品时,能说’这是一幅好作品’”。如果没有对艺术的喜爱和鉴赏能力,那么单纯依靠模仿和借鉴的人工智能就不能被称为艺术家。
手写识别和深度学习
随后演讲的是来自荷兰格罗宁大学的教授LambertSchomaker
Schomaker博士是格罗宁根大学人工智能教授,并担任该大学人工智能研究所所长,同时也是IAPR(国际模式识别协会)成员和IEEE高级成员。他以模拟和手写识别、字迹识别、文档分析、以及机器学习研究而闻名,前后一共撰写了200多本出版物,并参与了许多手写识别和文档分析会议的组织工作。
Schomaker博士的演讲主题是“大规模问题的连续学习—多脚本历史手写文档集的情况。”以卷积神经网络(CNN)为代表的深度学习技术,其最新进展在许多应用领域中令人印象深刻。这些方法是否也适用于罕见的脚本和手写识别?如果训练数据量严重受限怎么办?如果用户要求随着时间的推移不断变化该怎么办?
1. 什么是手写识别?
广义上,手写识别问题(handwriting recognition)是研究算法如何将手写产生的有序轨迹—包括字符、单词、或更大对象—转化为计算机可识别的符号代码或代码字符串。
尽管机器学习模型已经在手写数字识别数据集MNIST上取得非常惊人的成绩,但是整个手写识别领域的问题还远没有被解决。
以手写单词识别(handwriting text recognition)为例,这项研究是在提供句子或段落图像时,算法能提供完整的文本假设。这就不单单是符号识别的工作,还需要语言统计学;手写检索(handwriting retrieval)则是另一大挑战,这是当给定单词或字符图像的实例时,算法能从收集而来的手稿集合,依照匹配度进行排序。
图像分割也是手写识别中的重要环节,在识别手写文字的任务里,第一步往往是页分割和行分割。识别率如果没有令人满意,一部分原因可以归咎在分割不准确上。Schomaker博士提到,在需要文字分割的情况下会使用CNN模型;如果不需要分割,则会采用隐形马尔科夫模型(HMM)或者是LSTM。
2. Monk系统
作为该领域的权威专家,Schomaker博士介绍了他主导开发的人工智能系统 — Monk,一个可交互训练的搜索引擎和用于历史手稿的服务系统。
Monk系统主要由两个部分组成: 用于扫描页面图像及其部分的存储和基于网络注释的设置;一套(手写和文本)识别算法以及检索和搜索方法。
该项目于2005年启动,并在2009年进入自主训练模式,使用排队系统解决远程超算资源,并根据用户活动开始学习手写识别的任务,7天24小时自动进行大部分工作。当时的训练过程从人工标注、到模型调参、再到完成对目标列表检索的计算,放在十年前还是不多见的。
在提升Monk性能上,Schomaker博士采用了旧矿井电梯原理——先用方法A将模型性能提升至最大,然后使用一个正交方法B可以再往上提升些,然后再回到方法A,依次循环,直到达到渐近线。
Monk的软硬件配置如下:
? 高性能Linux e-Science环境:900TB/28核/126GB;
? 多体架构;
? 用户标记事件触发专用计算队列;
? 在多个、远程的节点上计算,比如(IBM Zurich);
? 峰值存储:两年前曾实现单个磁盘系统上保存13亿个文件,多为文字图像。
在整个训练过程中,Monk系统所使用的方法和常规手写体识别类似,包括:
? 图像预处理;
? 图像布局分析和分割(这里面包括片段、段落、行、词);
? 模式识别或者形状分析。目前识别器所使用的模型,除了HMM之外,其他均为深度神经网络,包括卷积、LSTM、双向LSTM、MDLSTM、CNN/LSTM。
3. 深度学习能将手写识别一网打尽吗?
如今炙手可热的CNN,最初的应用便是手写识别。熟悉CNN历史的人应该知道,CNN的开山之作便是训练多层神经网络用于识别手写邮政编码,之后CNN的经典架构LeNet5则用于识别手写数字。
Schomaker博士还提及了一段往事:1990年在加拿大蒙特利尔举办的“手写识别国际研讨会”上,Schomaker博士第一次听说了CNN,也在会上遇见了CNN的缔造者、人工智能三驾马车之一的Yann LeCun。当时苦于没有高效并行计算的硬件,CNN的效果并不突出,但足以让Schomaker博士眼前一亮。
但是,Schomaker并不迷信深度学习。标准数据集下的基准测试和真正的手写历史文档存在显著差别,大部分历史文档受困于语言繁杂、历史悠久、缩写、略写、文字形状千奇百怪、不同作者的字迹差异、图像不清晰等各种问题,会给模型带来各种意想不到的挑战。同样,许多手写识别模型是用来访问迄今为止未记载的文本对象,没有数据集如何训练?
Schomaker博士在演讲中提供了一套思路:训练数据量决定了系统使用什么算法。
? 若数据量为0,也就是零次学习,那么使用基于属性的方法;(例子)
? 若数据量为1,那么使用K最近邻的方法(这里就是1NN);
? 若数据量为少许,那么使用简单的模型,比如平均向量(mean vector)或者质心函数(Centroid);
? 若数据量为20,那么使用支持向量机(SVM);
? 若数据量超过100,那就轮到端到端的深度学习模型派上用场。
Schomaker博士提出了自己的观察:
? 对“深层结果”的比较通常与愚蠢的特征相比;
? 那些所谓的“深层结果”大多来自数周的计算、数十亿的浮点计算、以及小心调试的架构;
? 在大数据的帮衬下,即使模型没有那么优秀,结果也还不错;
? 应该将这么大的计算量用在随机变形和图像的弹性匹配上。
Schomaker博士最后做出了如下的总结:
? 深度学习确实提供了喜人的结果,但这种结果是建立在大规模数据集上;
? 有时候可解释性也是必要的;
? 手写识别领域真正的操作系统,例如Monk,都是混合模型;
? 性能和可解释性往往冲突。
基于智能体模拟技术的应用愿景
最后登场的是来自捷克技术大学(CTU)的计算机科学教授Michal Pechoucek
Pechoucek博士是CTU人工智能中心的创始人兼负责人,也是CTU的计算机科学系主任、信息学研究中心主任、卓越中心、以及CTU-FEL研究型计算机科学研究项目开放信息学的创始主任,发表过200多篇论文,并于2015年被列入新欧洲100强。
此外,Pechoucek博士还是Cognitive Security的联合创始人(2013年被CISCO Systems收购)。收购后,Pechoucek建立并指导了CISCO Systems研发中心(至2016年),专门从事网络安全的机器学习分析。
Pechoucek博士的演讲主题是“通过基于智能体仿真理解未来技术”。当前世界是由最先进的机器学习研究提供的数据和卓越的分析能力驱动的。假设存在与自主实体之间的相互作用相关的重要预测问题类别,对其进行统计数据分析是不够的(例如了解城市环境中无人机的未来运行或现有车辆交通中自动车辆的大规模部署)。
Pechoucek博士建议使用最先进的程序和分散计算建模方法—基于智能体模拟技术—来补充现代数据分析,并认为基于智能体的模拟可以帮助我们理解和解决近期尚未获得经验数据的问题。
什么是基于智能体模拟(ABS)?
基于智能体模拟(ABS)是一类软件程序的计算模型,用于模拟自主智能体之间的动作和交互,评估系统的性能和有效性。
目前使用ABS的应用有许多,最广泛的是游戏和电影特效模拟,还有对疾病传播的预测。譬如,在上世纪90年代,科学家利用计算机模型预测H1N1病毒的传播,其中ABS的效果最好。纽约大学流行病学权威Joshua M.Epstein在他的论文《控制流行病的模型》(Modelling to contain pandemics)中提到,基于智能体的计算模型可以捕捉非理性行为、复杂的社会网络和全球规模——所有这些都是对抗H1N1病毒的关键。
ABS技术目前也普遍在自动驾驶训练中被使用。L3以上,自动驾驶车辆系统复杂程度、使用环境复杂程度都明显提升,现实世界的测试环境不能保证自动驾驶技术的安全性和稳定性,所以各大自动驾驶公司都在自研仿真测试平台,来测试无人车的感知、决策、控制能力。
鉴于此,我们可以得知发展ABS的目的是保证基于多个智能体的物理系统(Multi-agent physical system)能够在运行中更加安全和稳定,发展出安全性、稳定性高的基于多智能体的现实应用,比如无人机、自动驾驶、智慧交通等等。
使用ABS技术设计多智能体应用时,主要会遇到三个研究&工程上的挑战:
高保真度、高可扩展性、可管理的成本。
2. 具体的部署案例
Pechoucek博士随后介绍了其所在的研究小组使用ABS技术的四个代表性应用案例。
无人机:多年前,NASA希望Pechoucek博士所在小组研究一个实验:如何在有限的空间里加入尽可能多的无人机,在互相不碰撞的情况下依然完成各种任务。
这个实验代表了NASA一直关注的一个问题:由于在共享空域运行的无人机系统数量会在未来迅速增长,保证在对空中管理系统不造成任何负面影响的同时,避免无人机碰撞是一大挑战。
这不只是NASA的问题。譬如军事、安全、工地等场景下,任务越来越复杂并且所涉及的飞机数量不断增加,企业趋向于使用自主无人机而非地面控制遥控无人机,这对无人机控制软件的功能提出了新的要求。
为此,Pechoucek博士和研究员在2012年开发了AgentFly模拟系统。这是一个用于自由飞行(Free flight)模拟和灵活避免碰撞的多智能体模拟系统。AgentFly能为企业提供针对不同环境和场景下的防撞技术:基于规则防撞、迭代点对点防撞、多方防撞、以及非合作性防撞。
这项技术主要基于CTU于2004年研发的多智能体平台AGLOBE,AGLOBE的最大优势之一是与其他智能体平台相比,它是基于地理信息系统和环境模拟器智能体,因此可以将其用于实际模拟。
在实际部署后,Pechoucek博士发现了三个显著的问题:缺少通讯宽带,低估了风的影响,以及不精确的飞行轨迹执行。为此。研究小组额外添加了飞行动力学模型(JSBSim)、网络层模拟(Omnet+)、和天气模拟器(3D风场模型)。
智慧运输系统:
在智慧运输系统领域,可以使用ABS技术的应用十分广泛,例如城市交通模拟、运输需求建模、多模式路线规划等,研究小组目前正在开发和维护的一个名为AgentPolis的系统,这是一个基于智能体的城市交通微模拟器。该模拟器可用于进行涉及不同交通方式的大规模“假设”模拟研究,如私家车、按需汽车、公共交通等。同时,Agentpolis特别适用于评估不同的车队管理策略、需求系统。
自主按需运输(AMoD):
研究小组目前正在为捷克城市布拉格和布尔诺的集聚发展交通需求模型。 我们使用基于活动的模型对来自各种来源的数据进行训练。 由此产生的模型能够生成覆盖整个城市群的大量高粒度综合旅行数据。
鉴于大型AMoD系统可能在未来的交通流量中发挥重要作用,研究小组开发路由算法以有效控制车队的有限道路基础设施能力,并提出了一种新的无拥塞车队路线问题的重新制定,能解决以前被认为难以处理的实际尺寸的问题。
海盗行为建模:
鉴于当代海盗行为对全球航运业构成严重威胁,当局政府、航运运营商和海军指挥官需要新的数据驱动的决策支持工具,以便他们能够最有效地规划和执行反海盗行动。
研究小组在2013年与海事领域的利益相关者合作开发了AgentC—一种基于数据驱动的基于智能体的海上交通仿真模型,可明确模拟海盗活动和对策。该模型模拟了成千上万个单独船只的行为和相互作用,能够捕捉受海盗活动威胁的海上运输系统的复杂动态,并评估一系列海盗对策的潜力。
最佳论文:LSTM+迁移学习对抗网络暴力
本届ICAART大会最佳论文 — LSTM Neural Networks for Transfer Learning in Online Moderation of Abuse Context — 研究了如何用人工智能有效地审核网络攻击性语言和侮辱性言论。
自动删除和标记网络侮辱性言论仍然是一项艰巨而耗时的任务。论文作者提出了一种基于LSTM的神经网络模型,模型先基于维基百科里检索到的部分人身攻击评论数据上进行预先训练,然后在带注释的Twitter推文上测试识别仇恨言论。 模型实现了0.77的F1 score,接近域内模型的表现,并且在不参考所提供标签的情况下超出了域外基准约9个百分点。
侮辱性言论是一个非常广泛的类别,研究人员难以定义,因此定量检测大规模的仇恨言论仍然是一个尚未解决的问题。在线对话涉及广泛的受众规模,从单个参与者到整个社区,分类器缺乏一致的侮辱性信号是检测任务难度的关键。在日益多元文化的信息社会中,正在进行的工作是自动识别和审核那些不良言论,改编自然语言处理(NLP)工具,用于构建和注释社交媒体语料库。
神经网络的循环和卷积变体中表达的深度学习模型最近已成为序列文本分类(Sequential Text Classification)的广泛基础。最近,CNN模型通过单词向量来对Twitter上的仇恨言语进行分类,获得了78.3%的F1得分。2017年的一项研究使用基于LSTM的分类器,用于研究新闻评论的建设性,最高测试准确度达到72.6%。
那么检测仇恨/侮辱性言论的算法进展的最大障碍在哪儿?依然是数据量匮乏,尤其是大型公开数据集稀缺。目前的开放数据集仅限于Impermium为Kaggle比赛发布的Detecting Insults in Social Commentary、Twitter Hate Speech以及Wikipedia Detox项目的英语语料库。 Impermium数据集包含超过8,000,注释为“”或“中性”的注释,而Twitter集包含超过16,000的推文,每个推文都被标记为“种族主义”、“性别歧视”或“中立”。通过处理大量的维基百科讨论页面,Wikipedia Detox数据注释包括“人身攻击”、“攻击性”和“毒性”,每个类别超过100,000的评论,是迄今为止最大的可用和最好的数据集,可靠地标记侮辱性评论中。
论文作者使用的是Wikipedia Detox人身攻击数据集作为源数据集,Twitter数据集作为目标数据集。
训练过程中,论文作者使用的是带有分布式字表示的双向长短期记忆网络(BiLSTM)。
在迁移学习方面,论文作者使用了两种方法:域适应(domain adaption)和域匹配(domain matching)。在域适应中,训练分两个阶段进行。网络权重首先被随机初始化,然后使用大型源数据集也就是在域外(out-domain)进行训练。然后,论文作者使用先前学习的权重初始化网络,在稀疏目标数据集微上调一些权重。
另一方面,域匹配同时训练从源数据集和目标数据集中提取的注释样本。在一次性预处
理中,对资源较低的域内(in-domain)进行过采样以匹配资源丰富的域外维度。然后,模型在域之间交替,并从任一域中随机选择数据样本以计算其梯度。论文作者在此过程中微调生成的外向训练权重,并在域内测试集中用于侮辱性言论分类。
测试结果令人惊喜:首先,论文作者在Twitter目标数据集上提供域内基线性能。下图显示,作者使用单词和字符n-gram表示的逻辑回归分类器与没有使用迁移学习的BiLSTM网络进行对比。基于单词嵌入的神经模型获得了0.79的F1分数,并且优于基于手动特征的系统,其中单词和字符n-gram的F1分别为0.65和0.74。
接下来,作者展示了四种使用迁移学习的模型表现(域适应、域匹配、以及两种方法的交叉共四种)。在表5中,作者显示了每个场景的原始和微调F1得分。最高分来自域匹配,原始F1得分为0.77,仅略低于域内基线的F1得分(0.79),并且高于2017年基准模型的9个百分点。
由此,论文作者得出如下结论:尽管广大公众了解在网上遏制侮辱性言论的实际重要性,但在不久的将来依然不太可能进行高成本的语言注释和资源创建。作者的贡献旨在改善大型数据集的稀缺性,这些数据集目前阻碍了对早期干预和遏制的自动化进程。本文首先介绍了迁移学习,以便在评论中进行侮辱性检测,激励了多个低资源侮辱性言论语料库的建立。
作者工作也将促进以纪律为中心的多级分类,以实现更细粒度的识别。将模型输入表示扩展到字符嵌入并更好地处理未编辑和俚语填充的侮辱性评论是提高分类性能的一种合理方法。
同时为了减少其他语言在侮辱性言论数据上的不足,作者计划采用神经网络翻译模型,首先将域内数据转换为英语。基于感知的序列到序列网络(Seq2seq模型用于语言翻译)和迁移学习模型的高效集成提供了多语言知识迁移设置中的简化侮辱性检测。
(免责声明:中国青年网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。)