经略中国分享人工智能产业研究概述 - 北京北京周边其他生活服务

人工智能是一个很宽泛的概念，概括而言是对人的意识和思维过程的模拟，利用机器学习和数据分析方法赋予机器类人的能力。人工智能将提升社会劳动生产率，特别是在有效降低劳动成本、优化产品和服务、创造新市场和就业等方面为人类的生产和生活带来革命性的转变。

　　据Sage预测，到2030年人工智能的出现将为全球GDP带来额外14%的提升，相当于15.7万亿美元的增长。全球范围内越来越多的政府和企业组织逐渐认识到人工智能在经济和战略上的重要性，并从国家战略和商业活动上涉足人工智能。全球人工智能市场将在未来几年经历现象级的增长。据中国产业信息网和中国信息通信研究院数据，世界人工智能市场将在2020年达到6800亿元人民币，复合增长率达26.2%，而中国人工智能市场也将在2020年达到710亿元人民币，复合增长率达44.5%。

　　我国发展人工智能具有多个方面的优势，比如开放的市场环境、海量的数据资源、强有力的战略引领和政策支持、丰富的应用场景等，但仍存在基础研究和原创算法薄弱、高端元器件缺乏、没有具备国际影响力的人工智能开放平台等短板。

　　本报告不但对人工智能关键技术(计算机视觉技术、自然语言处理技术、跨媒体分析推理技术、智适应学习技术、群体智能技术、自主无人系统技术、智能芯片技术、脑机接口技术等)、人工智能典型应用产业与场景(安防、金融、零售、交通、教育、医疗、制造、健康等)做出了梳理，而且同时强调人工智能开放平台的重要性，并列举百度Apollo开放平台、阿里云城市大脑、腾讯觅影AI辅诊开放平台、科大讯飞智能语音开放创新平台、商汤智能视觉开放创新平台、松鼠AI智适应教育开放平台、京东人工智能开放平台NeuHub、搜狗人工智能开放平台等典型案例呈现给读者。

　　后，列举国内外的人工智能公司与读者共勉。随着技术的进步、应用场景的丰富、开放平台的涌现和人工智能公司的创新活动，我国整个人工智能行业的生态圈也会逐步完善，从而为智慧社会的建设贡献巨大力量。

　　人工智能关键技术不断取得突破

　　什么是人工智能领域的关键技术?经略中国产业研习社按照以下三个标准选取了八大关键技术：计算机视觉技术、自然语言处理技术、跨媒体分析推理技术、智适应学习技术、群体智能技术、自主无人系统技术、智能芯片技术、脑机接口技术。

　　选取标准：1、技术相对取得较大突破;2、应用场景相对明确;3、在产业界、学术界、投资界引起较大的关注。

　　1.计算机视觉技术

　　计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学，更进一步地说，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的科学。近几年计算机视觉技术实现了快速发展，其主要学术原因是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别准确率首次超过人类，同年Google也开源了自己的深度学习算法。计算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割和高级处理。

　　1.1 近年来，计算机视觉在产业界和学术界不断取得突破

　　国际计算机视觉大会(IEEE International Conference on Computer Vision，简称ICCV)是全球计算机视觉领域三大会议之一，2019年该大会共收到4328篇论文投稿，相比上一届 ICCV 2017，数量翻了一倍不止。其中，中科院和清华大学的投稿数量在所有机构中遥遥领先。

　　欧洲计算机视觉会议(Europeon Conference on Computer Vision，简称ECCV)是全球计算机视觉领域三大会议之一，2018年该大会共收到论文投稿2439篇，涵盖对抗性机器学习，对人、物体和环境的超快三维感知、重建与理解，面部追踪及其应用，行人重识别的表征学习，视觉定位等主题。

　　国际计算机视觉与模式识别会议(Computer Vision and Pattern Recognition，简称CVPR)是全球计算机视觉领域三大会议之一，2019年该大会共录取来自全球的论文1299 篇，其中腾讯公司的腾讯优图和腾讯AI Lab有超过58篇论文被接收，相比过去两年成绩大幅提升。

　　ImageNet大规模视觉识别挑战赛(ILSVRC)从2010年开始举办，一年一度，至2017年终结，有力推动了计算机视觉的发展。截至2016年，ImageNet中含有超过1500万由人手工注释的图片网址，标签超过2.2万个类别，图像识别错误率已经达到 2.9%，远远超越人类(5.1%)。

　　清华大学研究团队提出了一种全新的卷积神经网络架构 DenseNet，显著地提升了模型在图片识别任务上的准确率;北京大学和微软亚洲研究院研究团队提出了一种新的硬感知深度级联嵌入方法来考虑硬水平的样本;……

　　1.2 计算机视觉技术的典型应用案例

　　交通：自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光雷达、雷达和超声波传感器从环境中获取图像，研发自动驾驶汽车来探测目标、车道标志和交通信号，从而安全驾驶。

　　安防：中国在使用人脸识别技术方面无疑处于领先地位，这项技术被广泛应用于警察工作、支付识别、机场安检，甚至在北京天坛公园分发厕纸、防止厕纸被盗，以及其他许多应用。

　　医疗：由于90%的医疗数据都是基于图像的，因此医学中的计算机视觉有很多用途。比如启用新的医疗诊断方法，分析X射线，乳房X光检查，监测患者等。

　　翻译：传统翻译采用人工查词的方式，不但耗时长，而且错误率高。图像识别技术(OCR)的出现大大提升了翻译的效率和准确度，用户通过简单的拍照、截图或划线就能得到准确的翻译结。

　　体育赛事：计算机视觉还有助于比赛和策略分析、球员表现和评级，以及跟踪体育节目中品牌赞助的可见性。

　　农业：半自动联合收割机可以利用人工智能和计算机视觉来分析粮食品质，并找出农业机械穿过作物的佳路径。另外也可用来识别杂草和作物，有效减少除草剂的使用量。

　　制造业：计算机视觉也可以帮助制造商更安全、更智能、更有效地运行，比如预测性维护设备故障，对包装和产品质量进行监控，并通过计算机视觉减少不合格产品。

　　2. 自然语言处理技术

　　自然语言处理(Natural Language Processing)是一门通过建立形式化的计算模型来分析、理解和处理自然语言的学科，也是一门横跨语言学、计算机科学、数学等领域的交叉学科。

　　自然语言处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。

　　可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成，自然语言理解是让计算机把输入的语言变成有意思的符号和关系，然后根据目的再处理;自然语言生成则是把计算机数据转化为自然语言。实现人机间的信息交流，是人工智能界、计算机科学和语言学界所共同关注的重要问题。

　　从2008年到现在，在图像识别和语音识别领域的成果激励下，人们也逐渐开始引入深度学习来做自然语言处理研究，由初的词向量到2013年 word2vec，将深度学习与自然语言处理的结合推向了高潮，并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络，从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好，设计并训练一个神经网络，即可执行预想的任务。RNN已经是自然语言护理常用的方法之一， GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

　　自然语言处理的研究可以分为基础性研究和应用性研究两部分，语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域，相对应的技术有歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域，例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早，且基础理论研究是任何应用的理论基础，所以语法、句法、语义分析等基础性研究历来是研究的重点，而且随着互联网网络技术的发展，智能检索类研究近年来也逐渐升温。近年来，计算机视觉在产业界和学术界不断取得突破，取得代表性成果的组织有谷歌、阿里、百度、搜狗、科大讯飞等公司，清华大学、Allen人工智能研究所等高校/研究所以及其他多种类型的组织或个人。

　　3.跨媒体分析推理技术

　　以往的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析，比如图像识别、语音识别、文本识别等，而越来越多的任务需要像人一样能够协同综合处理多种形式(文本、音频、视频、图像等)的信息，这就是跨媒体分析与推理。

　　跨媒体是一个比较广义的概念，既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存，又表现为各类媒体对象形成复杂的关联关系和组织结构，还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息，能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合，只有对这些多模态媒体进行融合分析，才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。

　　跨媒体分析推理技术主要包括跨媒体检索、跨媒体推理、跨媒体存储几个研究范畴，可应用于网络内容监管、舆情分析、信息检索、智慧医疗、自动驾驶、智能穿戴设备等场景。

　　近年来，跨媒体分析推理技术在产业界和学术界也不断取得突破。

　　4.智适应学习技术

　　作为教育领域具突破性的技术，智适应学习技术(Intelligent Adaptive Learning)模拟了老师对学生一对一教学的过程，赋予了学习系统个性化教学的能力。和传统千人一面的教学方式相比，智适应学习系统带给了学生个性化的学习体验，提升了学生的学习投入度和学习效率。采用了智适应学习技术的学习系统能够针对学生的具体学习情况提供个性化学习解决方案，包括定位学生的知识漏洞、持续性地评估学生的学习能力水平和知识状态、实时动态提供个性化学习内容。智适应学习技术让教育领域一直困扰的质量、成本、可获取性三大矛盾因素变成了历史。

　　智适应学习技术体系包括知识状态诊断、能力水平评测和学习内容推荐等。

　　知识状态诊断技术是指通过少量试题，在较短时间精准诊断出学生的知识漏洞，这一技术较常用的算法是知识空间理论。能力水平评测技术是指评测出学生的知识掌握情况，分析出学生得到提升的学习能力、学习思维和学习方法，这一技术较常用的算法是项目反应理论、贝叶斯知识追踪。学习内容推荐技术是指依据学生学习情况，推荐合适的学习内容，这一技术较常用的算法是机器学习算法，该算法以学生的所有信息为输入，输出是学生接下来需要学习的内容，达到大化学习效率的目的。

　　在2010年之后，智适应学习技术得到了快速发展，这背后的推动力有强大的计算力和海量的数据，更重要的还有贝叶斯网络算法的应用。学生知识状态的建立是一件高成本的事，传统模式下判断学生的知识状态需要针对每一个知识点出题考察，有了强大的计算力后，就能够快速模拟出学生的知识状态空间，并且定位到学生的知识状态;海量的数据有助于机器学习算法发挥更大的价值。采用了贝叶斯算法之后，智适应学习系统能够实时持续性地评估学生当前的能力水平、并且及时动态调整学习内容，这在之前是没有实现的。

　　目前在全球已有一亿多学生在使用智适应学习系统，覆盖了各个年龄段，从小学、初中、高中，到高等教育、职业教育和成人教育，已应用到文、理、工、医等不同学科领域。大量学生的使用数据显示，智适应学习系统的教学效果好于传统教学模式。

　　5. 群体智能技术

　　群体智能(collective intelligence)也称集体智能、群智。群体智能是一种共享的智能，是集结众人的意见进而转化为决策的一种过程，用来对单一个体做出随机性决策的风险。

　　对群体智能的研究，实际上可以被认为是一个属于社会学、商业、计算机科学、大众传媒和大众行为的分支学科，研究从夸克层次到、植物、动物以及人类社会层次的群体行为的一个领域。

　　群体智能早源于对以蚂蚁、蜜蜂等为代表的社会性昆虫的群体行为的研究，自1991年意大利学者Dorigo提出蚁群优化(Ant Colony Optimization, ACO)理论开始，群体智能作为一个理论被正式提出，并逐渐吸引了大批学者的关注，从而掀起了研究高潮。1995年，Kennedy 等学者提出粒子群优化算法 (Particle Swarm Optimization, PSO)，此后群体智能研究迅速展开。

　　目前群体智能的研究主要包括智能蚁群算法和粒子群算法，智能蚁群算法主要包括蚁群优化算法、蚁群聚类算法和多机器人协同合作系统。其中，蚁群优化算法和粒子群优化算法在求解实际问题时应用为广泛。随着群体智能算法在诸如机器学习、过程控制、经济预测、工程预测等领域取得了前所未有的成功，它已经引起了包括数学、物理学、计算机科学、社会科学、经济学及工程应用等领域的科学家们的极大兴趣。

　　目前关于群体智能计算的国际会议在全世界各地定期召开，各种关于信息技术或计算机技术的国际会议也都将智能进化技术作为主要研讨课题之一。

　　6.自主无人系统技术

　　自主无人系统是能够通过先进的技术进行操作或管理而不需要人工干预的系统，是由机械、控制、计算机、通信、材料等多种技术融合而成的复杂系统。自主无人系统可应用到无人驾驶车辆、无人机、服务型机器人、空间机器人、海洋机器人、无人车间、智能工厂等场景中，并实现降本增效的作用。自主性和智能性是自主无人系统重要的两个特征。人工智能无疑是发展智能无人自主系统的关键技术之一。利用人工智能的各种技术，如图像识别、人机交互、智能决策、推理和学习，是实现和不断提高系统这两个特征的有效的方法。

　　7. 智能芯片技术

　　目前，关于智能芯片的定义并没有一个严格和公认的标准。一般来说，运用了人工智能技术的芯片都可以称为智能芯片，但是狭义上的智能芯片特指针对人工智能算法做了特殊加速设计的芯片，现阶段，这些人工智能算法一般以深度学习算法为主，也可以包括其它机器学习算法。

　　智能芯片可按技术架构、功能和应用场景等维度分成多种类别。近年来我国学术界和产业界都加大了对芯片技术的研发力度，国内智能计算芯片技术不断取得新的成果。一些基于传统计算架构的芯片和各种软硬件加速方案相结合，在一些人工智能应用场景下都取得了巨大成功，但由于市场需求的多样性，很难有任何单一的设计和方法能够很好地适用于各类情况。因此，学术界和产业界涌现出多种专门针对人工智能应用的新颖设计和方法，覆盖了从半导体材料、器件、电路到体系结构的各个层次。

　　智能芯片技术的进展：

　　浙江大学和杭州电子科技大学合作研制出了国内首款基于硅材料的支持脉冲神经网络的类脑芯片。

　　清华大学微电子系团队依靠长期积累的可重构计算芯片技术，研发了Thinker芯片，这种芯片基于采用可重构架构和电路技术，突破了神经网络计算和访存的瓶颈，实现了高多模态混合神经网络计算。Thinker芯片具有高的突出优点，其能量效率相比目前在深度学习中广泛使用的GPU提升了三个数量级。

　　西井科技推出了自主研发的深度学习类脑神经元芯片深井(deepwell)和可模拟5000万级别的“神经元”的类脑神经元芯片深南(deepsouth)产品。

　　中国科学院计算技术研究所的寒武纪公司推出了寒武纪1A处理器(Cambricon-1A)，成为全球首款商用深度学习专用处理器，在运行主流智能算法时性能功耗效率大幅超越CPU和GPU，被世界互联网大会评为全球十五项“世界互联网领先科技成果”之一;此后，寒武纪相继发布了面向视觉领域的寒武纪1H8、性能更强的寒武纪1H16，面向智能驾驶领域的寒武纪1M，首款云端智能芯片MLU100。

　　华为发布AI芯片麒麟970，麒麟970选择了高的异构计算架构来大幅提升AI算力，特别设计了HiAI移动计算架构。

　　8. 脑机接口技术

　　脑机接口(Brain-Computer Interface，BCI)是在人或动物脑(或者脑细胞的培养物)与外部设备间建立的直接连接通路。通过单向脑机接口技术，计算机可以接受脑传来的命令，或者发送信号到脑，但不能同时发送和接收信号。而双向脑机接口允许脑和外部设备间的双向信息交换。2013年，自美国首次宣布启动“脑计划”以来，欧洲、日本、韩国等陆续参与“脑科技”竞赛项目，据已公开数据表明，全球在脑机接口相关领域的研发支持已经超过200亿美元。

　　在“十三五”国家科技创新规划中，脑科学与类脑研究被列为“科技创新2030—重大项目”。自2018年以来，国家先后批准北京、上海、深圳等地成立脑科学研究基地。