×

computer vision

computer vision(计算机视觉有多重要)

admin admin 发表于2023-03-11 19:39:15 浏览33 评论0

抢沙发发表评论

本文目录

计算机视觉有多重要

计算机视觉时代来临 谁抢先爆发?

计算机视觉是什么?计算机视觉是指计算机如何处理和理解图像,从Intel的RealSense到谷歌的Project Tango手机、微软Kinect体感器、三星Gear VR眼镜再到最新微软的Hololens,计算机视觉技术正渗透到手机、PC、机器人、无人机等你能想到的任何地方,是人工智能生态系统的重要组成部分。

英特尔连续两年在开发者大会上展示其实感技术RealSense,向PC制造商提供软件开发工具包和3D摄像头,好让PC拥有“感觉”。凭借RealSense技术,PC摄像头可以对周围环境进行3D扫描并学会很多东西,比如纵深。今年的IDF上,英特尔CEO科再奇更将“计算真实可感”作为此次大会的主题,从最新Tango手机到无人机的室内飞行,展示出RealSense实感技术的各种实际应用,遍及工业、机器人、消费电子等领域,让实感技术走进我们的日常生活。

Intel实感3D摄像头由三枚镜头组成,传统镜头、红外镜头和红外激光放映仪,也可以称之为深度摄像头。通过三枚镜头间的合作,发射并探测物体反射回来的红外线,来计算设备前方物体的深度。计算得到的数据,与英特尔实感动作跟踪软件配合,生成免触摸的、可以响应手部、臂部和头部运动及面部表情的虚拟界面。英特尔实感技术开辟了全新的游戏方式及体验。通过姿势控制以及交互式游戏体验,能带给游戏玩家身临其境,随心所欲的游戏操控。

由于Intel实感3D摄像头可以感知深度信息,您可以整体移除或替换视频聊天背景。英特尔和微软合作,将Skype*和Lync*上的视频呼叫功能更改为个性化的交互,使其可以支持更为引人入胜的虚拟会议。将呼叫者们的背景移除,或者统一移动到一个新的背景中,创造更方便生动的会议环境。如此可见,英特尔实感技术将虚拟场景与真实场景做到很好的结合,起到增强实感的作用。

目前Intel实感3D摄像头有三款可选,面向2合1、笔记本电脑、一体机的F200,位于正面,有效距离在0.2~1.2米,仅限室内;面向平板、2合1的R100/R200,位于背面,室内多至3~4米。近距离深度摄像头用于手势识别,远距离深度摄像头用于环境感知和建模,业内相关人士预测,未来99%的AR设备和50%以上的VR设备将配备深度摄像头。

据ABI Research称,预计虚拟现实设备在未来五年将会迅速增长,其间年复合增长幅度为106%,到2020年总发货量将达到4300万件,累计出货量将超过1亿台。由于该领域充满市场想象力,全球科技业巨头都不惜花费大量资金来布局。最著名的收购来自苹果3.6亿美元收购Kinect一代的技术供应商PrimeSense,而VR巨头Oculus(它本身也是被Facebook以20亿美元收购)近期已经连续收购5家计算视觉领域的创业公司。Intel的RealSense实感摄像头也是收购多家相关领域公司以后的结果,微软则在Kinect二代产品中抛弃了PrimeSense的技术方案(也造成了PrimeSense被苹果收购的结果),收购了Canesta公司并使用该公司的ToF技术方案,同时还收购了3DV系统公司做动作识别。谷歌则通过开发Tango项目来切入该领域,由于它直接针对移动设备,技术难度甚至更高,它所采用的计算视觉专用处理器也已经成为欧美半导体创业的最新热点。在本次IDF上,谷歌和Intel宣布合作开发相关技术,将该领域的热度炒到高潮。

正是巨头的积极布局,使得相关领域的创业和投资活动开始热闹起来。来自上海的图漾科技便是国内实时景深技术开发的代表,该团队成员在深度摄像头硬件和算法上有超过五年的经验和技术积累。图漾创始人费浙平表示,随着技术的快速发展,深度摄像头的应用早已突破游戏领域,机器人室内定位和导航与安防领域的行为模式预警开始进入商业化阶段。

目前,实现深度探测的主流技术主要有三种,(单目)结构光、双目可见光(可配合红外补光)和飞行时间法(ToF)三种。英特尔实感摄像头采用的是第一种技术,通过向检测空间内投射经过编码的激光光斑阵列,对空间进行标定并辅助计算三维空间位置。而图漾科技则创造性的采用“结构光+双目摄像头”的技术方式实现景深计算,它的优势在于有更好的环境适应能力与可靠性,提供更高的深度图质量,同时规避了PrimeSense的专利,目前图漾团队的关键创新和技术内容已经申请了多项发明专利。

由于图漾的技术优势和应用前景,目前图漾开发的产品样机已经交付首批客户。随着业内最大的技术供应商PrimeSense被苹果收购,今年将停止所有对外授权和供货,急需深度摄像头的厂商需要寻找替代方案。由于该技术门槛极高,能够找到的技术供应商非常有限,而图漾的独立技术供应商身份,使得他们的深度摄像头成为很好的替代技术方案。费浙平笑言,”客户对我们产品的需求非常饥渴。我们现在最大的挑战就是扩充各类资源、加快产品研发速度,尽快跟上客户的需求。”

来源:集微网 由大比特资讯收集整理

【技术】利用深度神经网络和计算机视觉分析脸部表情

辨别脸部表情和情绪是人类社会互动早期阶段中一项基本且非常重要的技能。人类可以观察一个人的脸部,并且快速识别常见的情绪:怒、喜、惊、厌、悲、恐。将这一技能传达给机器是一项复杂的任务。研究人员经过几十年的工程设计,试图编写出能够准确识别一项特征的计算机程序,但仍必须不断地反复尝试,才能识别出仅有细微差别的特征。

那么,如果不对机器进行编程,而是直接教机器精确地识别情绪,这样是否可行呢?

深度学习(deep learning)技术对于降低计算机视觉(computer vision)识别和分类的错误率展现出巨大的优势。在嵌入式系统中实施深度神经网络(见图1)有助于机器透过视觉解读脸部表情,并达到类似人类的准确度。

图1:深度神经网络的简单例子

神经网络可经由训练而识别出模式,而且如果它拥有输入输出层以及至少一个隐藏的中间层,则被认为具有“深度”识别能力。每个节点从上一层中多个节点的加权输入值而计算出来。这些加权值可经过调整而执行特别的影像识别任务。这称为神经网络训练过程。

例如,为了训练深度神经网络识别面带开心笑脸的照片,我们向其展示开心的图片作为输入层上的原始数据(影像像素)。由于知道结果是开心,网络就会识别图片中的模式,并调整节点加权,尽可能地减少开心类别图片的错误。每个显示出开心表情并带有批注的新图片都有助于优化图片权重。藉由充份的输入信息与训练,网络可以摄入不带标记的图片,并且准确地分析和识别与开心表情相对应的模式。

深度神经网络需要大量的运算能力,用于计算所有这些互连节点的加权值。此外,数据存储器和高效的数据移动也很重要。卷积神经网络(CNN)(见图2)是目前针对视觉实施深度神经网络中实现效率最高的先进技术。CNN之所以效率更高,原因是这些网络能够重复使用图片间的大量权重数据。它们利用数据的二维(2D)输入结构减少重复运算。

*图2:用于脸部分析的卷积神经网络架构(示意图) *

实施用于脸部分析的CNN需要两个独特且互相独立的阶段。第一个是训练阶段,第二个是部署阶段。

训练阶段(见图3)需要一种深度学习架构——例如,Caffe或TensorFlow——它采用中央处理器(CPU)和绘图处理器(GPU)进行训练计算,并提供架构使用知识。这些架构通常提供可用作起点的CNN图形范例。深度学习架构可对图形进行微调。为了实现尽可能最佳的精确度,可以增加、移除或修改分层。

图3:CNN训练阶段

在训练阶段的一个最大挑战是寻找标记正确的数据集,以对网络进行训练。深度网络的精确度高度依赖于训练数据的分布和质量。脸部分析必须考虑的多个选项是来自“脸部表情识别挑战赛”(FREC)的情感标注数据集和来自VicarVision (VV)的多标注私有数据集。

针对实时嵌入式设计,部署阶段(见图4)可实施在嵌入式视觉处理器上,例如带有可编程CNN引擎的Synopsys DesignWare EV6x嵌入式视觉处理器。嵌入式视觉处理器是均衡性能和小面积以及更低功耗关系的最佳选择。

图4:CNN部署阶段

虽然标量单元和向量单元都采用C和OpenCL C(用于实现向量化)进行编程设计,但CNN引擎不必手动编程设计。来自训练阶段的最终图形和权重(系数)可以传送到CNN映射工具中,而嵌入式视觉处理器的CNN引擎则可经由配置而随时用于执行脸部分析。

从摄影机和影像传感器撷取的影像或视讯画面被馈送至嵌入式视觉处理器。在照明条件或者脸部姿态有显着变化的识别场景中,CNN比较难以处理,因此,影像的预处理可以使脸部更加统一。先进的嵌入式视觉处理器的异质架构和CNN能让CNN引擎对影像进行分类,而向量单元则会对下

一个影像进行预处理——光线校正、影像缩放、平面旋转等,而标量单元则处理决策(即如何处理CNN检测结果)。

影像分辨率、画面更新率、图层数和预期的精确度都要考虑所需的平行乘积累加数量和性能要求。Synopsys带有CNN的EV6x嵌入式视觉处理器采用28nm工艺技术,以800MHz的速率执行,同时提供高达880MAC的性能。

一旦CNN经过配置和训练而具备检测情感的能力,它就可以更轻松地进行重新配置,进而处理脸部分析任务,例如确定年龄范围、识别性别或种族,并且分辨发型或是否戴眼镜。

总结

可在嵌入式视觉处理器上执行的CNN开辟了视觉处理的新领域。很快地,我们周围将会充斥着能够解读情感的电子产品,例如侦测开心情绪的玩具,以及能经由识别脸部表情而确定学生理解情况的电子教师。深度学习、嵌入式视觉处理和高性能CNN的结合将很快地让这一愿景成为现实。

本文由大比特资讯收集整理(www.big-bit.com)

斯坦福,卡耐基梅隆,伯克利,MIT,计算机视觉哪家更强

问的是计算机视觉,怎么可以用图灵奖来糊弄呢?图灵奖又不是针对计算机视觉设的奖……单提计算机视觉的话,华盛顿大学和康奈尔大学哪个不是鼎鼎有名?如果说是医学图像领域的计算机视觉,那约翰·霍普金斯大学是一家独大啊。

所以,我们俗一点,看近十年关于computer vision的paper和顶级会议吧~

这是整体排名,2016—2017:

先看下CMU:

再看看MIT的:

可以发现CMU更高产,出成果的团队也更多。

当然这只是paper和会议这两项的排名,不能全面代表这些学校的实力。就像约翰·霍普金斯大学专精医学领域的计算机视觉,CMU、MIT、斯坦福、伯克利也是术业有专攻的,无论对于研究者而言还是吃瓜群众,硬要排出一二三四是不科学不合理的。

所以,还是看导师吧,导师才是最重要的,即使只是一个无名的小实验室,一群甚至一个大牛的加入也能让它在某一领域秒杀其他名校。名校出身确实重要,但是学术界更看重师徒“族谱”吧。

有哪些优秀的计算机视觉论坛

重要的计算机视觉会议论坛(参照CCF推荐)国外:

A类

CVPR: International Conference on Computer Vision and Pattern Recognition

ICCV: International Conference on Computer Vision

AAAI: AAAI Conference on Artificial Intelligence

ICML: International Conference on Machine Learning

NIPS: Annual Conference on Neural Information Processing Systems

ACM MM: ACM International Conference on Multimedia

IJCAI: International Joint Conference on Artificial Intelligence

B类

ECCV: European Conference on Computer Vision

C类

ACCV: Asian Conference on Computer Vision

ICPR: International Conference on Pattern Recognition

BMVC: British Machine Vision Conference

国内:中国计算机学会人工智能专委会,人工智能大会都非常不错。如果是研究生能在上面发一篇原创论文那是非常强。发在A类顶会论文的作者,有的高校直接可以破格上教授。

想学计算机视觉,高考志愿选大学的什么专业

谢谢邀请,计算机视觉是一个很前沿的学科,隶属于计算机专业,但是目前大学本科阶段的学习还没有专门分出来这么一个专业,如果想学计算机视觉,可以在大学本科阶段学习计算机相关专业,毕业后考取计算机视觉研究方向的研究生,再跟导师学习研究,以后还能考取博士。

越往上走,眼界越宽,也许现在你还感觉有些迷茫,等本科阶段的学习,对专业和领域有一定的了解,就知道方向在哪里

希望对你有些许帮助!