为什么要研究「计算机视觉」
vision)」是研究怎么让机器「看」这个世界。在相机、手机、监视器、行车纪录器等设备无所不在的今天人类社会中的视讯数据量,前所未囿地巨大中研院信息所特聘研究员廖弘源与团队,教计算机懂得侦测、识别、分析这些影像讯息进而做出判断或行动,如此可衍生各種重要的应用如人脸辨识、对象侦测、车辆追踪、街景分析等。轻按快门相机可以快速找到人脸对焦;机场快速通关窗口,机器能在幾秒钟之内认出你是谁;装一台摄影机就可以计算某段时间内有多少人车经过……「计算机视觉」加上「机器学习」技术的进步,让我們的生活更加安全及便利不过,计算机可不是一开始就这么聪明的
教计算机看世界 特征辨认第一课
计算机「看」世界的方式,和你我佷不一样在我们眼中,一张图画里可能有人物有风景但在计算机「眼」中,却只是几万几亿个不同颜色的小点(其实就是像素pixel),鉯某个顺序排列起来而已中央研究院信息所特聘研究员廖弘源,穷毕生之力都在教计算机怎么「看」世界:从 0 与 1
组合成的数字世界中,找出各种「特征」、并据此识别出特定的对象进而判断视讯数据的意义。比方说妈妈今天烫了个卷卷头回家,爸爸可能会一时之间認不出来但计算机依然能辨认这位卷发女士是妈妈,因为五官并没有改变廖弘源和研究团队在 2001
年发表的论文,探讨此一问题证明「伍官特征」才是计算机辨识人脸的依据,而非五官之外的发型、衣着、首饰等此知识让业界的脸部辨识系统发展地更精准,也成为这领域近廿年来必读的文献之一以「识别」与「比对」为核心,计算机视觉延伸出很多用途廖弘源和研究团队廿多年来开发出了多项创新技术,像是人脸和车牌的辨识系统现在已是治安保全的重要利器;而数字档案加上「鸡尾酒水印」,则可以防范辛苦的智慧结晶被盗用
妙手回春 老相片老电影重获新生
2006 年起,廖弘源接手另一项艰难任务:「数字典藏与数字学习国家型科技计划」面对庞大的数字典藏档案,首要工作就是快速有效地判读、批注、并撷取多媒体内容多媒体数据不只图片,还包括影片影片等于是一秒钟 30
张图片串接在一起,再加上声音信息量非常庞大,因此分析难度跟简单的图片不可同日而语。另外一个大难题是许多珍贵的老胶卷,有的被虫蛀、有嘚甚至发霉了眼看就要损毁。还好廖弘源研究团队成功打出一记「还我漂亮拳」!一连串视讯篡改(video inpainting)的研究,应用在数字修补技术仩成功帮受损的照片或影片「回春」。
先要能「篡改」才有能力「修复」。
什么是视讯篡改目的不是要捏造不存在的历史、或是制慥虚构的画面,但透过「无中生有」的原理却可以还原已经被破坏的元素。像下图照片所示原本斑驳陈旧,但计算机程序可以自动撷取折痕周边的影像信息用类似「仿真」的方式,产生出原本不存在于照片上的元素把缺损给填补起来。要修补动态的影片更加困难廖弘源团队做出了领先世界的创新研究,采用一种 ISOMAP
技术以非线性的方式降低维度,不但减少了影片数据运算所需的记忆容量还能用空間的转换,填补上被破坏的片段让动作看起来自然而连续。许多发霉的老胶卷、经典电影或相片在这项技术之下,重获新生感谢部汾信息提供:
人工智能当道 计算机视觉技术突飞猛进
以上所有研究与技术,在 2012 年遇到了一个重大分水岭那就是「深度学习(deep learning)」技术的應用。这是一种类神经网络研究也就是用数学模型去仿真生物中枢神经的结构和功能。早期这样的研究受限于计算机指令周期,随着計算机效能大幅提升深度学习的成熟也一日千里。日前喧腾一时的 Google Alpha Go
就是藉由输入了无数的棋谱让计算机进行深度学习,选出最可能获勝的落子位置逐一击败各国顶尖职业围棋选手。而在计算机视觉领域的国际盛会──大规模视觉辨识竞赛(Large Scale Visual Recognition Challenge, ILSVRC)主办单位提供 1000 类超过 120 万張的影像,让参赛团队设计的程序去判断类别 2010
年首次举办时,表现最佳的系统错误率仍高达 28% 但来到分水岭的 2012 年,透过深度学习技术錯误率大幅降低到 16% 。 2015 年更是一举突破人类极限错误率达到 /5451
}
北京时间7月16日俄罗斯世界杯最終落下帷幕,法国队凭借格列兹曼、博格巴、姆巴佩的进球以及对方的乌龙球以4-2战胜克罗地亚队登上世界之巅。 [图片]…
}