我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:斗牛棋牌下载 > 简单信号通信 >

简易信号通信——可应用于军事上的手势及语音辨识技术

归档日期:07-01       文本归类:简单信号通信      文章编辑:爱尚语录

  本文提出基于视觉之动态手势辨识技术,不需要特殊硬件的辅助(裸手手势),并结合既有扩增实境技术,可因地制宜修改,轻易用于直觉且实时性之操控。手势信息主要包括「形状(Shape) 、位置(Position) 、方向(Orientation) 及运动(Movement)」四要素,结合此四项要素,手势不仅可以表达单一概念,还可组合成另一个具有意义的动态手势(Dynamic Hand Gesture)。本文首先撷取手部区域,接着撷取指尖位置、手指支数、手势方向等特征,以办识静态手势。最后结合状态信息及手势变动信息,办识出移动、旋转及缩放等动态手势变动信息,分析各个静态手势信息, 组合成正确且具完整意义之动态手势。此外,手势辨识技术可用在军事相关应用,例如教育训练、装备控制、指令(命令)下达等等用途,相关应用概述如后:

  为了让扩增实境更富互动性,基本上以采用标记辅助及特殊硬件辅助等两类方法,用来辅助事件或脚本的触发,透过与使用者之间的交互过程,达到更为生动的互动过程,以下列举两个手势辨识技术在学术上的运用。

  在 2005 年新西兰坎特伯里大学 Trond Nilsen 及 Julian Looser 等人,设计出可2人以上同时操作使用的扩增实境坦克大战游戏(如图一),这项技术若引进至军方,可用至战术兵棋推演或教学使用。

  鉴于软硬件技术的进步,前述方式利用特殊硬件或利用标记的触发,在 AR 环境下达到互动目的,但也相对的产生了实用上的困扰,除了特殊硬件取得及携带的困扰外,多标记的互动方式亦需学习或了解各标记的功能后方能够运用;在实际应用面,希望能使用更灵巧且方便的媒介,摆脱特定硬件(含标记)的辅助,而「基于视觉技术的手势」及「语音识别」就是直观,且很好的操控媒介。

  手部区域信息取得方式大致可分为两类,一类是用特殊硬件辅助,如采用数据手套(电子手套等)、特殊影像撷取器等方式取得手部信息。另一类则是以视觉技术的方式取得手部信息,相关研究分述如后:

  Ramirez-Cortes 等人5为了提升手掌辨识率,直接用商用扫瞄机取得手部区域,取得手掌区域影像。(如图四)

  Cheng 及 Trivedi6提出的车上异常行为侦测,利用可见光及近红外线(数组)来识别手部信息(针对特别区域),其硬件装置如图五。

  Zhang 等人7利用类似电子手套的装置,来撷取手部的运动、动作等信息,装置如图六。

  Just 及 Marcel 使用彩色标记,在手上配戴颜色标记(色彩手套),协助手部区域取得。(如图七)

  Ionescu 等人将手势分为静态手势(Static Gestures)及动态手势(Dynamic Gestures) 两大类别, 并运用手部区域的骨架集合来判断手势;Just 及 Marcely 提出动态手势的概念; Kelly 等人 提出手的姿势可以作为特殊的过渡态(Transition States),而多个过度态可以组合成特殊的意义之概念,并将此概念用于人类手语之辨识。结合前述概念,本文将裸手手势区分为静态手势及动态手势两种分类;而就辨识区域的不同,还可再细分为手臂手势与手掌手势。换句话说,手势以类别来区分可分为静态与动态手势,而又因为观察的区域区分为手臂与手掌手势,相关研究分述如后:

  Ionescu 等人 利用静态手掌手势辨识后的结果,来操控机械手臂。(如图八)

  Huang 及 Hu 利用 Gabor Flter 的特性将手掌的角度做适当调整,即让所有手势都调整至单一方向,如此可减少模板数目,以增加比对时的效率,并且有提升手势辨识率的效果。这也点出了,手势的方向对手势辨识有其关联与帮助。

  Yin 以及 Xie14利用 RCE(Restricted Coulomb Energy)类神经网络以及 L*a*b*色彩空间,切割出手部肤色区域之二值化影像,找出像素值变化之位置点当做特征点,利用此特征点计算手指支数(或分支数目)(Branch Number, BN),以及分支相位(Branch Phase)。作者并利用该特征定义八种手势来控制机器人具六个轴承手臂之活动。(如图九)

  Luca 利用凸包(Convex Hull)的特性,实时且直觉地计算手指支数,如图十。但该方法仅是初步的手势辨识方式,例如该方法仅对单一方向之手势有效且无进一步撷取指尖坐标的机制。

  手势辨识研究领域中,部分的研究以模板比对(Match Template)的方式来判断手势,如 Ge 等人 、Huang 及 Hu (模板比对如图十一),但判别的手势必须有一定的差异性,否则正确率将偏低。另一方面,要辨识复杂手势必须增加其模版样本数目或多个数据库比对,比对时将花费更多的计算时间,较不利实时系统。

  也有部分研究使用学习的方式来做手势的辨识,如 Chen等人 、Cheng及Trivedi,但使用 AdaBoost、SVM 等学习的方式辨识的准确度皆受样本的影响甚巨,且无法直接撷取手指位置等相关信息,须结合其他方式获取,图十二是将手掌手势作 AdaBoost 分类的图。

  Suk 等人 提出双手动作及手臂与参考点间之手部分析,其手势的定义图十三 (a)至(j),利用双手的动作组合出的手势,但该论文未提及手势辨识的起始与结束,不利于实际运用。例如,辨识图十三(g)时,过程中手部轨迹有向左、右的动作,易误判成图十三(i)、(j)手势,在辨识过程中容易有混淆的状况。

  Ionescu 等人 提出将每个手臂手势骨架迭加,将其组合解析为动态手势,并分析其关系,以解读手势代表意义(如图十四);其中(a)为(c)图骨架之集合,(b)为(d)图骨架之集合。其辨识方法较不利于运用在实时系统上;该方法的优点在于这种完整手势动作的分析概念,可以克服动态手势辨识起始与结束的问题。

  Kurakin 及 Mestetskiy 提出以视觉技术的方式结合连续骨架(Continuous Skeletons)的动态手势识别方法,并用于控制 2D 虚拟对象之移动、缩放和旋转,如图十五(a)。可是该方法当有手指交迭的情形下,将可能有严重的误判情事,如图十五(b)。图十四 骨架手势图

  Kelly 等人 1 提出手势信息由四项要素所构成,分别是手的(1)形状、(2)位置、(3) 方向和(4)运动。将手势的这四个组件信息,融合交互比对判断动态手势以避免手势意义判读错误,这也点出了动态手势辨识远比静态手势辨识来得困难且相对复杂。举出一个因运动方向不同而构成完全不同意义的动态手势例子,由「比拇指」手势,因顺时钟旋转 90 度与逆时钟旋转 90 度这两者间的不同,所构成的动态手势可代表不同的意义。(如图十六)

  语音为人类作为沟通方式的自然语音之一,Google、Apple 及微软分别推出 IRIS、 SIRI、Microsoft Speech 智能型语音识别技术,并能对答如流。语音识别技术已臻至成熟,微软亦释出 Speech SDK 以供开发者应用。(如图十七)

  语音常用来控制机器人,但当机器人距离使用者较远,语音识别技术将受影响。 Gomez 及 Kawahara 提出算法增强音源讯号,改善了语音识别技术,使机器人能辨识人类语言。(如图十八)

  要做动态手势辨识,首先须取得手势信息四项要素,而相关的手部信息如指尖位置、手部区域质心、手指支数、双手手臂变动等特征,可借由凸包结合视觉技术撷取或分析得知,并在某些手部特定情动作(形状)之信息撷取,因为其技术的不同而有互补的作用。简单介绍凸包原理如后:

  声学模型可视为一个单音节所构成的符号,如注音符号,英文字母、单字等,一般声学模型皆采用隐藏式马可夫模型技术建模。

  透过先前所述,由语音讯号取得一个音框,利用声学特征取得合适的特征点后,接着利用声学模型,将符号或音节建立相对应的声学模型,再透过语言模型统计出正确的取用词汇长度,最后再透过检索的技术,如 Viterbi 算法进行讯号比对,以达成语音识别的成效。

  由先前叙述可以得知,进行人机互动操控,一般皆采用可得知深度之摄影机来辨识动态手势,但由于深度摄影机使用空间受限,且相较于单一简易摄影机成本较高。因此选择单一简易摄影机进行手势辨识,使用空间较不受限制,且现今行动装置上,皆采用简易摄影机。然而简易摄影机侦测肤色时易受光影及手势变动所影响,不易得知深度信息。因此需要额外的输入讯号,以补足简易摄影机视觉辨识技术之缺憾。由于语音识别发展十分成熟,且辨识率已相当高,可以语音来辅助单一简易摄影机无法取得深度信息之不足。

  若需训练使用者声调,需先至控制台之语音识别,在进阶语音选项中先选定语言,训练用户的声调并调整麦克风音量,如图二十语音识别设定示意图。

  本文所提「动态手势控制扩增实境虚拟对象」之整体系统架构(如图二十一),共使用两台摄影机及 1 具麦克风,其中摄影机 1 撷取手势影像,并将动态手势影像经过个人计算机运算分析、将分析出的特征信息转换为控制信息,用于控制扩增实境的虚拟对象;麦克风撷取语音控制信息;另外摄影机 2 撷取扩增实境环境影像,透过个人计算机追踪与分析场景中的标记位置,结合动态手势之控制信息(虚拟对象位置、比例、旋转角度等信息)及语音识别结果,绘制变动后的三维虚拟对象,并混合扩增实境场景将结果绘制于屏幕窗口。

  静态手势的转换与变化,可构建出动态手势。为了让用户轻易操控三维虚拟对象,本文设定不同之状态,以区别相同之手势。换言之,相同的手势在不同的状态代表着不同的意义。如此,可以定义较少的手势,来取代较为繁复的控制手势;对使用者而言,可以轻易且直觉的使用该系统。

  要以手势正确控制三维虚拟对象,必须要知道控制「何时开始?」、「何时结束?」、「控制那个对象?」以及「做何动作?」。因此,本文归纳出三种指令群,分别为「对象选取指令」、「功能指令」、「开始/结束指令」。(如图二十二)

  预备状态:未出现「开始指令」前与出现「结束指令」之后,除「开始指令」有效外,余指令无效。

  操控状态:依各项「操控指令」,控制虚拟对象。有了状态的区别,可以对不同状态下的相同手势赋予不同的意义。

  静态手势定义须明确及不易混淆,能让使用者直觉及方便的运用,本文定义的静态手势如图二十四。(a)手势「1」代表「对象选取」及「对象移动」;(b)、(c)手势「2」代表「对象缩放」;(d)手势「3」代表「对象旋转」;(e)手势「4」代表「对象选取」及「确认操控」;(f)手势「5」代表「开始辨识」及「对象高度」;(g)手势「0」代表「结束操控」。

  本文结合静态手势与状态改变之设计理念,以及实际操控之方便性,定义出动态手势。(如表一)

  整体手势运作方式可以状态机来描述,如图二十五。状态机图中各单元状态可对应动态手势定义之手势指令或语音指令并用的方式,且与设定的「控制状态」相结合。

  图二十六为「动态手势控制扩增实境虚拟对象」之系统流程,主要分为手势辨识、语音识别、扩增实境及控制匹配(绘制)等四大部分。其中手势辨识区块主要撷取手部之主要特征,并辨识出各种不同手势,转换成操控信息、语音识别区块接收语音消息,并将辨识结果转成操控信息、扩增实境撷取标记对象位置等信息;最后由控制匹配结合手势、语音操控信息及标记信息,透过对象变动计算功能,计算出受控后的虚拟对象信息,并绘制至显示器,后续针对几项重要流程说明。

  为了能快速且正确的取出手部区域,本文采用 Hsu 等人 、 所提之椭圆形肤色模型侦测方式,并将侦测出的肤色区域经预处理(高斯模糊 5*5、闭合运算 2 次)后转换为二值影像,为了过滤环境(或肤色侦测)的噪声,仅取最大连通的部分进行运算(使用连通区域的面积来做判断,只保留最大连通面积的连通区域),结果如图二十七(b)。

  手部特征撷取详细流程如图二十八,首先将「手部区域撷取」所得的肤色区域,过滤出特征较为明显的轮廓后,接着利用凸包(Convex Hull)算法取出凸凹点,并分析出手指部分与非手指部分(含手掌、手臂),进而判断手指指尖位置与支数。

  (二) 动态手势状态分析图二十九为状态分析流程图,经由分析连续的手部特征信息,可判断手势是否处于转换之过渡期。详细步骤说明如后:

  辨识动态手势时,各手势间转换时手指的收放过程及手部与摄影机间距离的改变易造成误判,要正确分析手指区域的改变,尚须先考虑下列两个问题:

  (1)非手指区域的误判,正常情形下,手部与衣服接触部分应为外壳的一部分,而手腕骨头突起处应不致造成连续外壳(如图三十)。而图三十(b)中,手腕骨头突起处被视为外壳的一部分,依凸包算法的特性,将会视其为连续外壳(凸段),如此并非是预期的结果,且会影响手指区域与非手指区域面积,导致手势转换判断准确度低落;

  本文考虑前述的两个问题,研拟「手势转换之侦测方式」并融入「面积补偿」的概念来正确判别手势是否于转换过程中。在手势特征撷取模块中,可计算出每个手势特征中整体肤色区域面积(SArea )、非手指区域面积(PArea )以及手指区域面积(FArea = SArea − PArea)。

  首先单独考虑第一个问题,即摄影机与手部距离固定的状况下且手掌区域侦测有误时,手掌区域前后将有侦测错误的状况,如图三十(a)(b),且其面积差值可轻易算出(PArean+1 − PArean = PAreaD),该误判的面积将会被归类到手指区域面积中,故将其面积差值补偿回去,即可由 其值是否为 1 来检测手指的转换,详细推导并归纳其关系如表二。

  本文欲控制的对象为虚拟三维对象之移动、旋转及放大缩小,而一般的三维对象可简化利用三组参数进而达到此控制的目的,分别为三维空间中的中心位置、缩放比例及旋转角度。当判定手势为稳定状态(非转换中),动态计算即将手部特征转化为该三组参数,并将结果混合手势关键特征输出至动态手势信息,动态手势信息如表四。如控制对象的移动时,利用图二十四(a)中手势「1」计算出指尖位移量,搭配图二十四(f)手势「5」调整对象的高度,可决定虚拟对象的三维空间中的中心位置。

  当手势被判断为非稳定状态(转换中),手势辨识流程将持续分析手部特征信息,并输出手势关键特征。此时,动态手势信息中中心位置、缩放比例及旋转角度等 3 个参数设定为 NULL。

  此模块实作提到控制状态及控制流程,其中接收标记信息及动态手势(韩语音辨识)信息并转为操控信息。为达控制目的,我们可以弹性的方式调整此模块。控制匹配细部流程。(如图三十一)

  实作控制流程状态机(如图二十五)提供流程控制用,即仿真实作状态机的运作。

  配合流程控制对应的动作,结合标记信息计算,如本文所提空间转换矩阵(虚拟对象转换矩阵),并输出至扩增实境流程。

  若要应用在不同的控制目标(目的),可以应地制宜定义适合的手势,借由调整控制匹配模块,产生出不同的控制信息,以达控制之目的。

  在军事用途中,手势是单兵(班、排)之间的通讯方式之一,具有静默及视距通讯的特点。但在实际单兵战斗的环境上,大多时候因保持隐蔽与掩蔽的状态,无法确保传达手势信息;另外,在练习上皆由领导干部认定手势是否正确,并于训练时机予以纠正或指导,无统一的手势正确与否的判别标准。为了克服这两项问题,可借由手势辨识系统来辅助。在实战场景下,可将学员手势借由手势辨识系统将手势转为信息传达;在教育训练时,则可做为手势是否正确的客观判断媒介。(如图三十二)

  接着简述如何将本文手势辨识方法应用单兵手势判断,并进一步将手势转换为信息的简要流程(如图三十三)。可对应修改本文所提之状态分析模块及控制匹配模块,将单兵之手势借由本文所提之手势辨识方法转换为信息。若用于实战及教育训练,则能有更客观的手势判断标准,以及另一种静默且方便的通信(信息传递)手段。

  运用生动的扩增实境平台,并辅以直觉的手势及声音控制,除可增加学员生学习兴趣外,并提供身历其境的体验。鉴于此原因,T亦设置「战场抗压模拟训练馆」,若以扩增实境平台,可实时切换场景,提供不同情境的战场抗压训练,并收经济及效益之利。

  本文提出之「手势辨识技术」及「语音识别运用」适合室内环境的控制系统,可透过修改辨识区块的控制匹配模块,而应地制宜地运用;于军事相关应用,例如实时操控兵棋,或T高危险性作业之机械手臂远程操作等。

  手势辨识接口如图三十四(a),除可显示手势信息及肤色二值化影像外,另提供选择图像来源、预处理微调、选用肤色方法等功能,功能简述如后:

  系统测试运用 800 至 900 帧(Frames) 之视讯,且采双摄影机各撷取 640x480 之影像,测试结果处理单帧整体时间约 25 毫秒(40fps),可用于实时辨识。其中平均单帧处理双摄影机截图及预处理约 10.6 毫秒,手势辨识流程处理约 1.7 毫秒、扩增实境功能及三维对象绘制处理约 12.4 毫秒,以及显示接口处理 0.6 毫秒。

  将扩增实境中的标记固定(为展示与阅读方便,扩增实境场景部分使用单一影像),利用手势控制虚拟三维对象之位移、旋转、缩放及对象高度改变,结果分别如图三十五(a)至(d)。

  本文提出之手势辨识技术,可透过修改而应地制宜地运用。于军事相关应用,例如实时操控兵棋、教育训练或T高危险性作业之机械手臂远程操作等。

  本文所提手势辨识为核心解决方案,提供环境可控状况下运用(如:精密控制及教育训练使用),较不适宜运用于复杂环境,如「双手遮蔽」、「多人(手)碰撞」等问题。未来可结合红外线、双镜头取得手势,以及景深等信息、动态侦测摄影机针对局部加强影像撷取、遮蔽预测等相关技术,可获得较佳手势辨识环境适应力;但须考虑使用遮蔽预测等技术,可能降低手势辨识的可靠度。

  本文已针对单手动态手势之研究,笔者已研究结合两手间距离、景深、交互手势之间关系,拓展为双手动态辨识。

  现今智能装置大多附有语音输入及影像撷取功能,本文方法可轻易与现今智能型装置结合,达到直觉且便捷的控制,亦是未来可应用的可行方式之一。

本文链接:http://spesafurba.com/jiandanxinhaotongxin/42.html

上一篇:通信信号的发送

下一篇:简易信号通信