近日,我院本科生团队所着论文《YawnNet: A Visual-Centric Approach for Yawning Detection》被国际多媒体检索会议滨颁惭搁’2024接收。该论文第一作者孙若希、第二作者杨昕宇、第叁作者钱聪、第四作者朱辰宇皆为我院2021级人工智能专业本科生,通讯及指导教师为我院杨聪副教授。此外,来自北京地平线机器人的隋伟博士和来自德国弗劳恩霍夫应用信息技术研究所(Fraunhofer Institute for Applied Information Technology)的Zeyd Boukhers教授也为该项目的研究提供了宝贵的建议和支持。
ICMR是美国计算机协会(ACM)旗下的系列会议,是多媒体检索领域的顶级国际会议。该会议于2011年由历史悠久的国际图像和视频检索会议(CIVR)与国际多媒体信息检索会议(MIR)合并而成。ICMR目前是中国计算机学会(CCF)推荐的“计算机图形学与多媒体”领域B类排名首位的会议(CCF-B类会议)。
此项研究成果依托于国家级大学生创新训练项目《基于多粒度特征的自适应疲劳感知方法研发》,朱辰宇同学和其他叁位同学分别为该项目的主持人与成员,杨聪副教授为项目指导老师。
论文介绍了一种名为YawnNet的新模型,旨在提高打哈欠检测的准确性和鲁棒性,尤其在多媒体应用中,如司机疲劳评估和状态监测等方面具有重要意义。
传统的打哈欠检测器受到环境变化(尤其是光照)、面部表情和混淆行为(如说话和进食)等因素的影响,其准确性和鲁棒性受到限制。YawnNet采用了一种基于Transformer的方法,通过空间-时间编码和立方体嵌入,实现了精准的打哈欠检测。具体来说,YawnNet包含一个数据处理阶段,通过对输入序列进行时间下采样和立方体嵌入,实现了对数据的有效处理。此外,它还引入了Swin-Transformer块,通过处理细粒度补丁,揭示了短程局部线索,进一步提高了检测精度。
通过广泛的实验验证,YawnNet展现出了诸多优势:首先,在FatigueView数据集上,其精度显着高于当前最先进的Dense-LSTM方法,精确度和召回率分别提高了2.3%和4.2%。其次,YawnNet实现了接近实时的处理速度(在RTX 3090上为30 FPS),为实时应用提供了可能。最重要的是,YawnNet在面对混淆行为、不同环境(如遮挡、过度和欠曝光)以及多种复杂场景时,都表现出了显着的鲁棒性和稳定性,为多媒体应用的可靠性提供了保障。