使用通用视觉特征和多模态建模改进声学事件检测| IEEE会议出版物| IEEE Xplore