The SSJ Framework: Augmenting Social Interactions Using Mobile Signal Processing and Live Feedback

Damian, Ionut; Dietz, Michael; André, Elisabeth

doi:10.3389/fict.2018.00013

代码文章

前面。ICT，2018年6月20日
第二节人与媒体的互动
2018年第5卷| https://doi.org/10.3389/fict.2018.00013

SSJ框架：使用移动信号处理和实时反馈增强社交互动

Ionut Damian公司

迈克尔·迪茨^*

伊丽莎白·安德烈

德国奥格斯堡大学以人为中心的多媒体

由于最近的技术进步，强大的计算机和多功能传感器阵列现在可以集成在小型可穿戴设备中。本文介绍了Android框架SSJ，它利用这些设备来增强社交互动。为此，传感器数据首先用于实时分析用户的行为。根据分析，SSJ随后在用户参与社交互动时向用户发送实时多模态反馈。在高级反馈策略的帮助下，SSJ可以最大限度地减少社交互动的中断，同时仍然帮助用户提高行为质量。

1.简介

社交行为是我们日常生活中的一个重要因素。我们不断依靠它来应对各种情况，例如购物、与朋友和家人交流以及与同事合作。虽然大多数时候我们认为这是理所当然的，但在某些情况下，我们展示和规范社会行为的能力可能会达到极限。例如，当举行演讲时，情绪和压力会严重影响我们的社交行为质量。此外，患有某些困难的人可能会努力表现出基本的社会行为，例如保持声音的响度(Ramig等人，2001年)或正确表达他们的声音(坎纳，1968年). 在这些情况下，社会增强方法(Damian等人，2015年,2016)可以帮助用户在参与社交互动的同时改善其社交行为。

本文介绍了用于创建社交增强系统的SSJ软件框架。社会增强概念的核心是行为反馈回路。它允许系统持续分析用户的行为，然后向用户提供关于其行为质量以及如何改进的反馈。为此，SSJ支持最先进的移动社交信号处理和实时反馈技术。更具体地说，SSJ支持在移动设备上实时记录、处理和分类社交信号。为此，它能够与各种设备内部和外部（蓝牙连接）传感器接口。SSJ还能够在各种输出设备（如头戴式显示器、耳机或智能臂章）的帮助下向用户提供实时多模式反馈。

SSJ根据GNU通用公共许可证v3发布，可免费下载¹,²它基于Windows的社会信号解释框架(Wagner等人，2013年). 然而，考虑到社会扩张的挑战，SSJ已经完全重新设计。为此，SSJ已经为Android生态系统从头开始开发。因此，它可以在几乎所有的Android设备（API 16或更新版本）上运行，包括智能手机、平板电脑、智能眼镜（例如，谷歌眼镜、Lumus DK-40、爱普生Moverio）和智能手表（例如，Moto 360、三星Gear），为执行社交信号处理提供了前所未有的灵活性和移动性。SSJ的第一个版本已于2016年3月向公众发布。从那时起，随后发布了15个新版本，涉及800多个提交。SSJ打包为单个Android.aar格式可以轻松集成在Android应用程序中的库。此外，还可以使用SSJ创建者Android应用程序¹它允许没有技术背景的人使用现代图形用户界面与SSJ一起工作。更准确地说，它使信号处理管道和社交增强系统的设计和执行无需编写一行代码。该应用程序已于2016年10月添加到Google Play Store。自那时以来，它已经被来自10多个国家的用户下载了200多次。在所有下载中，仍有50多个安装处于活动状态。这种高转换率和广泛的安装基础表明，该应用程序对普通公众也很有用，尽管其根源是一种研究工具。

2.加强社会互动

增强社交互动的总体动机是帮助参与社交互动的用户获得更有利的结果。例如，社交增强可以帮助用户进行语音调制或手势使用，从而帮助他们发表更好、更引人注目的演讲。有社交障碍的求职者可以通过社交增强来在面试中获得更好的印象。社会增强系统也可以用来帮助患有各种残疾的人，如孤独症或帕金森氏病，更好地应对社会状况。从这些用例开始，可以制定两个具体的目标。

1产生对自己身体的意识如第一节所述，通常情况下，一个人对自己行为的看法与他人的看法不一致。提高对自己行为的认识将有助于检测和识别这些不想要的行为，因此是纠正这些行为的第一步。

2提高自己行为的质量。除了产生意识外，社交增强还应该引导用户走向行为状态，从而在社交互动中为他们带来更多益处。例如，在求职面试期间，社交强化应该尝试改变用户的行为，以最大限度地提高他们的就业机会。为了实现这一点，通过增强传递给用户的信息应该足以引发行为变化。然而，增强还必须注意人类注意力的有限性和脆弱性，以及过多的信息（或传递不好的信息）会对用户行为的整体质量产生多大的负面影响。

2.1. 行为反馈回路

为了实现这些目标，行为反馈回路被选为社交增强的驱动因素。用最简单的术语来说，当系统的输出作为输入反复不断地反馈给系统时，就会出现反馈回路，从而形成闭环。从社会增强的角度来看，反馈回路由于其自我调节的性质而特别有趣。因此，上述产生自我意识的目标可以直接转化为反馈回路结构。用户的行为（输出）被不断记录、处理并反馈给用户（输入），从而产生对自己行为的意识。现在，通过智能和面向目标的反馈回路操作，用户的行为可以被引导到对社会交互更有利的状态。

SSJ中行为反馈回路的实现如图所示1安培：首先实时分析用户行为，然后根据其质量自动生成反馈并发送给用户。

图1

图1.基本概念：（A）行为反馈回路具有两个主要组成部分：行为分析和反馈生成；（B）SSJ框架的组件概述。

2.2. 适应用户和上下文

人类是复杂的生物，在复杂的世界中运作。视觉信息可能会被一个人正确地感知和解码，但另一个人却完全忽略了，因为对其中一个人来说，刺激就像她蜜月第一天早餐吃的荷包蛋。在社交互动开始时，人们可能会完美地感觉到一声嘟嘟声，但10分钟后，由于背景噪音增加而错过了。因此，反馈（以及整个行为反馈回路）需要能够适应用户、上下文和场景Arroyo等人（2002年）在研究用户如何对不同类型的刺激作出反应时，他们发现“比模式之间的差异更显著的是人与人之间的差异”，并且“受试者的敏感性取决于他们之前的生活中对模式的接触。”

为了解决这个问题，SSJ支持三种适应方法。首先，可以根据用户活动自动打开或关闭社交增强功能。其次，一旦增强功能处于活动状态，可以使用实时适应技术不断调整对用户行为的反馈。最后，低级机制管理个人反馈事件的时间安排，以确保在适当的时候提供反馈。

3.架构

SSJ是一个高度模块化的框架，由各种组件组成（见图1B年). 为了创建一个应用程序（例如，用于社交增强），将多个组件串在一起形成一个管道。有四种主要组件类型：传感器、转换器、使用者和事件处理程序。传感器负责将数据推入管道。通常，这些数据是直接从物理传感器设备中提取的。单个传感器可以是多个信号的来源，因此可以与多个传感器通道相关联。例如，相机同时提供音频和视频数据。

传感器具有多个输出，而消费者具有一个或多个输入。这使他们能够从多个组件接收数据并同时进行处理。例如，分类器可以同时使用音频和视频数据来执行多模式分类。变压器有输入和输出。因此，他们接收数据，进行转换，然后将转换后的数据推回到管道中。变压器的典型示例是滤波器。他们通过过滤掉不需要的伪影（例如噪声）来处理数据流。另一个例子是特征提取器，它对数据进行细化以提取有意义的特征（例如，从原始音频信号中提取的音高）。第四种组件类型是事件处理程序，与其他组件类型不同，因为它专门用于发送和接收离散事件。尽管所有其他组件之间都需要以固定的采样率进行连续连接，但事件是自发的，不受任何采样率的约束。

管道是一个组件链，其中一些组件的输出与其他组件的输入相匹配。因此，管道表示有向无循环图，其中数据沿着边流动并在节点中进行处理。管道也可以分叉和融合，两个管道分支可以完全并行运行。为了促进跨多个通道的正确处理，SSJ始终保持管道的所有分支同步。

4.示例：针对语音质量提供反馈

为了演示SSJ执行复杂行为反馈循环的能力，本节将提供一个教程，介绍如何使用SSJ创建一个系统，该系统根据用户行为的质量提供实时反馈。假设我们即将在众多观众面前举行一场演讲，并且对我们的声音质量有点不确定。使用SSJ，我们可以训练一个模型来对语音质量进行分类，然后在检测到质量不足时提供反馈。为此，我们只需要一款带有SSJ Creator的Android智能手机^三安装。虽然SSJ能够与各种其他传感和反馈设备进行交互，从而能够分析多种社交信号并提供多模式反馈，但为了让每个读者都能阅读本教程，我们将仅依赖Android智能手机。本教程分为四个部分：

1.建立一个管道，在两种情况下收集和注释用户的数据：正常说话和非常快说话。

2.使用收集的数据训练模型。

3.构建一个使用该模型执行实时分类的管道。

4.配置反馈策略以提供反馈以响应分类的语音质量。

4.1. 数据收集

为了收集训练模型所需的数据，需要一个数据记录器⁴使用SSJ Creator，我们可以构建一个管道，提取传感器数据，对其进行处理，然后将数据本地存储在设备上（最终管道如图所示2安培).

图2

图2。使用SSJ Creator构建数据记录器：（A）最终管道，（B）添加传感器，（C）配置强度变压器（D）配置注释选项卡。

为此，在SSJ Creator中，我们首先添加一个话筒传感器和音频频道使用+菜单（参见图第2页). 现在，我们通过长按黄色传感器盒并将其拖放到通道上，将传感器连接到通道。在此之后，我们添加了一个强度变压器，将其连接到音频频道并配置它（通过点击它），以每帧接收1.0秒的音频数据，并计算整个窗口的平均强度（见图2摄氏度). 我们还添加了一个俯仰变压器并将其配置为从音频通道接收0.1秒的数据。的输出俯仰使用平均变压器配置有1.0秒的输入窗口，以匹配强度变压器。最后，我们将强度和平均变压器到字符输出流消费者用于将数据存储在SD卡上。可以在中配置输出文件的名称字符输出流的选项菜单。将其设置为“data”，并将路径保留为其默认值（它将在“/sdcard/SSJ/”中创建一个新的时间戳文件夹）。最终管道布局如图所示2安培。在启动管道之前，我们还应该配置注释选项卡。这将允许我们在录制时注释事件的开始和结束（例如，语音片段）。为此，只需添加两个类并命名它们，如图所示二维。要启动管道，只需按“播放”按钮。我们还应该在右上角菜单的帮助下保存管道以供以后使用。

一旦我们有了数据记录器，我们就需要收集数据。为此，只需启动管道，切换到注释选项卡并录制一些正常语音示例和一些快速（无法理解）语音示例。确保在开始和停止说话时也切换注释按钮。

4.2. 训练模型

一旦我们收集了数据，我们就可以为语音质量的自动分类训练一个模型。这可以通过“列车模型”屏幕实现（图3A级)可从主菜单（左上角的三条水平线）访问。

图3

图3.准备反馈生成管道：（A）使用记录的数据训练模型，（B）更换字符输出流使用分类器和模型，（C）添加反馈（D）配置反馈。

首先，添加一个新的数据源并将其配置为指向记录的数据（“data.stream”）和注释（“anno.annotation”）。如果您进行了多次录制，则可以添加多个数据源。为了使识别更加稳健，我们应该选中“填充空格”复选框，以便为模型提供非语音数据（即，注释话语之前、之间和之后的数据）。这将允许它区分语音和背景噪音。接下来，可以选择想要训练的车型类型⁵。要开始培训，只需按“Train Model”（列车模型）按钮。

4.3. 使用SSJ的实时分类

下一步是在我们的管道中加入经过训练的模型。为此，我们加载记录管道并删除字符输出流组件（通过将其拖到垃圾桶符号上）。我们现在添加一个分类器消费者和朴素贝叶斯模型（图3B公司). 我们还需要连接强度和平均变压器至分类器和分类器到朴素贝叶斯模型。要使用我们在上一步中培训的模型，我们需要配置朴素贝叶斯模型指向它（选择.培训师文件）。

管道现在已经完成，可以测试了（别忘了保存它以备以后使用）。管道运行后，您现在应该会在日志选项卡中看到当前的分类输出。对于本教程，由于其简单性，我们选择使用Naive Bayes，但SSJ也支持SVM和神经网络模型进行推理。

4.4. 实时反馈

本教程的最后一步是使用反馈组件扩展实时分类管道，该组件能够向用户提供反馈以响应分类。SSJ支持三种反馈方式：视觉、听觉和触觉。在本教程中，我们将使用视觉反馈来避免中断音频信号。为了实现这一点，我们添加了一个视觉反馈事件处理程序，并将分类器（图3C公司). 可以使用组件的选项面板配置反馈（图三维). 设置选项事件名称到“快速”将导致只有在“快速”类产生最大分类可能性时才触发反馈。使用反馈图标选项，可以选择要显示为反馈的图像。这个期间选项控制反馈在屏幕上显示的时间褪色选项控制淡入淡出动画。

一旦管道激活，它将不断从麦克风中提取音频数据，并将其分类为正常、快速和垃圾在预训练模型的帮助下，每次将音频分类为快速的.

或者，可以拆分智能手机和HMD（例如谷歌眼镜）之间的管道。主管道在计算性能优越的智能手机上执行分类，并通过蓝牙将结果发送到HMD。在HMD上执行第二个管道。它接收蓝牙事件并显示反馈。此外，可以使用反馈收集组件。这允许定义动态反馈行为，该行为会随着时间的推移而变化，具体取决于用户的行为。例如，如果用户忽略了视觉反馈，可以使用其他形式（音频或触觉）来增加反馈的显著性。

5.限制

尽管智能手机的计算能力在过去十年中迅速提高，并已达到移动社交信号处理可行的水平，某些任务，例如训练神经网络或处理具有高帧速率和分辨率的视频，目前仍然受到底层硬件处理能力的限制。这也适用于SSJ框架的性能，它主要受所用智能手机的处理能力和管道内组件的选定采样率的影响。

移动设备的另一个制约因素是缺乏连续电源和对有限电池的依赖。虽然SSJ应用安卓内置节能技术以尽量减少功耗，但其使用仍会影响电池寿命。例如，运行前面介绍的分类管道平均需要0.348 W的功率，导致22.17%的CPU负载，导致谷歌Nexus 6P智能手机的电池寿命为8小时52分钟⁶。由于应用了能量和性能优化，以及使用特定于平台的API和SDK与内部和外部传感器通信，SSJ框架目前也仅适用于Android操作系统。

6.结论

本文介绍了SSJ框架。SSJ允许创建移动社交信号处理管道，并通过使用实时反馈组件创建社交增强系统。此类系统记录并处理用户的行为，然后提供质量反馈，有效地实现现场社交技能辅导。由于SSJ的灵活性和对离机硬件的依赖性，它还可以用于其他场景。例如，社会科学家或好奇的用户可以快速建立收集特定事件数据的管道。然后，可以使用兼容的分析工具（如NOVA）在计算机上检查记录的数据(Baur等人，2013年). 此外，由于其先进的通信能力，SSJ可用于创建远程监控或警报系统。例如，可以使用两部智能手机创建一个带有内置报警功能的婴儿监护仪，只要检测到响亮的噪音或婴儿的心率超过预定的阈值，就会触发报警功能。

作者贡献

ID和MD是SSJ框架的主要开发人员。该框架是作为ID博士学位的一部分创建的(Damian，2017年). EA监督了整个工作以及文章的起草。

基金

这项工作的部分资金来自德国教育和研究部（BMBF）的Glassistant（FKZ 16SV7267K）和EMPAT（FKZ16SV7229K）项目。

利益冲突声明

作者声明，该研究是在没有任何可能被解释为潜在利益冲突的商业或金融关系的情况下进行的。

评审员、JC和处理编辑声明了他们的共同从属关系。

致谢

这份手稿的一部分基于ID的博士论文(Damian，2017年). 这是该内容出现的唯一媒体。本出版物的内容符合奥格斯堡大学的政策。

脚注

1^https://hcm-lab.de/ssj/

2^https://doi.org/10.5281/zenodo.1242843

三。^https://hcm-lab.de/ssj/

4^或者，可以从以下位置下载示例数据https://doi.org/10.5281/zenodo.1249289

5^目前，SSJ v0.7仅支持Naive Bayes模型用于训练。可以使用SSI在PC上训练其他模型类型(Wagner等人，2013年)

6^使用高通Trepn Profiler测量https://developer.qualcomm.com/software/trepn-power-profiler

工具书类

Arroyo，E.、Selker，T.和Stouffs，A.（2002年）。“中断作为多模式输出：哪种中断更少？”多模接口（ICMI），会议论文集（IEEE）（宾夕法尼亚州匹兹堡）。

谷歌学者

Baur，T.、Damian，I.、Lingenfelser，F.、Wagner，J.和André，E.（2013）。《Nova:社交中非言语信号的自动分析》人类行为理解，研讨会论文集，计算机科学讲义第8212卷（巴塞罗那：斯普林格）。

谷歌学者

Damian，I.（2017）。使用行为反馈回路的社交增强德国奥格斯堡大学博士论文。

Damian，I.、Baur，T.和André，E.（2016）。《衡量行为反馈回路对社会互动的影响》多模式交互（ICMI），会议记录，（东京：ACM），201-208。

谷歌学者

Damian，I.、Tan，C.S.、Baur，T.、Schöning，J.、Luyten，K.和André，E.（2015）。“增强社交互动：使用社交信号处理技术的实时行为反馈”，in计算机系统中的人为因素（CHI），会议记录（首尔：ACM），565-574。

谷歌学者

Kanner，L.（1968年）。情感接触的自闭症障碍。儿科精神病学学报。35, 100–136.

PubMed摘要|谷歌学者

Ramig，L.、Sapir，S.、Countryman，S.，Pawlas，A.、O'Brien，C.、Hoehn，M.等人（2001年）。帕金森病患者强化发声治疗（LSVT）：2年随访。神经药理学杂志。神经外科精神病学71, 493–498. 数字对象标识代码：10.1136/jnnp.71.4.493

PubMed摘要|CrossRef全文|谷歌学者

Wagner，J.、Lingenfelser，F.、Baur，T.、Damian，I.、Kistler，F.和André，E.（2013）。“社会信号解释（SSI）框架-实时多模式信号处理和识别，”多媒体（MM），会议记录，（巴塞罗那）。

谷歌学者

关键词：社交信号处理，移动信号处理，实时反馈，行为分析，代码：java，代码：android

引用：Damian I、Dietz M和AndréE（2018）《SSJ框架：使用移动信号处理和实时反馈增强社交互动》。前面。信息通信技术5:13. 数字对象标识代码：10.3389/fict.2018.00013

收到：2018年2月8日；认可的：2018年6月4日；
出版：2018年6月20日。

编辑：

卡洛斯杜阿尔特，葡萄牙里斯本大学

审核人：

苏珊娜·斯宾桑特意大利马尔凯政治经济大学
何塞·巴普蒂斯塔·科埃略葡萄牙里斯本大学

*通信：迈克尔·迪茨，dietz@hcm-lab.de

代码文章

SSJ框架：使用移动信号处理和实时反馈增强社交互动

1.简介

2.加强社会互动

2.1. 行为反馈回路

2.2. 适应用户和上下文

3.架构

4.示例：针对语音质量提供反馈

4.1. 数据收集

4.2. 训练模型

4.3. 使用SSJ的实时分类

4.4. 实时反馈

5.限制

6.结论

作者贡献

基金

利益冲突声明

致谢

脚注

工具书类

人们还关注