[go: up one dir, main page]

CN117573245A - 用户界面自适应调整方法、介质以及电子设备 - Google Patents

用户界面自适应调整方法、介质以及电子设备 Download PDF

Info

Publication number
CN117573245A
CN117573245A CN202210946474.XA CN202210946474A CN117573245A CN 117573245 A CN117573245 A CN 117573245A CN 202210946474 A CN202210946474 A CN 202210946474A CN 117573245 A CN117573245 A CN 117573245A
Authority
CN
China
Prior art keywords
audio
played
content
emotion
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210946474.XA
Other languages
English (en)
Inventor
邹洪斌
匡明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210946474.XA priority Critical patent/CN117573245A/zh
Publication of CN117573245A publication Critical patent/CN117573245A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及人工智能技术领域,特别涉及一种用户界面自适应调整方法、介质以及电子设备,能够智能化地调整UI呈现方式,使得智能设备播放音频时的UI呈现方式更加智能化、拟人化、个性化,为用户提供沉浸式的视听体验。该方法包括:获取待播放内容音频;获取待播放内容音频的声学特征以及待播放内容音频的语义特征;根据声学特征和待播放内容银屏的语义特征确定与待播放内容音频对应的UI呈现方式;在播放待播放内容音频的过程中,按照UI呈现方式呈现UI。该方法具体应用于播放歌曲、有声读物时进行UI呈现的场景中。

Description

用户界面自适应调整方法、介质以及电子设备
技术领域
本申请涉及人工智能技术领域,特别涉及一种用户界面自适应调整方法、介质以及电子设备。
背景技术
随着智能家居及人机交互领域的快速发展,人们需求智能设备的人机交互更加友好,例如更加拟人化、智能化、个性化、人性化的人机交互受到越来越多用户的青睐。用户界面(User Interface,UI)作为人机交互的依托,被越来越多的关注。而UI在不同的智能设备上具备各具特色的设计,呈现方式如灯效UI、界面交互元素等多种形态。例如,带屏机器人的UI呈现方式为界面交互元素,而带灯音箱的UI呈现方式为灯效。
在用户使用智能设备听歌曲等音频交互场景中,通常需要带屏机器人和带灯音箱等音频智能设备随着音频的播放调整UI给用户带来更好的视听体验。然而,现有技术通常是基于当前播放歌曲的音乐节拍、音频能量、音频时频域特征等低层声学特征进行设计和呈现UI的。例如,带灯音箱的灯效以及带屏机器人上显示的音乐频谱图随着音乐节拍和音频能量变化。从而导致播放音频时的UI交互体验单一,容易引起审美疲劳。
发明内容
本申请实施例提供了一种用户界面自适应调整方法、介质以及电子设备,能够智能化地调整UI呈现方式,使得智能设备播放音频时的UI呈现方式更加智能化、拟人化、个性化,为用户提供沉浸式的视听体验。
第一方面提供了一种用户界面自适应调整方法,应用于电子设备,该方法包括:获取待播放内容音频的声学特征以及待播放内容音频的语义特征;根据声学特征和待播放内容音频的语义特征确定与待播放内容音频对应的UI呈现方式;在播放待播放内容音频的过程中,按照UI呈现方式呈现UI。作为示例,电子设备可以先基于待播放内容音频的语义特征确定出UI呈现方式,再基于待播放内容音频的声学特征调整该UI呈现方式,进而得到最终确定出的UI呈现方式。
在用户使用电子设备输出音频的情景中,不仅可以根据该音频的节拍、音频能量等低层声学特征调整UI呈现方式,还可以自动通过该音频的内容所表达的情绪、内容主旨以及用户画像特征等高层语义特征调整UI呈现方式。由于声学特征和语音特征的结合可以全面的反映音频反映的内容,如音频反映的情绪等,使得最终呈现的UI呈现方式更加符合音频的内容。从而,实现了自动智能化地调整UI呈现方式,使得智能设备10播放音频时的UI呈现方式更加智能化、拟人化、个性化,为用户提供沉浸式的视听体验。
在上述第一方面的一种可能的实现中,上述待播放内容音频的语义特征包括以下至少一项:待播放内容音频的情感类别,待播放内容音频的情感强度,待播放内容音频中说话人的人物特征,待播放内容音频的内容类别。如此,基于语音特征确定的UI呈现方式能够反映待播放内容音频的包含情感类别和情感强度的情感特征,使得最终的UI呈现方式更加符合待播放的音频,有利于提升用户的视听体验。
在上述第一方面的一种可能的实现中,上述方法还包括:获取待播放内容音频相关的语音音频的语义特征,其中语音音频的语义特征包括语音音频的情感类别,语音音频的情感强度、用户的人物特征和用户的用户意图中的至少一项;根据声学特征和待播放内容音频的语义特征确定与待播放内容音频对应的UI呈现方式,包括:根据声学特征、待播放内容音频的语义特征和语音音频的语义特征,确定与待播放内容音频对应的UI呈现方式。其中,上述用户的人物特征和上述用户的用户意图是根据与待播放内容音频相关的语音音频和电子设备的用户账号信息中的至少一项确定的。如此,确定出的UI呈现方式可以反映用户的任务特征或者用户意图,例如可以自动为不同年龄段的用户在播放音频时输出该年龄段相关的UI呈现方式,有利于进一步提升用户的视听体验。
在上述第一方面的一种可能的实现中,上述待播放内容音频的语义特征中包括第一特征,上述语音音频的语义特征中包括第二特征,并且第一特征和第二特征根据预设深度学习网络获取得到;其中,第一特征包括待播放内容音频的情感类别和待播放内容音频的情感强度,第二特征包括语音音频的情感类别和语音音频的情感强度。如此,在播放歌曲等音频时,可以实现音随情动,使得用户的视听体验较好。
在上述第一方面的一种可能的实现中,上述预设深度学习网络中包括预设网络主干;预设深度学习网络,用于将目标音频转换为目标资源文本,将目标资源文本转换为目标中文词向量特征,通过预设网络主干对目标中文词向量特征进行推理得到目标特征;在目标音频为待播放内容音频时目标特征为第一特征,在目标音频为语音音频时目标特征为第二特征。如此,通过预设的深度学习网络可以实现确定待播放内容音频对应的内容的情感特征以及用户的情感特征(即上述语音音频的情感特征)。
在上述第一方面的一种可能的实现中,上述预设深度学习网络中包括预设网络主干;预设深度学习网络,用于将待播放内容音频转换为第一资源文本,将第一资源文本转换为第一中文词向量特征,将待播放内容音频对应的资源周边内容转换为第二中文词向量特征,拼接第一中文词向量特征和第二中文词向量特征得到拼接特征,并通过预设网络主干对拼接特征进行推理得到第一特征。如此,结合待播放内容音频对应的资源周边内容,通过预设的深度学习网络可以更加准确地确定待播放内容音频对应的内容的情感特征以及用户的情感特征。
在上述第一方面的一种可能的实现中,上述资源周边内容为影视作品评论或歌曲评论。可以理解,影视作品评论或歌曲评论中通常包含待播放内容音频的情感特征的文字信息,例如歌曲评论中包含“这首歌听起来很振奋人心”表明对应的歌曲音频的情感特征较为动感、激昂等。
在上述第一方面的一种可能的实现中,上述预设网络主干为CNN网络或者BERT网络。
在上述第一方面的一种可能的实现中,上述预设深度学习网络设置在服务器中,第一特征和第二特征是电子设备从服务器获取得到的。那么,在算力较高的服务器端训练及运行预设神经网络,可以保证深度学习网络的准确执行,并避免占用电子设备本身的较多计算资源。
在上述第一方面的一种可能的实现中,上述根据声学特征、待播放内容音频的语义特征和语音音频的语义特征,确定与待播放内容音频对应的UI呈现方式,包括:根据第三特征确定与待播放内容音频对应的UI呈现方式所属的UI模式;根据第四特征对确定出的UI模式下的UI呈现方式中的第一类UI元素进行调整;根据声学特征对已经确定出的UI呈现方式中的第二类UI元素进行微调;其中,第一类UI元素包括以下至少一项:UI类别、UI色彩、UI强度、UI变换节奏;第二类UI元素为UI变换节奏,声学特征包括音频节拍、音频能量、音频频谱中的至少一项;UI模式基于第三类UI元素设定,第三类UI元素与第一类UI元素不同;第三特征为待播放内容音频的情感类别和语音音频的情感类别中的至少一项;第四特征为待播放内容音频的情感强度和语音音频的情感强度中的至少一项。可以理解的是,在电子设备的UI呈现方式支持多种UI模式时,还可以自动切换UI模式,例如,通过音频的高层语义特征确定出用户的年龄段后自动切换至该年龄段对应的UI模式,使得UI呈现方式自动切换的过程更加智能化。最终确定出的UI呈现方式中的UI变换节奏能够随着音频的音频节拍、音频能量、音频频谱等进行调整,进一步提升了用户的视听体验。
在上述第一方面的一种可能的实现中,上述UI呈现方式的形态包括灯效、界面交互元素、设备机械动作中的至少一项;或者,待播放内容音频为歌曲、有声读物、用户交互语音中的任一项。
在上述第一方面的一种可能的实现中,上述根据声学特征和待播放内容音频的语义特征确定与待播放内容音频对应的UI呈现方式,包括:按照预定义的语义关联关系,确定出与待播放内容音频的语义特征和语音音频的语义特征中的至少一项关联的UI呈现方式;按照预定义的声学关联关系,基于声学特征对确定出的UI呈现方式进行调整;其中,预定义的语义关联关系用于指示:随着待播放内容音频的语义特征的变化和/或语音音频的语义特征的变化电子设备的UI呈现方式中的各个UI元素的变化规律;预定义的声学关联关系用于指示:随着声学特征的变化电子设备的UI呈现方式中的各个UI元素的变化规律。如此,可以将设计人员所设计的音频与UI呈现方式之间的关联关系,用于实际播放音频时确定UI呈现方式,使得播放音频时的UI呈现方式更加智能化、拟人化、个性化,为用户提供沉浸式的视听体验。例如,上述预定的声学关联关系为下文中的第一类关联关系。而预定的语义关联关系可以包括下文中音频的情感类别与UI呈现方式之间的第二类关联关系以及音频的情感强度与UI呈现方式之间的第三类关联关系。
第二方面提供了一种用户界面自适应调整方法,应用于电子设备,该方法包括:定义音频的声学特征与UI呈现方式之间的声学关联关系;定义音频相关的语义特征与UI呈现方式之间的语义关联关系;其中,声学关联关系用于指示:随着所述待播放内容音频的语义特征的变化和/或待播放内容音频相关的语音音频的语义特征的变化电子设备的UI呈现方式中的各个UI元素的变化规律。即该关系用于在播放待播放内容音频的过程中,将与待播放内容音频对应的语义特征具有关联关系的UI呈现方式作为待播放内容音频对应的UI呈现方式。声学关联关系用于指示:随着声学特征的变化电子设备的UI呈现方式中的各个UI元素的变化规律。即该关系用于在播放待播放内容音频的过程中,将待播放内容音频对应的UI呈现方式调整为与待播放内容音频的声学特征具有关联关系的UI呈现方式。具体地,音频相关的语义特征包括内容音频的语义特征和相关的语音音频的语义特征。
在上述第一方面的一种可能的实现中,音频相关的语义特征包括以下至少一项:内容音频的情感类别,内容音频的情感强度,内容音频中说话人的人物特征,音频的内容类别。
在上述第一方面的一种可能的实现中,音频相关的语义特征还包括与内容音频相关的语音音频的情感类别,语音音频的情感类别,用户的人物特征和用户的用户意图中的至少一项;其中,用户的人物特征和用户的用户意图是根据与音频相关的用户语音音频和电子设备的用户账号信息中的至少一项确定的。
在上述第一方面的一种可能的实现中,上述音频相关的语义特征中包括第一目标特征和第二目标特征;其中,第一目标特征与音频对应的UI呈现方式所属的UI模式具有关联关系;第二目标特征与UI模式下的UI呈现方式中的第一类UI元素具有关联关系;其中,第一类UI元素包括以下至少一项:UI类别、UI色彩、UI强度、UI变换节奏。类似的,第一目标特征相当于第一方面中的第三特征,而第二目标特征相当于上述第一方面中的第四特征。例如,上述第一目标特征为待播放内容音频的情感类别和语音音频的情感类别中的至少一项;第二目标特征为待播放内容音频的情感强度和语音音频的情感强度中的至少一项。上述UI模式基于第二类UI元素设定,第二类UI元素与第一类UI元素不同。
在上述第一方面的一种可能的实现中,上述第二类UI元素为UI色彩的色调,第一类UI元素为UI强度。
在上述第一方面的一种可能的实现中,上述UI呈现方式的形态包括灯效、界面交互元素、设备机械动作中的至少一项;或者,音频为歌曲、有声读物、用户交互语音中的任一项。
第三方面提供了一种可读介质,所述可读介质上存储有指令,所述指令在电子设备上执行时使所述电子设备执行如第一方面及其任一种可能的实现方式所述的用户界面自适应调整方法,或者,执行如第二方面及其任一种可能的实现方式所述的用户界面自适应调整方法。
第四方面提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是所述电子设备的处理器之一,用于执行如第一方面及其任一种可能的实现方式所述的用户界面自适应调整方法,或者,执行如第二方面及其任一种可能的实现方式所述的用户界面自适应调整方法。
附图说明
图1A根据本申请的一些实施例,示出了一种人机交互场景示意图;
图1B根据本申请的一些实施例,示出了一种智能设备的结构示意图;
图1C根据本申请的一些实施例,示出了一种智能设备的结构示意图;
图1D根据本申请的一些实施例,示出了一种UI自适应调整的UI设计和UI呈现的示意图;
图2A根据本申请的一些实施例,示出了一种UI自适应调整的UI设计方法的示意图;
图2B根据本申请的一些实施例,示出了一种UI自适应调整方法应用的深度学习网络的结构示意图;
图3A根据本申请的一些实施例,示出了一种人机交互场景示意图;
图3B根据本申请的一些实施例,示出了一种UI自适应调整的UI设计和UI呈现的示意图;
图3C根据本申请的一些实施例,示出了一种UI自适应调整方法的示意图;
图4A根据本申请的一些实施例,示出了一种人机交互场景示意图;
图4B根据本申请的一些实施例,示出了一种UI自适应调整方法的示意图;
图5根据本申请的一些实施例,示出了一种智能设备的结构示意图。
具体实施方式
本申请的说明性实施例包括但不限于用户界面自适应调整方法、介质以及电子设备。
参照图1A所示,为申请实施例提供的一种人机交互场景的示意图。图1A示出的智能设备10输出音频的同时呈现用户界面(User Interface,UI)。
本申请实施例中,在用户使用智能设备10输出音频的情景中,智能设备10不仅可以根据该音频的节拍、音频能量等低层声学特征调整UI呈现方式,还可以自动通过该音频的内容所表达的情绪、内容主旨以及用户画像特征等高层语义特征调整UI呈现方式。并且,在智能设备10支持多种UI模式时,还可以自动切换UI模式,例如,通过音频的高层语义特征确定出用户的年龄段后自动切换至该年龄段对应的UI模式。从而,实现了自动智能化地调整UI呈现方式,使得智能设备10播放音频时的UI呈现方式更加智能化、拟人化、个性化,为用户提供沉浸式的视听体验。
作为示例,智能设备10所播放的音频包括但不限于歌曲、故事、有声读物以及人机语音交互等。在本申请的一些实施例中,为了方便描述,将歌曲、故事、有声读物等音频称为内容音频,而将人机语音交互的音频称为语音音频。
本申请的一些实施例中,智能设备10可以为具有音频输出能力以及UI呈现能力的电子设备。此外,在其他一些实施例中,智能设备10还具有麦克风,从而具有语音采集能力。
作为示例,智能设备10可以为带灯的智能音箱10a,例如携带彩灯或者壁纸灯等灯具的音箱。此外,智能设备10还可以为带屏的智能机器人10b,例如具有屏幕的早教机、语音助手或者服务器等。当然,智能设备10不限于上述示例,还可以为其他任意适用于本申请方案的智能设备。
而UI在不同的智能设备上具备不同的设计,呈现方式如灯效、界面交互元素以及部件动作等多种形态。例如,智能音箱10a的UI呈现方式主要为灯效,智能机器人10b的UI呈现方式主要为界面交互元素。
作为示例,在智能音箱10a播放歌曲时,智能音箱10a可以采用“灯随情动”方案,实现根据音频所表达的情绪来调整灯效的色调和节奏等,使得灯效等更好的烘托环境氛围,提升用户体验。例如,音频所表达的情绪为喜悦时,灯效的色调为橙色、节奏欢快。
作为示例,在智能机器人10b播放有声读物或与用户语音交互时,智能机器人10b可以采用“声情并茂”方案,根据该故事所表达的情感以及用户的语音的情绪等调整显示界面中的表情图案或其他动态图案等界面交互元素。例如,音频片段为故事中的悲伤情节时调整显示界面UI中的表情图案为悲伤表情以传递悲伤情绪,实现拟人化情绪展示,提升了用户的人机交互体验。
此外,在其他一些示例中,智能机器人10b还具有可活动的手臂等部件,在用户使用智能机器人10b听故事时,智能机器人10b可以控制手臂活动来反映该故事所表达的情绪,例如音频片段为故事中开心的情节时控制手臂晃动来传递开心情绪。
参照图1B所示,为本申请实施例提供的一种智能设备10的结构示意图。该电子设备中包括音频模块21、低层声学特征提取模块22、高层语义特征提取模块23、UI逻辑匹配模块24、UI呈现模块25。此外,图1B示出的智能设备10中还可以包括UI设计及创意输入模块26。
可以理解的是,本申请实施例提供UI自适应调整方法包括UI设计阶段和UI呈现阶段。而上述音频模块21、低层声学特征提取模块22、高层语义特征提取模块23、UI逻辑匹配模块24、UI呈现模块25不仅应用于UI设计阶段还应用于UI呈现阶段。而UI设计及创意输入模块26仅应用于UI设计阶段。
音频模块21,主要负责内容音频输入。在智能设备10具有麦克风时,音频模块21还用于用户语音交互的语音拾取及输入,即还用于负责语音音频输入。
低层声学特征提取模块22,用于低层声学特征提取,如音频能量、音频节拍、音频时域特征、音频频域特征等。可以理解,本申请的一些实施例中,将音频能量、音频节拍、音频时域特征、音频频域特征等特征称为低层声学特征。当然,低层声学特征包括但不限于上述示例。并且,本申请中低层声学特征还可以称为低层特征、声学特征等其他名称,但不同的名称对该特征的本质不造成限定。
高层语义特征提取模块23,用于内容音频的高层语义特征提取以及解析,还用于用户交互的语音音频的语义特征解析。可以理解,本申请的一些实施例中,将音频所表达的情绪、内容主旨和用户画像特征(如用户性别、用户年龄段)等特征称为高层语义特征。当然,高层声学特征包括但不限于上述示例。并且,本申请中的高层语义特征还可以称为高层特征、语义特征等名称,但不同的名称对该特征的本质不造成限定。
UI设计及创意输入模块26,用于根据UI设计领域的设计常识、UI色彩心理学、UI交互心理学等专业内容、UI表达情感类别及情感强度的设计方案,以及不同年龄段及用户性别的UI喜好等UI设计理论,设计UI呈现方式。具体用于基于这些UI设计理论,根据音频的低层声学特征和高层语义特征生成音频与UI呈现方式之间的关联关系。
在本申请的一些实施例中,UI呈现方式具有多种可调整的UI元素,例如UI色彩、UI强度、UI变换节奏、UI类别等。不同形态的UI呈现方式中的UI元素通常存在差别。并且,智能设备10还可以将不同UI呈现方式划分为不同的UI模式。
需要说明的是,音频与UI呈现方式之间的关联关系,具体为音频的底层声学特征和高层语义特征与UI模式以及UI强度、UI色彩、UI类别等UI元素所表示的UI呈现方式之间的关联关系。
作为示例,由UI交互心理学等理论可知,用户情绪失望、悲伤时倾向于看到冷色系色彩,用户情绪激动、顺利时倾向于看到暖色系色彩,而用户情绪无聊、平静时倾向于看到中性系色彩。那么,基于上述理论,可以设定音频的高层语义特征中情绪(即情感类别)与UI色彩之间的关联关系。
根据本申请的一些实施例,灯效表示的UI呈现方式包括但不限于UI色彩(或称色调)、UI强度、UI变换节奏以及UI亮度和UI灯光效果等UI元素。例如,UI强度可以为灯柱高度,UI变换节奏可以为多个灯柱的高度变化速度。此外,灯光效果可以为极光、烛光、胡杨、梦境、海滩等效果,但不限于此。
根据本申请的一些实施例,界面交互元素表示的UI呈现方式可以包括UI类别、UI强度、UI变换节奏等UI对象元素UI。
作为一种示例,在界面交互元素为表情图案时,UI呈现方式中UI类别分为喜悦和悲伤等表情类别,UI强度为表情图案所表达的情绪强度,UI变换节奏为表情图案的动态变化幅度等。
此外,界面交互元素还可以为其他动态图案,如飞舞的彩带图案、滑雪的人偶图案,跳舞的人偶图案以及唱歌的人偶等。类似的,以飞舞的彩带图案为例,UI呈现方式中的类别可以为彩带的色彩、UI强度可以为彩带波动的幅度,UI变换节奏可以为彩带摆动的速度等。
根据本申请的一些实施例,智能设备10的肢体等部件动作的UI呈现方式包括智能设备10的手臂晃动、上举等UI类别的UI元素,或者智能设备的底部轮子前进、后退、转圈等UI类别的UI元素。具体地,UI类别可以为手臂晃动或者上举等动作,而UI强度可以为手臂动作的幅度,UI节奏变化可以为手臂不同动作之间切换的频率。
此外,本申请的一些实施例中,UI呈现方式可以划分为多种UI模式,不同UI模式下的UI呈现方式不同。并且,同一UI模式下的UI呈现方式中的UI元素可以随着音频的低层声学特征和高层语义特征中的至少一个进行调整。
作为示例,本申请提供的UI模式可以分为不同主题色调灯效的UI模式、区分给不同年龄段用户的UI模式、不同UI节奏的UI模式等。当然,UI模式的划分方式包括但不限于上述示例。
以灯效作为UI呈现方式为例,UI模式可以分为红色、橙色、黄色等不同色调(即色彩)的UI模式。可以理解,灯效模式的色调与用户的情绪(即情感类别)具有关联关系。例如,参照表1所示,为灯效模式的色调与用户的情感类别之间的关联关系示意。
表1:
灯效模式的主题色调 情感类别
红色 兴奋、喜悦
橙色 愉快、高兴
黄色 平静、舒适
绿色 舒适、愉快
蓝色 沉静、舒适
此外,划分UI模式的用户年龄段可以划分为儿童、青年、中老年三个年龄段,但不限于此,还可以根据实际需求划分为其他年龄段。另外,划分UI模式的UI变换节奏可以分为柔和、动感和激情等,但不限于此,可以根据实际需求划分,例如还可以划分为较慢、慢、中速、快、较快等。
UI逻辑匹配模块24,用于UI模式自动匹配、UI强度自动匹配,UI色彩语义匹配、UI元素语义匹配等处理。具体地,UI逻辑匹配模块24可以基于UI设计及创意输入模块26所定义的音频的低层声学特征和高层语义特征与UI呈现方式之间的关联关系执行UI匹配,从而自动匹配出与待输出的音频相适应的UI呈现方式。作为示例,在音频的高层语义特征中的用户情感类别为悲伤时,智能音箱10可以确定出UI模式为冷色系色彩的灯效,如蓝色的主题色调的灯效。
UI呈现模块25,用于通过带屏智能设备呈现显示界面UI,或者通过带灯的智能设备呈现灯效UI,或者通过具有可活动肢体的智能设备呈现肢体动作UI。具体地,UI呈现模块25用于呈现UI逻辑匹配模块24匹配出的音频对应的UI模式以及UI强度和UI色彩等UI元素下的UI呈现方式。
接下来,在图1B示出的智能设备10的基础上,参照图1C所示的智能设备10的另一种示例性的结构示意图,对智能设备10的结构进一步进行详细描述。
如图1C所示,低层声学特征提取模块22包括音频信号解析模块221,可以使用传统的信号处理算法解析并获取音频的时域特征和频域特征以及其他低层声学特征。
高层语义特征提取模块23可以包括:内容属性解析模块231、情感分析模块232和用户特征解析模块233。
内容属性解析模块231,用于高层语义特征提取,实时提取音频的内容语义特征,具体获取语音音频中说话人性别、年龄以及内容主旨(如歌曲、故事或语音交互)等内容属性。其中,内容语义特征提取技术可以采用人工智能算法领域的通用技术,例如分别为语音识别的性别识别技术、语音识别的年龄识别技术以及自然语言处理算法的主题模型技术,但不限于此。
情感分析模块232,用于高层语义特征提取,实时提取内容音频的情感特征。通常当用户进行语音交互时提取用户的情感特征。其中,情感特征可以包含情感类别(即情绪)和情感强度两方面。作为示例,情感特征可以利用自然语言处理算法的情感分析算法获取。作为示例,在提取内容音频的情感特征时,情感分析模块232的整体框架可以基于预先训练好的卷积神经网络(Convolutional Neural Networks,CNN)模型设计,还可以采用预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)算法设计,但不限于此,具体可以根据算力等要求进行设计。此外,情感分析模块232还可以基于其当前音频资源的周边内容获取更准确的情感类别,该周边内容可以为影视作品评论、歌曲评论等内容,但不限于此。
用户特征解析模块233,用于高层语义特征提取,将语音交互过程中的语音音频或用户账号相关信息,经用户隐私声明等方式授权并将数据脱敏处理后,基于用户的语音音频,或基于用户的账户相关信息,解析用户性别、年龄段等用户画像特征。同时,还可以采用用户语音意图通过意图识别算法获取语音音频对应的用户画像特征。可以理解,上述意图识别算法为语音识别领域的通用技术,对申请实施例对此不做详细描述。
具体地,如图1C所示,UI逻辑匹配模块24包括UI自适应模块242和传统UI设计模块241,而UI自适应模块242中还包括UI模式切换自动化模块243和UI强度自动化模块244。
其中,UI自适应模块242用于对于高层语义特征提取模块23中的内容属性解析模块231输出的音频的内容属性、情感分析模块232输出的音频的情感特征、用户特征解析模块233输出的用户画像特征等高层语义特征的输出结果,以及低层声学特征提取模块22输出的低层声学特征的输出结果,按照这些输出结果中的特征与UI呈现方式之间的关联关系,匹配出音频对应的UI呈现方式。
具体地,UI模式切换自动化模块243,用于根据高层语义特征提取模块23输出的音频的情感类别、内容属性和用户画像特征等高级语义特征,匹配出UI呈现方式对应的UI模式。例如,以灯效为例,参照表1所示,UI模式可以分为红色、橙色、黄色等不同色调的UI模式。也就是说,本申请实施例中,UI模式可以自动切换而不需要用户手动切换,提升了人机交互的智能化程度。
UI强度自动化模块244,用于根据高层语义特征提取模块23中的情感分析模块232输出的内容音频或者语音音频的情感强度,匹配出对应的UI强度,以调整UI呈现方式。
传统UI设计模块241,用于基于UI心理学等理论,根据音频的音频节拍、音频能量和音频时频特征等低层声学特征设计UI呈现方式,即设计UI呈现方式中的UI元素与低层声学特征之间的关联关系。可以理解,传统UI设计模块241可以在UI自适应模块242确定出的UI呈现方式的基础上进行细调。
接下来,结合图1D所示,对图1C示出的智能设别10中的各个功能模块交互实现UI自适应调整的UI设计和UI呈现进行说明。
如图1D所示,音频模块21中输入实时的内容音频、用户对话以及非实时的注册信息等音频相关信息。内容音频进入低层声学特征提取模块22中,并经由音频信号解析模块221输出该内容音频的时域特征和频域特征,进而得到该内容音频的音频节拍、音频能量和音频频谱。将内容音频输入到高层语义特征提取模块23中的内容属性解析模块231,并输出内容音频中说话人的性别、年龄(即年龄段)和内容主旨(即内容类别,如歌曲、故事或语音交互等)。将内容音频和用户对话输入到情感分析模块232中,输出该内容音频的内容情感类别以及内容情感强度,以及输出用户对话中的用户情感类别和情感强度。将用户对话和注册信息等输入用户特征解析模块233中,输出用户性别、年龄和用户意图(例如,播放歌曲、听故事或语音交互)。进而,在UI设计阶段UI设计及创意输入模块26可以设定内容音频的节拍、音频能量和音频频谱与UI呈现方式之间的关联关系,并将该关联关系应用于UI逻辑匹配模块24中的传统UI设计模块241中;设定内容音频的内容音频中说话人的性别、年龄和内容主旨,用户性别、年龄、用户意图以及内容音频和用户的情感类别与UI呈现方式之间的关联关系,并将该关联关系应用于UI模式切换自动化模块243中;设定内容音频和用户的情感强度与UI呈现方式之间的关联关系,并将该关联关系应用于UI强度自动化模块244中。进而,UI逻辑匹配模块24匹配出内容音频对应的UI呈现方式之后,通过UI呈现模块25按照该UI呈现方式进行UI呈现,例如呈现为灯效、表情图案或者其他UI呈现方式。并且,UI呈现方式中的UI色彩、UI强度、UI变换节奏、UI类别等UI元素会随着音频低层声学特征和高层语义特征变化而变化。
UI设计阶段
可以理解的是,本申请在执行UI自适应调整方式之前,如图1B至图1D所示,智能设备10在UI设计阶段设计出音频的低层声学特征和高层语义特征与UI呈现方式之间的关联关系,从而支持后续智能设备10输出音频时进行UI自适应调整。
根据本申请的一些实施例,结合上述场景中对智能设备10的描述,描述智能设备10执行UI自适应调整的UI设计阶段的工作流程,上述场景中描述的技术细节在此流程中依然适用,为了避免重复,有些在此次不再赘述。
具体的,图2A示出了本申请实施例提供的一种设计UI自适应调整的实施流程示意图。可以理解,图2A所示流程中的各步骤执行主体可以为智能设备10或者智能设备10中的各个功能模块。在另一些实施例中,图2A所示流程各步骤的执行主体也可以是其他与智能设备10具有类似结构的电子设备,在此不做限制。
具体地,如图2A所示,该设计UI自适应调整的流程包括以下步骤:
步骤201:定义音频的情感类别对应的情感标签。
根据本申请的一些实施例,上述情感标签可以定义为:无聊,平静,渴望,失望,厌恶,同情,激动,恐惧,内疚,喜悦,怀旧,骄傲,浪漫,悲伤,满意,惊讶,胜利,但不限于此。其中,一个情感标签对应一种情感类别。
步骤202:定义音频的情感强度分级。
在一些实施例中,情感强度分级可定义为极轻微、轻度、中度、强烈、极强烈五个级别,但不限于此。
步骤203:设定低层声学特征与UI呈现方式之间的第一类关联关系。即基于低层声学特征设计UI呈现方式,这些UI设计可以是传统UI设计方案
可以理解的是,上述第一类关联关系指的是低层声学特征中的一个或多个特征与UI呈现方式中的各个UI元素之间的关联关系。例如,第一类关联关系用于表示音频的音频节拍、音频能量、音频频谱与UI呈现方式中的UI色彩、UI强度、UI变换节奏以及UI类别等UI元素之间的关联关系。
需要说明的是,上述第一类关联关系将在UI呈现阶段将应用于UI逻辑匹配模块24中的传统UI设计模块241中。
作为示例,以UI呈现方式的形态为灯效为例,描述音频节拍、音频能量和音频频谱与UI呈现方式中的UI色彩的第一类关联关系。根据本申请的一些实施例,音频能量也可以称为音强,而音频频谱可以对应于音色和音高。具体地,可以分别建立音高与UI色彩的色调、音色与UI色彩的饱和度,音强与UI色彩的亮度之间的第一类关联关系。例如,音高越高色彩越偏向暖色系,反之则偏向冷色系;音色越深沉对应的饱和度越大,音色越尖细对应的饱和度越小;音强越大亮度越高,音强越小亮度越低。而音频节拍对应于UI节奏变换。
作为示例,可以采用基于波形能量变化特性检测的音频节拍提取算法设计音频的低层声学特征与UI呈现方式中的UI色彩的关联关系。例如,通过音频中的短时能量极值判断达到音频节拍检测效果,获取音频节拍的时间点信息。在音频节拍出现的时间点处,对该处时间点的短时信号进行频谱分析和处理,获取实时的声波能量和频域特征参数,进而分别建立音高与色调(即颜色域),音色与饱和度,音强与亮度的映射关系模型,改变灯效色彩为音频波形在该点处的频域信息转换得到的色彩,实现灯效色彩变化与音频节拍变化同步。此外,还可以采用色彩渐变机制,实现灯光效果柔和变换。
步骤204:设定音频的情感类别与UI呈现方式之间的第二关联关系,即基于音频的情感类别设计UI呈现方式。也就是说,在传统UI设计的基础上,调整的第一个维度即为情感类别,为每种类别或者将类别再次聚类后设计具体UI呈现方式。
根据本申请的一些实施例,以情感类别用于调整UI色彩设计举例,色彩设计依赖UI设计领域关于色彩心理学等专业知识的输入,如为情感类别失望、悲伤设置冷色系色彩,为情感类别激动(如蓝色)、顺利设置暖色系色彩(如红色和橙色),为情感无聊、平静设置中性系色彩(如黄色和绿色)。而由于情感类别不同可较大程度的影响UI设计思路,因此可认为情感类别或者再次聚类后的结果,其对应的UI呈现方式的变换对应了不同的UI模式切换。
也就是说,上述第二关联关系中音频的情感类别用于调整UI呈现方式时,具体可以用于调节UI模式,例如在情感类别为激动、顺利时设置的UI模式为红色或橙色的主题色调的灯效模式。
需要说明的是,上述第二类关联关系将在UI呈现阶段将应用于UI逻辑匹配模块24中的UI模式切换自动化模块243中。
例如,灯效相关的上述第二类关联关系可以参照上文中表1所示的关系。
在其他一些实施例中,参照表2所示,为另一种为灯效模式的色调与用户的情感类别之间的关联关系示意,即另一种第二类关联关系的示意。
表2:
灯效模式的主题色调 情感类别
红色 胜利,骄傲
橙色 喜悦,激动
紫色 惊讶,渴望
粉色 浪漫,满意
黄色 无聊,平静
绿色 同情
蓝色 内疚,悲伤
灰色 怀旧
深蓝色 失望,厌恶
棕色 恐惧
例如,界面交互元素中的表情图案对应的第二类关联关系可以参照下文中的表3所示的示意。
表3:
需要说明的是,上述步骤204中的音频指的是内容音频和/或语音音频。也就是说,上述第二关联关系指的是内容音频的情感类别和/或语音音频的情感类别与UI呈现方式之间的关联关系。
在一些实施例中,如果上述第二关联关系为内容音频或者语音音频中的一种对应的情感类别与UI呈现方式之间的关联关系。那么,后续确定UI呈现方式的过程中仅基于这种音频按照第二关联关系确定UI呈现方式。
在其他一些实施例中,上述第二关联关包括内容音频的情感类别和语音音频的情感类别分别与UI呈现方式之间的关联关系。那么,后续在确定UI呈现方式的过程中可以并列的根据实时采集的语音音频和内容音频的先后顺序重新确定UI呈现方式中UI元素。或者,还可以使用语音音频的情感类别和内容音频的情感类别确定UI呈现方式中的不同对象,例如使用语音音频的情感类别确定UI呈现方式中的UI模式并使用内容音频的情感类别确定UI呈现方式中的UI模式,以基于上述第二类关联关系确定出UI呈现方式。或者,还可以优先按照语音音频的情感类别确定UI方式中的UI类别等UI元素。
步骤205:设定音频的情感强度分级与UI呈现方式之间的第三类关联关系。即基于音频的情感强度设计UI呈现方式。也就是说,在传统UI设计的基础上,调整的第二个维度即为情感强度,为每种类别或者将类别再次聚类后设计具体UI呈现方式。
根据本申请的一些实施,基于情感强度分级,可以为每种分级细粒度调整后生成最终的UI呈现方式,其同样依赖UI设计领域专业知识的输入,如为更强烈的情感强度分级设置更快、幅度更大的灯效的UI变换节奏,而为轻度等情感强度分级设置更柔和的灯效的UI变换节奏,显著区分不同情感强度分级的设计。
需要说明的是,上述第三类关联关系将在UI呈现阶段将应用于UI逻辑匹配模块24中的UI强度自动化模块244中。
在一些实施例中,上述步骤201至步骤205具体可以由智能设备10中的UI设计及创意输入模块26执行。
在一些实施例中,参照表4所示,为一种为灯效模式的变换节奏与用户的情感强度之间的关联关系示意,即另一种第三类关联关系的示意。
表4:
灯效变换节奏 情感强度分级
较慢 轻微
轻度
中速 中度
较快 强烈
极强烈
在一些实施例中,参照表5所示,为一种为表情图案的UI模式的UI变换节奏与用户的情感强度之间的关联关系示意,即另一种第三类关联关系的示意。
表5:
表情图案 情感强度分级
幅度较小 轻微
幅度小 轻度
幅度中等 中度
幅度较快 强烈
幅度快 极强烈
可以理解的是,上述表情图案的幅度指的是该表情图案的动画效果的幅度,例如喜悦表情中的幅度为微笑的动画的动态幅度。
类似的,上述步骤205中的音频指的是内容音频和/或语音音频。也就是说,上述第三关联关系指的是内容音频的情感强度和/或语音音频的情感类别与UI呈现方式之间的关联关系。
在一些实施例中,如果上述第三关联关系为内容音频或者语音音频中的一种对应的情感强度与UI呈现方式之间的关联关系。那么,后续确定UI呈现方式的过程中仅基于这种音频按照第三关联关系确定UI呈现方式。
在其他一些实施例中,上述第三关联关包括内容音频的情感强度和语音音频的情感强度分别与UI呈现方式之间的关联关系。那么,后续在确定UI呈现方式的过程中可以并列的根据实时采集的语音音频和内容音频的先后顺序重新确定UI呈现方式中的UI强度等UI元素。或者,还可以优先使用内容音频的情感强度确定UI呈现方式中的UI强度等UI元素,例如按照内容音频的情感强度实时确定播放的内容音频对应的UI呈现方式中的UI强度。
步骤206:获取基于定义的情感类别和情感强度分级训练的语义提取网络。
根据本申请的一些实施例,上述语义提取网络用于按照预先设定的情感强度类别和情感强度分级,对音频进行情感分类和强度分级。作为一种示例,语义提取网络的输入为音频,输出为音频的情感类别和情感强度分级。作为另一种示例,为了提升情感类别识别的准确度,语义提取网络的输入还可以包括音频的资源周边内容,例如,该音频相关的影视作品评论或者歌曲评论等内容。例如,在音频为歌曲时,该音频的资源周边内容为音频播放软件中该歌曲的评论。在歌曲的评论中各种情绪相关的词语等文字出现的频率是否大于预设阈值,作为判断该歌曲的情感类别的一种依据。
根据本申请的一些实施例,本申请的语义提取网络可以采用CNN多任务学习网络。当然,在其他一些实施例中,语义提取网络还可以通过Bert神经网络实现。其中,Bert为来自Transformers的双向编码器表示法(Bidirectional Encoder Representations fromTransformers)。
接下来,以CNN多任务学习网络为例,对语义提取网络的结构和运行进行描述。
可以理解的是,在自然语言处理领域,深度学习方法首先将文本转化为一组向量序列表示,然后将该向量序列输入神经网络模型提取特征,最后将特征输入分类器进行情感分类。当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对于神经网络训练手段,基于卷积神经网络的特征提取方法使用一个滑动窗口来提取输入的局部特征,并通过池化技术将这些局部特征组合起来;而基于循环神经网络的长短期神经网络(LSTM)的特征提取方法将输入编码为一个定长的特征,可以有选择地保存和遗忘信息来存储文本中的重要的信息。
首先,预先获取大量歌曲、故事、有声读物以及语音回话等音频,以及这些音频的评论语料(如歌曲评论和故事评论)等数据组成的数据集。将这些数据集中的数据分为训练数据集和测试数据集。并且,为每个数据样本预设情感类别标签和情感强度标签,作为训练标签。然后,使用这些训练数据集和测试数据集对语义提取网络进行训练。
参照如2B所示,根据本申请的一些实施例,示出的一种基于情感特征对语义提取网络训练和推理流程的示意图。
如图2B所示,语义提取网络30中包括中文词向量特征嵌入层31、特征拼接层32、CNN网络主干33。
其中,中文词向量特征嵌入层31,可以用于对输入的语料进行分词并向量化(随机初始化成为一个N维的向量),即得到文本的中文词向量的文本嵌入特征。作为示例,本申请实施例中词向量表示方式可以采用glove、fasttext、wordRank、tfidf-BOW、word2vec等,但不限于此。
而特征拼接层32用于将不同的中文词向量所表示的进行拼接得到拼接后的嵌入特征。具体的拼接方法可以为本领域技术人员能实现的任意向量拼接技术,对此不做详细描述。
CNN网络主干33用于对输入的中文词向量的嵌入特征估计出对应文本的情感类别和情感分级强度。即CNN网络主干33为两个输出头,分别为情感类别和情感分级强度。作为示例,CNN网络主干33可以是能够构建为一句话的概率分布p(W),p(W)实际上反映的是W作为一个句子出现的概率,即CNN网络主干33这个语言模型就是计算某个句子出现的概率。对于一个由T个词按顺序构成的句子,P(W)实际上求解的是字符串的联合概率。进而,将最后的句子向量经过CNN网络主干33中的softmax函数判断情感类别的概率,得到情感特征,即得到情感类别和情感强度分级。例如,对于一个输入文本,CNN网络主干33输出的各个情感类别的概率,将概率最高的作为该文本估计出的情感类别。进而,根据该概率最高的情感类别的概率取值的大小判断出情感强度分级,例如概率越高情感强度分级越高,概率越低情感强度分级越低。
此外,需要说明的是,语义提取网络30训练过程中,可以根据训练数据样本的推理结果中的情感类别和情感强度分级分别与训练标签中的情感类别和情感强度分级进行比较。并基于比较结果确定损失函数的数值,进而基于损失函数的数据修改语义提取网络30的超参数,直至损失函数的数值小于或等于预设数值。其中,对该预设数值的具体取值不做限定,可以根据实际需求设定。
具体地,对于语义提取网络30而言,音频表示的资源音频内容经过自动语音识别技术(Automatic Speech Recognition,ASR)技术得到资源文本。
将音频对应的资源周边内容和资源文本输入至中文词向量特征嵌入层31,由中文词向量特征嵌入层31提取音频对应的资源周边内容和资源文本中的中文词向量特征,得到资源文本嵌入特征和资源周边内容嵌入特征,并将这些特征输出到特征拼接层32中输出拼接后的特征。例如,资源文本嵌入特征和资源周边内容嵌入特征可以为一个一个中文词,如“高兴”、“激动”、“骄傲”等。进而,由特征拼接层32将拼接后的特征输入到CNN网络主干33中,输出音频对应的情感类别和情感强度分级。可以理解的是,如图2B所示,在训练阶段(S1)可以基于预先设置的训练标签对语义提取网络30进行训练。在训练完成后推理阶段(S2),可以使用语义提取网络30对输入的音频进行推理,得到情感类别和情感强度分级的推理结果。
根据本申请的一些实施例,上述语义提取网络30的具体网络结构可根据算力及数据量调整,本申请实施对此不做具体限定。
根据本申请的一些实施例,上述语义提取网络30训练过程的数据集的大规模数据标注以及模型训练可以在图像处理器云服务器(Graphic Processing Unit CloudComputing,GPU服务器)等云端服务器上进行,训练完成后根据智能设备10的算力资源将情感分析算法部署在智能设备10侧或者云端,以输出音频对应的细粒度的情感类别和情感强度。
作为示例,本申请的一些实施例中,上述步骤206中,在GPU服务器训练完成语义提取网络30的情况下,智能设备10可以从GPU服务器获取该语义提取网络30的信息。进一步的,智能设备10可以基于获取的语义提取网络30实现高层语义特征提取模块23中的能力,具体为高层语义特征提取模块23中情感特征解析模块232解析音频的情感类别和情感强度的能力。
其中,GPU服务器是提供GPU算力的弹性计算服务,具有超强的并行计算能力,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。
具体的,上述步骤206具体可以由智能设备10中的高层语义体征提取模块23执行。
如此,本申请实施例中的UI自适应调整方案中,在UI设计阶段中通过预先定义情感类别和情感强度分级,并基于此在智能设备10中实现识别音频的情感类别和情感强度分级的功能。从而,使得智能设备10后续可以实现基于音频的低层声学特征调整UI的基础上,通过音频的情感类别和情感强度等高层语义特征自适应调整UI呈现方式。
UI呈现阶段-实施例一
根据本申请的一些实施例,以智能音箱10a的灯效为UI呈现方式为例,采用“灯随情动”方案,通过UI模式切换自动化模块243及UI强度自动化模块244,使灯效能更好的烘托环境气氛,提升用户体验。
参照图3A所示,为智能音箱10a的一种人机交互的场景示意图。在智能音箱10a待机的情况下,用户说出语音指令“请播放‘快乐歌’”,智能音箱10a输出语音“好的,即将为您播放歌曲‘快乐歌’”。随后,智能音箱10a获取并输出歌曲‘快乐歌’的音频,并基于音频的低层声学特征和高层语义特征自适应调整灯效UI。
参照图3B所示,示出了基于图1C中智能设备10的部分功能模块实现音频UI自适应调整的流程。如图3B所示,歌曲‘快乐歌’表示的内容音频以及用户语音音频“请播放‘快乐歌’”作为低层声学特征提取模块22的输入和高层语义特征提取模块23的输入。可以理解的,相比于图1D示出的UI自适应调整流程,图3B中的UI自适应调整流程没有输入用户语音音频以及用户账号等其他信息,相应的高层语义提取模块23中未使用内容属性解析模块231和用户特征解析模块233。
音频信号解析模块221对输入音频提取并输出时域特征、频域特征,即得到音频节拍、音频能量、音频频谱。这些特征进入UI设计及创意输入模块26作为传统UI设计的设计依据,进而作为UI逻辑匹配模块24中的传统UI设计模块241匹配UI呈现方式的依据。
情感分析模块232对输入音频提取并输出内容情感类别和内容情感强度。而该情感类别和情感强度进入UI设计及创意输入模块26作为UI自适应调整设计的设计依据,进而分别作为UI匹配模块中的UI模式切换自动化模块243和UI强度自动化模块244匹配UI呈现方式的依据。
进而,UI呈现模块25可以采用灯效、表情图案或者其他UI形式进行UI呈现,进而调整UI呈现方式中的UI色彩、UI强度、UI变换节奏等UI元素。
根据本申请的一些实施例,结合上述图3A示出的场景以及图3B示出的流程中对智能音箱10a的描述,描述智能音箱10a执行UI自适应调整方法的工作流程,上述场景中描述的技术细节在此流程中依然适用,为了避免重复,有些在此次不再赘述。
具体的,图3C示出了本申请实施例提供的一种UI方法的实施流程示意图。可以理解,图3C所示流程中的各步骤执行主体可以为智能音箱10a或者智能音箱10a中相应的功能模块。
具体地,如图3C所示,该流程包括以下步骤:
步骤301:获取待播放的歌曲音频。例如,歌曲音频为图3A示出的场景中的‘快乐歌’的音频。
步骤302:实时解析待播放的歌曲音频,确定出该歌曲音频对应的低层声学特征。即确定出待播放的歌曲音频的时域特征和频域特征,得到对应的音频节拍、音频能量和音频频谱,进而得到对应的音色、音高、音强等。
具体的,步骤302可以通过智能音箱10a中的低层声学特征提取模块22提取。
可以理解的是,上述步骤302中可以将待播放的歌曲音频划分为多个音频片段,并以每个音频片段为单位,分别进行低层声学特征提取。进而,后续继续以音频片段为单位,分别进行和高层语义特征的提取,直至所有音频片段处理完毕。而音频片段的划分以及音频片段的长度,可以根据实际需求选取,本申请实施例对此不做具体限定。
在一些实施例中,通过当前音频片段中的短时能量极值判断达到音频节拍检测效果,获取音频节拍的时间点信息。在音频节拍出现的时间点处,对该处时间点的短时信号进行频谱分析和处理,获取实时的声波能量和频域特征参数,进而得到当前音频片段对应的音色、音高和音强,以及音频节拍。
步骤303:实时解析待播放的歌曲音频,确定出该歌曲音频对应的情感类别和情感强度,即确定出高层语义特征中的情感特征。
具体的,步骤303可以通过智能音箱10a中的高层语义特征提取模块23中的情感分析模块232提取得到。更具体的,步骤303可以情感分析模块232表示的语义提取网络30实现。
可以理解的是,步骤303中可以采用ASR技术实时解析待播放的歌曲音频,确定待播放的歌曲音频对应的文本内容,进而对该文本内容进行分析,确定出对应的情感类别和情感强度分级。
例如,待播放的歌曲音频中连续的音频片段1和音频片段2对应的情感类别分别为平静和悲伤,而情感强度分级分别为中度和轻度。
步骤304:根据确定出的情感类别、情感强度分级和低层声学特征,确定出待呈现的UI呈现方式。
根据本申请的一些实施例,在上述步骤304中,可以先根据情感类别确定出UI模式,再根据情感强度和低层声学特征调整UI呈现方式中的UI强度、UI变换节奏等UI元素,以确定出当前待呈现的UI呈现方式。并且,随着待播放的歌曲音频的情感类别、情感强度以及低层声学特征的变化,智能音箱10a将重新确定UI呈现方式,实现UI呈现方式的自动切换。
根据本申请的一些实施例,根据情感类别对应的第三类关联关系,确定出情感类别确定灯效对应的UI呈现方式,具体为确定UI呈现方式中的UI色彩。
例如,对于待播放的歌曲音频中连续的音频片段1和音频片段2对应的情感类别分别为平静和悲伤,参照表2可确定出的UI模式分别为黄色色调的UI模式和蓝色色调的UI模式。
例如,在图3A示出的场景中,左侧的智能音箱10a输出音频片段1时采用黄色色调的UI模式的灯效,而右侧的智能音箱10a输出的音频片段2时采用蓝色色调的UI模式,从而实现了UI模式的自动切换。
可以理解的是,上述UI模式的确定过程可以通过智能音箱10a中的UI逻辑匹配模块24中的UI模式切换自动化模块243执行的。
根据本申请的一些实施例,可以根据情感强度对应的第三类关联关系,确定出情感强度分级确定灯效对应的UI呈现方式,具体为UI呈现方式中的UI变换节奏。那么,第三类关联关系可以指出情感强度的各个取值与UI变换节奏取值的对应关系。
例如,对于待播放的歌曲音频中连续的音频片段1和音频片段2对应的情感轻度分级分别为中度和轻度,那么参照表3可确定出的UI呈现方式中的UI变换节奏分别为中速和慢速。
例如,在图3A示出的场景中,左侧的智能音箱10a输出音频片段1时采用中速的UI变换节奏进行UI呈现,而右侧的智能音箱10a输出音频片段2时采用慢速的UI变换节奏进行UI呈现,从而实现了UI变换节奏的自动切换。
可以理解的是,上述UI强度的确定过程可以通过智能音箱10a中的UI逻辑匹配模块24中的UI强度自动化模块244执行的。
此外,在其他一些实施例中,歌曲音频的情感强度还可以用于调整灯效的UI呈现方式中的灯柱高度等其他UI元素,本申请实施例对此不做具体限定。
根据本申请的一些实施例,智能音箱10a通过UI逻辑匹配模块24中的传统UI设计模块241按照低层声学特征进行UI呈现方式的细调。
作为示例,根据本申请的一些实施例,以待播放的歌曲音频中的音频片段1为例,可以基于第一类关联关系,通过音频片段1的音高调整UI色彩的色调、通过音色调整UI色彩的饱和度,通过音强调整UI色彩的亮度。这些对UI色彩的调节是在黄色色调的UI模式下进行的细调,例如UI色彩中的色调按照音频的因音高变化在深黄和浅黄之间细调。而UI色彩的色调、UI色彩的饱和度、UI色彩的亮度的细调范围可以由预先设置的第一类关联关系设定,具体实现可以根据实际需求设定,本申请实施例对此不做具体限定。
此外,在连续的两个音频片段1和音频片段2之间的UI呈现方式中的UI色彩的切换还可以采用色彩渐变机制,实现灯光效果柔和变换。
具体的,在一些实施例中,在音频节拍出现的时间点处,对该处时间点分别对UI色彩的色调、UI色彩的饱和度,UI色彩的亮度进行细调。
步骤305:按照确定出的UI呈现方式进行UI呈现,并输出待播放的歌曲音频。
根据本申请的一些实施例,上述步骤305可以由智能音箱10a通过UI呈现模块25执行。
如此,本申请实施例中智能音箱10a在播放歌曲音频的过程中,可以根据情感强度和情感类别自动匹配不同的UI呈现方式,实现UI模式切换自动化和UI强度自动化,使得灯效的UI呈现方式能够实时反映待播放的歌曲音频的情绪,达到灯随情动的效果,提升了用户的视听体验。
此外,可以理解的是,智能音箱10a播放除了歌曲音频之外的故事、有声读物等其他音频时,也可以基于这些音频的情绪调整灯效,实现灯随情动的目的。例如,在故事音频中的音频片段为令人恐惧的气氛(即恐怖气氛)时,灯效的UI色彩为棕色,以及还可以进一步调整灯效的UI变换节奏等其他UI元素等。
UI呈现阶段-实施例二
根据本申请的一些实施例,以智能机器人10b的界面元素交互为UI呈现方式为例,采用“声情并茂”方案,通过模式切换自动化模块243及UI强度自动化模块244,使界面交互元素能更好拟人化,提升用户体验。
需要说明的是,相比于实施例一,实施例二的区别在于:首先,UI呈现方式由灯效变为表情图案为主的UI呈现方式;其次,高层语义特征提取模块23还需要新增提取用户语音音频中的用户情绪类别和用户情绪强度,以及用户的性别、年龄、用户意图、说话人的性别、年龄、内容类型等。
参照图4A所示,为智能机器人10b的一种人机交互的场景示意图。在智能机器人10b待机的情况下,用户向智能机器人10b说出语音指令“我想听故事了,请播放故事‘小兔子乖乖’”,智能音箱10a输出语音“好的,即将为您播放故事‘小兔子乖乖’”,让我们开始愉快的故事时间。随后,智能机器人10b获取并输出故事‘小兔子乖乖’的音频,并基于音频的低层声学特征和高层语义特征自适应调整界面元素交互表示的UI。
参照上文中的图1D所示,语音指令“我想听故事了,请播放故事‘小兔子乖乖’”可以作为用户对话音频(即语音音频),而故事‘小兔子乖乖’的音频将作为音频模块21中输入的内容音频。进而,经过低层声学特征提取模块22、高层语义特征提取模块23以及UI逻辑匹配模块24,进而由UI呈现模块25以表情图案的形态呈现UI,并随着音频调整表情图案所表达的情绪,以实现声情并茂的效果。
根据本申请的一些实施例,结合上述图4A示出的场景以及图1D示出的流程中对智能机器人10b的描述,描述智能机器人10b执行UI自适应调整方法的工作流程,上述场景中描述的技术细节在此流程中依然适用,为了避免重复,有些在此次不再赘述。
具体的,图4B示出了本申请实施例提供的一种UI方法的实施流程示意图。可以理解,图1D所示流程中的各步骤执行主体可以为智能机器人10b或者智能机器人10b中相应的功能模块。
具体地,如图4B所示,该流程包括以下步骤:
步骤401:获取待播放的故事音频以及用户语音音频。例如,参照图4A示出的场景中,故事音频为故事‘小兔子乖乖’的音频,而用户语音音频可以为“我想听故事了,请播放故事‘小兔子乖乖’”。
步骤402:实时解析待播放的故事音频,确定出该故事音频对应的低层声学特征。即确定出待播放的故事音频的时域特征和频域特征,得到对应的音频节拍、音频能量和音频频谱,进而得到对应的音色、音高、音强等。
具体的,步骤402可以通过智能机器人10b中的低层声学特征提取模块22提取。
可以理解的是,上述步骤402中可以将待播放的故事音频划分为多个音频片段,并以每个音频片段为单位,分别进行低层声学特征提取。进而,后续继续以音频片段为单位,分别进行和高层语义特征的提取,直至所有音频片段处理完毕。而音频片段的划分以及音频片段的长度,可以根据实际需求选取,本申请实施例对此不做具体限定。
步骤403:实时解析用户语音音频,确定出用户语音音频对应的内容情感类别,即确定出高层语义特征中的内容情感特征。
具体的,步骤403可以通过智能机器人10b中的高层语义特征提取模块23中的情感分析模块232提取得到。更具体的,步骤403可以情感分析模块232表示的语义提取网络30实现。
可以理解的是,步骤403中可以采用ASR技术实时解析用户语音音频,确定用户语音音频对应的文本内容,进而对该文本内容进行分析,确定出对应的用户情感类别和用户情感强度。
例如,用户语音音频“我想听故事了,请播放故事‘小兔子乖乖’”对应的用户情感类别为喜悦,而用户情感强度分级为轻度。
步骤404:实时解析待播放的故事音频,确定出该故事音频对应的内容情感类别和内容情感强度,即确定出高层语义特征中的情感特征。
具体的,步骤404可以通过智能机器人10b中的高层语义特征提取模块23中的情感分析模块232提取得到。更具体的,步骤403可以情感分析模块232表示的语义提取网络30实现。
可以理解的是,步骤404中可以采用ASR技术实时解析待播放的故事音频,确定待播放的故事音频对应的文本内容,进而对该文本内容进行分析,确定出对应的情感类别和情感强度分级。
例如,待播放的故事音频中连续的音频片段a和音频片段b对应的情感类别分别为喜悦和失望,而情感强度分级分别为中度和轻度。
步骤405:确定用户特征和说话人特征中的至少一项。例如,用户特征为用户性别、年龄、用户意图等,而说话人特征可以为内容说话人的性别年龄、内容类别等。
作为示例,根据用户语音音频“我想听故事了,请播放故事‘小兔子乖乖’”,可以判断出用户的意图为听故事。并且,可以通过该用户语音音频判断出用户的性别和年龄段,例如可以判断出用户为女性,且处于青年的年龄段。
此外,在另一些示例中,用户在初次使用智能机器人10b时可以在智能机器人10b中注册用户的账号,以及用户账号相关的出生年月以及性别等。那么,后续在智能机器人10b播放故事时可以默认按照用户账号相关的用户性别以及用户年龄段,用于后续UI呈现方式的调整。
类似的,说话人特征指的是故事音频中说话人的特征,如性别和年龄段以及内容类别等。作为示例,性别可以分为男性和女性,年龄段可以分为儿童、青年、中老年,而内容类别可以分为儿童读物、恐怖故事、新闻等等。
例如,对于故事音频‘小兔子乖乖’,说话人的性别可以为女性、年龄为儿童、内容类别为儿童读物。
步骤406:根据确定出的用户情感类别、内容情感类别、用户特征和说话人特征,内容情感强度用户情感强度以及低层声学特征中的至少一项,确定出待呈现的UI呈现方式。
根据本申请的一些实施例,在上述步骤406中,可以先根据用户或内容的情感类别或者人物特征确定出UI模式,再根据用户或内容的情感强度以及低层声学特征调整UI呈现方式中的UI类别、UI强度和UI变换节奏等UI元素,以确定出当前待呈现的UI呈现方式。并且,随着待播放的故事音频的情感类别、情感强度以及低层声学特征的变化,智能机器人10b将重新确定UI呈现方式,实现UI呈现方式的自动切换。
在一些实施例中,在故事音频开始播放之前或者刚开始播放时,应用基于用户情感类别确定出的表情图案对应的UI模式,随着故事音频再应用故事音频中的内容情感类别确定出的UI模式。
作为示例,UI模式为表情图案为卡通类型、常规类型和水墨风,分别对应于儿童、青年、中老年的年龄段。作为示例,在说话人的年龄段为儿童时,可以采用卡通类型的UI模式。
可以理解的是,上述待播放的故事音频对应的UI模式可以通过智能机器人10b中的UI逻辑匹配模块24中的UI模式切换自动化模块243执行的。
当然,移动机器人10b播放故事音频时的UI模式包括但不限于上述示例,还可以是其他任意可实现的UI模式。
根据本申请的一些实施例,可以根据情感类别对应的第二类关联关系,确定出表情图案对应的UI呈现方式。例如,本申请实施例中先按照第二类关联关系中与用户的情感类别(即语音音频的情感类别)与UI呈现方式中的关联关系确定出UI模式,再按照第二类关联关系中的内容音频的情感类别与UI呈现方式之间的关联关系确定出实时播放的内容音频的UI类别。
进而,对于待播放的故事音频中连续的音频片段a和音频片段b对应的情感类别分别为喜悦和悲伤,参照表4可确定出的UI类别为喜悦表情图案和悲伤表情图案。
例如,在图4A示出的场景中,左侧的智能机器人10b输出故事音频片段a时输出卡通类型的喜悦表情图案,而右侧的智能机器人10b输出的故事音频片段b时输出卡通类型的悲伤表情图案,从而实现了UI模式以及UI类别的自动切换。
根据本申请的一些实施例,可以根据情感强度对应的第三类关联关系,确定出情感强度分级确定表情图案对应的UI呈现方式,具体为UI呈现方式中的UI变换节奏所表示的表情幅度。具体地,本申请实施例中,在播放内容音频(即上述故事音频)是可以主要按照第三关联关系中内容音频的情感强度与UI呈现方式之间的关联关系确定出UI强度,实现在播放内容音频的时候实时调整UI呈现方式中的UI强度。
例如,对于待播放的故事音频中连续的音频片段a和音频片段b对应的情感轻度分级分别为中度和轻度,那么参照表5可确定出的UI呈现方式中的UI变换节奏所表示的表情幅度分别为中等幅度和小幅度。
例如,在图4A示出的场景中,左侧的智能机器人10b输出音频片段a的同时采用中等幅度的UI变换节奏进行UI呈现,而右侧的智能机器人10b输出的音频片段b的同时采用小幅度的UI变换节奏进行UI呈现,从而实现了UI变换节奏的自动切换。
可以理解的是,上述待播放的故事音频对应的UI强度可以通过智能机器人10b中的UI逻辑匹配模块24中的UI强度自动化模块244执行的。
根据本申请的一些实施例,智能机器人10b通过UI逻辑匹配模块24中的传统UI设计模块241按照低层声学特征进行UI呈现方式的细调。
作为示例,根据本申请的一些实施例,以待播放的故事音频中的音频片段a为例,可以基于第一类关联关系,通过音频片段a的音高调整表情图案的UI色彩的色调、通过音色调整UI色彩的饱和度,通过音强调整UI色彩的亮度。而UI色彩的色调、UI色彩的饱和度、UI色彩的亮度的细调范围可以由预先设置的第一类关联关系设定,具体实现可以根据实际需求设定,本申请实施例对此不做具体限定。
此外,在连续的两个音频片段a和音频片段b之间的UI呈现方式中的UI类别和UI色彩的切换还可以采用图像显示渐变机制,实现表情图案色彩的柔和变换。
具体的,在一些实施例中,在音频节拍出现的时间点处,对该处时间点分别对UI色彩的色调、UI色彩的饱和度,UI色彩的亮度进行细调。
步骤407:按照确定出的UI呈现方式进行UI呈现,并输出待播放的故事音频。
根据本申请的一些实施例,上述步骤407可以由智能机器人10b通过UI呈现模块25执行。
如此,本申请实施例中智能机器人10b在播放故事音频的过程中,可以根据用户特征、说话人特征、情感强度和情感类别自动匹配不同的UI呈现方式,实现UI模式切换自动化和UI强度自动化,使得表情图案的UI呈现方式能够实时反映待播放的故事音频的情绪,达到声情并茂的效果,提升了用户的视听体验。
参照图5所示,为本申请实施例提供的一种智能设备10的结构示意图。
如图5所示,智能设备10可以包括处理器110、电源模块140、存储器180,移动通信模块130、无线通信模块120、音频模块150、按键101以及显示屏/壁纸灯102等。
可以理解的是,本发明实施例示意的结构并不构成对智能设备10的具体限定。在本申请另一些实施例中,智能设备10可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如,可以包括中央处理器CPU(Central Processing Unit)、图像处理器GPU(Graphics Processing Unit)、数字信号处理器DSP、微处理器MCU(Micro-programmed Control Unit)、AI(ArtificialIntelligence,人工智能)处理器或可编程逻辑器件FPGA(Field Programmable GateArray)等的处理模块或处理电路。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中可以设置存储单元,用于存储指令和数据。在一些实施例中,处理器110中的存储单元为高速缓冲存储器180。
电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中,电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入;电源管理模块用于连接电源,充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入,为处理器110,显示屏102及无线通信模块120等供电。
移动通信模块130可以包括但不限于天线、功率放大器、滤波器、LNA(Low noiseamplify,低噪声放大器)等。移动通信模块130可以提供应用在智能设备10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以由天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
无线通信模块120可以包括天线,并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在智能设备10上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。智能设备10可以通过无线通信技术与网络以及其他设备进行通信。
在一些实施例中,智能设备10的移动通信模块130和无线通信模块120也可以位于同一模块中。
显示屏/壁纸灯102中的显示屏用于显示人机交互界面、图像、视频等,而壁纸灯用于显示灯效,可以改变颜色,灯柱形状等。显示屏102包括显示面板。
音频模块150用于将数字音频信息转换成模拟音频信号输出,或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中,音频模块150可以设置于处理器110中,或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中,音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。
在一些实施例中,智能设备10还包括按键101、马达以及指示器等。其中,按键101可以包括音量键、开/关机键等。马达用于使智能设备10产生振动效果。指示器可以包括激光指示器、射频指示器、LED指示器等。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种用户界面自适应调整方法,其特征在于,应用于电子设备,所述方法包括:
获取待播放内容音频的声学特征以及所述待播放内容音频的语义特征;
根据所述声学特征和所述待播放内容音频的语义特征确定与所述待播放内容音频对应的UI呈现方式;
在播放所述待播放内容音频的过程中,按照所述UI呈现方式呈现UI。
2.根据权利要求1所述的方法,其特征在于,所述待播放内容音频的语义特征包括以下至少一项:
所述待播放内容音频的情感类别,所述待播放内容音频的情感强度,所述待播放内容音频中说话人的人物特征,所述待播放内容音频的内容类别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述待播放内容音频相关的语音音频的语义特征,其中所述语音音频的语义特征包括所述语音音频的情感类别,所述语音音频的情感强度、用户的人物特征和用户的用户意图中的至少一项;
所述根据所述声学特征和所述待播放内容音频的语义特征确定与所述待播放内容音频对应的UI呈现方式,包括:
根据所述声学特征、所述待播放内容音频的语义特征和所述语音音频的语义特征,确定与所述待播放内容音频对应的UI呈现方式。
4.根据权利要求3所述的方法,其特征在于,所述待播放内容音频的语义特征中包括第一特征,所述语音音频的语义特征中包括第二特征,并且所述第一特征和所述第二特征根据预设深度学习网络获取得到;
其中,所述第一特征包括所述待播放内容音频的情感类别和所述待播放内容音频的情感强度,所述第二特征包括所述语音音频的情感类别和所述语音音频的情感强度。
5.根据权利要求4所述的方法,其特征在于,所述预设深度学习网络设置在服务器中,所述第一特征和所述第二特征是所述电子设备从所述服务器获取得到的。
6.根据权利要求3所述的方法,其特征在于,所述根据所述声学特征、所述待播放内容音频的语义特征和所述语音音频的语义特征,确定与所述待播放内容音频对应的UI呈现方式,包括:
根据第三特征确定与所述待播放内容音频对应的UI呈现方式所属的UI模式;
根据第四特征对确定出的UI模式下的UI呈现方式中的第一类UI元素进行调整;
根据所述声学特征对已经确定出的UI呈现方式中的第二类UI元素进行微调;
其中,所述第一类UI元素包括以下至少一项:UI类别、UI色彩、UI强度、UI变换节奏;所述第二类UI元素为所述UI变换节奏,所述声学特征包括音频节拍、音频能量、音频频谱中的至少一项;所述UI模式基于第三类UI元素设定,所述第三类UI元素与所述第一类UI元素不同;
所述第三特征为所述待播放内容音频的情感类别和所述语音音频的情感类别中的至少一项;所述第四特征为所述待播放内容音频的情感强度和所述语音音频的情感强度中的至少一项。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述UI呈现方式的形态包括灯效、界面交互元素、设备机械动作中的至少一项;或者,所述待播放内容音频为歌曲、有声读物、用户交互语音中的任一项。
8.根据权利要求3所述的方法,其特征在于,所述根据所述声学特征、所述待播放内容音频的语义特征和所述语音音频的语义特征,确定与所述待播放内容音频对应的UI呈现方式,包括:
按照预定义的语义关联关系,确定出与所述待播放内容音频的语义特征和所述语音音频的语义特征中的至少一项关联的UI呈现方式;
按照预定义的声学关联关系,基于所述声学特征对确定出的UI呈现方式进行调整;
其中,所述预定义的语义关联关系用于指示:随着所述待播放内容音频的语义特征的变化和/或所述语音音频的语义特征的变化所述电子设备的UI呈现方式中的各个UI元素的变化规律;
所述预定义的声学关联关系用于指示:随着所述声学特征的变化所述电子设备的UI呈现方式中的各个UI元素的变化规律。
9.一种可读介质,其特征在于,所述可读介质上存储有指令,所述指令在电子设备上执行时使所述电子设备执行如权利要求1至8中任一项所述的用户界面自适应调整方法。
10.一种电子设备,其特征在于,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及处理器,是所述电子设备的处理器之一,用于执行如权利要求1至8中任一项所述的用户界面自适应调整方法。
CN202210946474.XA 2022-08-08 2022-08-08 用户界面自适应调整方法、介质以及电子设备 Pending CN117573245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210946474.XA CN117573245A (zh) 2022-08-08 2022-08-08 用户界面自适应调整方法、介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210946474.XA CN117573245A (zh) 2022-08-08 2022-08-08 用户界面自适应调整方法、介质以及电子设备

Publications (1)

Publication Number Publication Date
CN117573245A true CN117573245A (zh) 2024-02-20

Family

ID=89885030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210946474.XA Pending CN117573245A (zh) 2022-08-08 2022-08-08 用户界面自适应调整方法、介质以及电子设备

Country Status (1)

Country Link
CN (1) CN117573245A (zh)

Similar Documents

Publication Publication Date Title
CN108962217B (zh) 语音合成方法及相关设备
US11475897B2 (en) Method and apparatus for response using voice matching user category
WO2020253509A1 (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
CN108962219A (zh) 用于处理文本的方法和装置
WO2017168870A1 (ja) 情報処理装置及び情報処理方法
CN108492817A (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN108806656A (zh) 歌曲的自动生成
CN109120992A (zh) 视频生成方法及其装置、电子设备、存储介质
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
CN109637551A (zh) 语音转换方法、装置、设备及存储介质
CN106486121A (zh) 应用于智能机器人的语音优化方法及装置
US20190371319A1 (en) Method for human-machine interaction, electronic device, and computer-readable storage medium
CN114999441B (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
CN108877803A (zh) 用于呈现信息的方法和装置
CN114299908A (zh) 一种语音转换的方法及相关设备
WO2022242706A1 (zh) 基于多模态的反应式响应生成
CN109599094A (zh) 声音美容与情感修饰的方法
CN107221344A (zh) 一种语音情感迁移方法
CN112463108A (zh) 语音交互处理方法、装置、电子设备及存储介质
CN114154636A (zh) 数据处理方法、电子设备及计算机程序产品
CN111105776A (zh) 有声播放装置及其播放方法
CN109460548A (zh) 一种面向智能机器人的故事数据处理方法及系统
CN115329057A (zh) 语音交互方法、装置、电子设备及存储介质
CN118762712A (zh) 剧场音频作品的生成方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination