DE112019001058T5

DE112019001058T5 - VOICE EFFECTS BASED ON FACIAL EXPRESSIONS

Info

Publication number: DE112019001058T5
Application number: DE112019001058.1T
Authority: DE
Inventors: Sean A. Ramprashad; Carlos M. Avendano; Aram M. Lindahl
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-02-28
Filing date: 2019-02-26
Publication date: 2020-11-05
Also published as: WO2019168834A1; KR102367143B1; CN112512649A; WO2020013891A1; CN111787986A; CN111787986B; CN112512649B; KR20200105700A

Abstract

Ausführungsformen der vorliegenden Offenbarung können Techniken zum Anpassen von Audio- und/oder Videoinformationen eines Videoclips bereitstellen, zumindest teilweise basierend auf Gesichtsmerkmals- und/oder Stimmenmerkmals-Charakteristika, die von Hardware-Komponenten extrahiert werden. Zum Beispiel können in Reaktion auf ein Erfassen einer Anforderung, einen Avatar-Videoclip eines virtuellen Avatars zu erzeugen, ein Videosignal, das zu einem Gesicht in einem Sichtfeld einer Kamera gehört, und ein Audiosignal aufgenommen werden. Stimmenmerkmals-Charakteristika und Gesichtsmerkmals-Charakteristika können aus dem Audiosignal bzw. dem Videosignal extrahiert werden. In manchen Beispielen kann in Reaktion auf ein Erfassen einer Anforderung, eine Vorschau des Avatar-Videoclips anzusehen, ein angepasstes Audiosignals erzeugt werden, zumindest teilweise basierend auf den Gesichtsmerkmals-Charakteristika und den Stimmenmerkmals-Charakteristika, und unter Verwendung des angepassten Audiosignals kann eine Vorschau des Videoclips des virtuellen Avatars angezeigt werden.Embodiments of the present disclosure may provide techniques for customizing audio and / or video information of a video clip based at least in part on facial and / or voice characteristic characteristics extracted from hardware components. For example, in response to detecting a request to create an avatar video clip of a virtual avatar, a video signal associated with a face in a field of view of a camera and an audio signal may be recorded. Voice feature characteristics and facial feature characteristics can be extracted from the audio signal and the video signal, respectively. In some examples, in response to detecting a request to preview the avatar video clip, a customized audio signal may be generated based at least in part on the facial feature characteristics and the voice feature characteristics, and using the customized audio signal, a preview of the Video clips of the virtual avatar are displayed.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGENCROSS REFERENCE TO RELATED APPLICATIONS

Diese Anmeldung beansprucht den Vorteil der nicht-vorläufigen US-Patentanmeldung Nr. 15/908,603 , eingereicht am 28. Februar 2018, mit dem Titel „Voice Effects Based on Facial Expressions“ und der US-Teilfortsetzungsanmeldung Nr. 16/033,111 , eingereicht am 11. Juli 2018, mit dem Titel „Techniques for Providing Audio and Video Effects“, wobei diese Offenbarungen hiermit in ihrer Gesamtheit für alle Zwecke durch Verweis hierin einbezogen werden.This application claims the benefit of the non-provisional U.S. Patent Application No. 15 / 908,603 , filed February 28, 2018, entitled "Voice Effects Based on Facial Expressions," and U.S. Partial Continuation Application No. 16 / 033,111 , filed July 11, 2018, entitled "Techniques for Providing Audio and Video Effects," which disclosures are hereby incorporated in their entirety by reference for all purposes.

STAND DER TECHNIKSTATE OF THE ART

Multimedia-Inhalt, wie z. B. Emojis, kann als Teil von Nachrichtenkommunikationen gesendet werden. Die Emojis können eine Vielfalt von vordefinierten Personen, Objekten, Handlungen und/oder anderen Dingen repräsentieren. Manche Nachrichtenanwendungen ermöglichen Benutzern, aus einer vordefinierten Bibliothek von Emojis auszuwählen, welche als Teil einer Nachricht gesendet werden können, die anderen Inhalt enthalten kann (z. B. anderen Multimedia- und/oder Textinhalt). Animojis sind eine Art dieses anderen Multimedia-Inhalts, wobei ein Benutzer einen Avatar (z. B. eine Puppe) auswählen kann, um sich selbst darzustellen. Das Animoji kann sich bewegen und sprechen, als wenn es ein Video des Benutzers wäre. Animojis ermöglichen den Benutzern, personalisierte Versionen von Emojis auf lustige und kreative Art und Weise zu erzeugen.Multimedia content such as B. Emojis, can be sent as part of message communications. The emojis can represent a variety of predefined people, objects, actions and / or other things. Some messaging applications allow users to choose from a predefined library of emojis that can be sent as part of a message, which may contain other content (e.g., other multimedia and / or textual content). Animojis are a type of this other multimedia content where a user can select an avatar (e.g. a doll) to represent themselves. The Animoji can move and speak as if it were a video of the user. Animojis allow users to create personalized versions of emojis in a fun and creative way.

KURZDARSTELLUNGABSTRACT

Ausführungsformen der vorliegenden Erfindung können Systeme, Verfahren und ein computerlesbares Medium zum Implementieren von Techniken zum Überarbeiten und Abspielen von Avatar-Videoclips bereitstellen. In manchen Beispielen kann eine Rechenvorrichtung eine Benutzerschnittstelle (UI) zum Verfolgen des Gesichts eines Benutzers und zum Darstellen einer virtuellen Avatar-Repräsentation (z. B. einer Puppe oder einer Videofigurversion des Gesichts des Benutzers) darstellen. Nach einem Identifizieren einer Aufzeichnungsanforderung kann die Rechenvorrichtung Audio- und Videoinformationen aufnehmen, Kontext sowie Gesichtsmerkmals-Charakteristika und Stimmenmerkmals-Charakteristika extrahieren und erfassen, die Audio- und/oder Videoinformationen zumindest teilweise basierend auf den extrahierten/identifizierten Merkmalen überarbeiten und unter Verwendung der überarbeiteten Audio- und/oder Videoinformationen einen Videoclip des Avatars darstellen.Embodiments of the present invention can provide systems, methods, and a computer readable medium for implementing techniques for revising and playing avatar video clips. In some examples, a computing device may present a user interface (UI) for tracking a user's face and displaying a virtual avatar representation (e.g., a doll or a video character version of the user's face). After identifying a recording request, the computing device can record audio and video information, extract and capture context as well as facial feature characteristics and voice feature characteristics, revise the audio and / or video information based at least in part on the extracted / identified features and using the revised audio and / or video information represents a video clip of the avatar.

In manchen Ausführungsformen kann ein computerimplementiertes Verfahren zum Implementieren verschiedener Audio- und Videoeffekttechniken bereitgestellt werden. Das Verfahren kann ein Anzeigen einer Schnittstelle zur Erzeugung virtueller Avatare einschließen. Das Verfahren kann außerdem ein Anzeigen eines ersten Vorschauinhalts eines virtuellen Avatars in der Schnittstelle zur Erzeugung virtueller Avatare einschließen, wobei der erste Vorschauinhalt des virtuellen Avatars Echtzeit-Vorschau-Videoframes einer Benutzer-Portraitaufnahme in einem Sichtfeld der Kamera und zugehörigen Aussehensveränderungen der Portraitaufnahme entspricht. Das Verfahren kann außerdem ein Erfassen einer Eingabe in die Schnittstelle zur Erzeugung virtueller Avatare während des Anzeigens des ersten Vorschauinhalts des virtuellen Avatars einschließen. In manchen Beispielen kann das Verfahren in Reaktion auf das Erfassen der Eingabe in die Schnittstelle zur Erzeugung virtueller Avatare außerdem einschließen: Aufnehmen eines Videosignals über die Kamera, welches zu der Benutzer-Portraitaufnahme gehört, während einer Aufzeichnungssitzung, Aufnehmen eines Benutzer-Audiosignals über die Kamera während der Aufzeichnungssitzung, Extrahieren von Audiomerkmals-Charakteristika aus dem aufgenommenen Benutzer-Audiosignal und Extrahieren von Gesichtsmerkmals-Charakteristika, die zu dem Gesicht gehören, aus dem aufgenommenen Videosignal. Zusätzlich kann das Verfahren in Reaktion auf ein Erfassen eines Ablaufs der Aufzeichnungssitzung außerdem einschließen: Erzeugen eines angepassten Audiosignals aus dem aufgenommenen Audiosignal, zumindest teilweise basierend auf den Gesichtsmerkmals-Charakteristika und den Audiomerkmals-Charakteristika, Erzeugen eines zweiten Vorschauinhalts des virtuellen Avatars in der Schnittstelle zur Erzeugung virtueller Avatare gemäß den Gesichtsmerkmals-Charakteristika und dem angepassten Audiosignal und Darstellen des zweiten Vorschauinhalts in der Schnittstelle zur Erzeugung virtueller Avatare.In some embodiments, a computer implemented method of implementing various audio and video effects techniques can be provided. The method may include displaying an interface for creating virtual avatars. The method can also include displaying a first preview content of a virtual avatar in the interface for creating virtual avatars, the first preview content of the virtual avatar corresponding to real-time preview video frames of a user portrait recording in a field of view of the camera and associated changes in the appearance of the portrait recording. The method may also include capturing an input to the virtual avatar creation interface while displaying the first preview content of the virtual avatar. In some examples, in response to detecting the input to the virtual avatar generation interface, the method may further include: recording a video signal associated with the user portrait recording via the camera during a recording session; recording a user audio signal via the camera during the recording session, extracting audio feature characteristics from the recorded user audio signal, and extracting facial feature characteristics associated with the face from the recorded video signal. In addition, in response to detecting a course of the recording session, the method may also include: generating an adjusted audio signal from the recorded audio signal based at least in part on the facial feature characteristics and the audio feature characteristics, generating a second preview content of the virtual avatar in the interface to the Generation of virtual avatars according to the facial feature characteristics and the adapted audio signal and presentation of the second preview content in the interface for generating virtual avatars.

In manchen Ausführungsformen kann das Verfahren außerdem ein Speichern von Gesichtsmerkmals-Metadaten, die zu den Gesichtsmerkmals-Charakteristika gehören, die aus dem Videosignal extrahiert werden, und ein Erzeugen angepasster Gesichtsmerkmals-Metadaten aus den Gesichtsmerkmals-Metadaten einschließen, zumindest teilweise basierend auf den Gesichtsmerkmals-Charakteristika und den Audiomerkmals-Charakteristika. Zusätzlich kann die zweite Vorschau des virtuellen Avatars ferner gemäß den angepassten Gesichtsmetadaten angezeigt werden. In manchen Beispielen kann die erste Vorschau des virtuellen Avatars gemäß Vorschau-Gesichtsmerkmals-Charakteristika angezeigt werden, die gemäß den Veränderungen in dem Aussehen des Gesichts während einer Vorschausitzung identifiziert werden.In some embodiments, the method may also include storing facial feature metadata associated with the facial feature characteristics extracted from the video signal and generating customized facial feature metadata from the facial feature metadata based at least in part on the facial feature characteristics. Characteristics and the audio feature characteristics. In addition, the second preview of the virtual avatar may also be displayed according to the customized face metadata. In some examples, the first preview of the virtual avatar may be displayed according to preview facial feature characteristics identified according to changes in the appearance of the face during a preview session.

In manchen Ausführungsformen kann eine elektronische Vorrichtung zum Implementieren verschiedener Audio- und Videoeffekttechniken bereitgestellt werden. Das System kann eine Kamera, ein Mikrofon, eine Bibliothek von vorab aufgezeichnetem/vorbestimmtem Audio und einen oder mehrere Prozessoren in Kommunikation mit der Kamera und dem Mikrofon einschließen. In manchen Beispielen können die Prozessoren dafür konfiguriert sein, computerausführbare Anweisungen zum Durchführen von Operationen auszuführen. Die Operationen können ein Erfassen einer Eingabe in eine Schnittstelle zur Erzeugung virtueller Avatare während des Anzeigens einer ersten Vorschau eines virtuellen Avatars einschließen. Die Operationen können außerdem ein Beginnen einer Aufnahmesitzung einschließlich in Reaktion auf das Erfassen der Eingabe in die Schnittstelle zur Erzeugung virtueller Avatare einschließen. Die Aufnahmesitzung kann einschließen: Aufnehmen eines Videosignals über die Kamera, welches zu einem Gesicht in einem Sichtfeld der Kamera gehört, Aufnehmen eines Audiosignals über das Mikrofon, welches zu dem aufgenommenen Videosignal gehört, Extrahieren von Audiomerkmals-Charakteristika aus dem aufgenommenen Audiosignal und Extrahieren von Gesichtsmerkmals-Charakteristika, die zu dem Gesicht gehören, aus dem aufgenommenen Videosignal. In manchen Beispielen können die Operationen außerdem ein Erzeugen eines angepassten Audiosignals, zumindest teilweise basierend auf den Audiomerkmals-Charakteristika und den Gesichtsmerkmals-Charakteristika, und ein Darstellen des zweiten Vorschauinhalts in der Schnittstelle zur Erzeugung virtueller Avatare einschließen, zumindest in Reaktion auf das Erfassen eines Ablaufs der Aufnahme sitzung.In some embodiments, an electronic device for implementing various audio and video effects techniques can be provided. The system may include a camera, microphone, library of pre-recorded / predetermined audio, and one or more processors in communication with the camera and microphone. In some examples, the processors can be configured to execute computer-executable instructions to perform operations. The operations may include detecting input to a virtual avatar creation interface while displaying a first preview of a virtual avatar. The operations may also include initiating a recording session including in response to capturing input to the virtual avatar creation interface. The recording session can include: recording via the camera a video signal which belongs to a face in a field of view of the camera, recording via the microphone an audio signal which corresponds to the recorded video signal, extracting audio feature characteristics from the recorded audio signal and extracting facial features -Characteristics associated with the face from the recorded video signal. In some examples, the operations may also include generating an adjusted audio signal based at least in part on the audio feature characteristics and the facial feature characteristics, and presenting the second preview content in the virtual avatar generation interface, at least in response to the detection of a flow the recording session.

In manchen Fällen kann das Audiosignal ferner zumindest teilweise basierend auf einem Typ des virtuellen Avatars angepasst werden. Zusätzlich kann der Typ des virtuellen Avatars zumindest teilweise basierend auf einer Auswahlmöglichkeit von Avatartypen empfangen werden, die in der Schnittstelle zur Erzeugung virtueller Avatare dargestellt wird. In manchen Fällen kann der Typ des virtuellen Avatars eine Tierart einschließen, und das angepasste Audiosignal kann zumindest teilweise basierend auf einem vorbestimmten Laut erzeugt werden, der zu der Tierart gehört. Die Verwendung und die Zeittaktung vorbestimmter Laute kann auf Audiomerkmalen aus den aufgenommenen Audio- und/oder Gesichtsmerkmalen aus dem aufgenommenen Video basieren. Dieser vorbestimmte Laut kann auch selbst modifiziert werden, basierend auf Audiomerkmalen aus den aufgenommenen Audio- und/oder Gesichtsmerkmalen aus dem aufgenommenen Video. In manchen Beispielen können der eine oder die mehreren Prozessoren ferner dafür konfiguriert sein, zu bestimmen, ob ein Teil des Audiosignals dem Gesicht in dem Sichtfeld entspricht. Zusätzlich kann gemäß einer Bestimmung, dass der Teil des Audiosignals dem Gesicht entspricht, der Teil des Audiosignals zur Verwendung beim Erzeugen des angepassten Audiosignals gespeichert werden und/oder gemäß einer Bestimmung, dass der Teil des Audiosignals nicht dem Gesicht entspricht, zumindest der Teil des Audiosignals verworfen werden und nicht für eine Modifikation und/oder ein Abspielen in Betracht gezogen werden. Zusätzlich können die Audiomerkmals-Charakteristika Merkmale einer Stimme umfassen, die zu dem Gesicht in dem Sichtfeld gehört. In manchen Beispielen können der eine oder die mehreren Prozessoren ferner dafür konfiguriert sein, Gesichtsmerkmals-Metadaten zu speichern, die zu den Gesichtsmerkmals-Charakteristika gehören, die aus dem Videosignal extrahiert werden. In manchen Beispielen können der eine oder die mehreren Prozessoren ferner dafür konfiguriert sein, Audiomerkmals-Metadaten zu speichern, die zu den Audiomerkmals-Charakteristika gehören, die aus dem Audiosignal extrahiert werden. Ferner können der eine oder die mehreren Prozessoren ferner dafür konfiguriert sein, angepasste Gesichtsmetadaten zu erzeugen, zumindest teilweise basierend auf den Gesichtsmerkmals-Charakteristika und den Audiomerkmals-Charakteristika, und die zweite Vorschau des virtuellen Avatars kann gemäß den angepassten Gesichtsmetadaten und dem angepassten Audiosignal erzeugt werden.In some cases, the audio signal can also be adjusted based at least in part on a type of the virtual avatar. In addition, the type of virtual avatar can be received based at least in part on a selection option of avatar types that is displayed in the interface for generating virtual avatars. In some cases, the type of virtual avatar may include an animal species, and the customized audio signal may be generated based at least in part on a predetermined sound associated with the animal species. The use and timing of predetermined sounds can be based on audio features from the recorded audio and / or facial features from the recorded video. This predetermined sound can also be modified itself based on audio features from the recorded audio and / or facial features from the recorded video. In some examples, the one or more processors may be further configured to determine whether a portion of the audio signal corresponds to the face in the field of view. Additionally, according to a determination that the part of the audio signal corresponds to the face, the part of the audio signal may be stored for use in generating the customized audio signal and / or according to a determination that the part of the audio signal does not correspond to the face, at least the part of the audio signal discarded and not considered for modification and / or playback. Additionally, the audio feature characteristics can include features of a voice associated with the face in the field of view. In some examples, the one or more processors may be further configured to store facial feature metadata associated with the facial feature characteristics extracted from the video signal. In some examples, the one or more processors may be further configured to store audio feature metadata associated with the audio feature characteristics extracted from the audio signal. Further, the one or more processors may be further configured to generate customized face metadata based at least in part on the facial feature characteristics and the audio feature characteristics, and the second preview of the virtual avatar may be generated according to the customized face metadata and the customized audio signal .

In manchen Ausführungsformen kann ein computerlesbares Medium bereitgestellt werden. Das computerlesbare Medium kann computerausführbare Anweisungen einschließen, die bei Ausführen durch einen oder mehrere Prozessoren bewirken, dass der eine oder die mehreren Prozessoren Operationen durchführen. Die Operationen können in Reaktion auf ein Erfassen einer Anforderung, einen Avatar-Videoclip eines virtuellen Avatars zu erzeugen, ein Durchführen der folgenden Handlungen einschließen: Aufnehmen eines Videosignals über eine Kamera einer elektronischen Vorrichtung, welches zu einem Gesicht in einem Sichtfeld der Kamera gehört, Aufnehmen eines Audiosignals über ein Mikrofon der elektronischen Vorrichtung, Extrahieren von Stimmenmerkmals-Charakteristika aus dem aufgenommenen Audiosignal und Extrahieren von Gesichtsmerkmals-Charakteristika, die zu dem Gesicht gehören, aus dem aufgenommenen Videosignal. Die Operationen können in Reaktion auf ein Erfassen einer Anforderung, eine Vorschau des Avatar-Videoclips zu sehen, zudem ein Durchführen der folgenden Handlungen einschließen: Erzeugen eines angepassten Audiosignals, zumindest teilweise basierend auf den Gesichtsmerkmals-Charakteristika und den Stimmenmerkmals-Charakteristika, und Anzeigen einer Vorschau des Videoclips des virtuellen Avatars unter Verwendung des angepassten Audiosignals.In some embodiments, a computer readable medium can be provided. The computer readable medium may include computer executable instructions that, when executed by one or more processors, cause the one or more processors to perform operations. The operations may include performing the following acts in response to detecting a request to create an avatar video clip of a virtual avatar: recording, via a camera of an electronic device, a video signal associated with a face in a field of view of the camera an audio signal through a microphone of the electronic device, extracting voice feature characteristics from the recorded audio signal, and extracting facial feature characteristics associated with the face from the recorded video signal. In response to detecting a request to preview the avatar video clip, the operations may also include performing the following acts: generating an adjusted audio signal based at least in part on the facial feature characteristics and the voice feature characteristics, and displaying a Preview the video clip of the virtual avatar using the customized audio signal.

In manchen Ausführungsformen kann das Audiosignal zumindest teilweise basierend auf einem Gesichtsausdruck angepasst werden, der in den Gesichtsmerkmals-Charakteristika identifiziert wird, die zu dem Gesicht gehören. In manchen Fällen kann das Audiosignal zumindest teilweise basierend auf einem Niveau, einer Stimmlage, einer Dauer, einem Format oder einer Veränderung in einer Stimmcharakteristik angepasst werden, die zu dem Gesicht gehört. Ferner können in manchen Ausführungsformen der eine oder die mehreren Prozessoren ferner dafür konfiguriert sein, die Operationen durchzuführen, umfassend ein Senden des Videoclips des virtuellen Avatars an eine andere elektronische Vorrichtung.In some embodiments, the audio signal may be based at least in part on a Facial expression identified in the facial feature characteristics associated with the face. In some cases, the audio signal may be adjusted based at least in part on a level, pitch, duration, format, or a change in a voice characteristic associated with the face. Further, in some embodiments, the one or more processors may be further configured to perform the operations including sending the video clip of the virtual avatar to another electronic device.

Die folgende detaillierte Beschreibung stellt zusammen mit den beigefügten Zeichnungen ein besseres Verständnis der Art und Vorteile der vorliegenden Offenbarung bereit.The following detailed description, together with the accompanying drawings, provides a better understanding of the nature and advantages of the present disclosure.

FigurenlisteFigure list

1 Figure 13 is a simplified block diagram illustrating an example flow for providing audio and / or video effects techniques as described herein according to at least one example.
2 Figure 13 is another simplified block diagram illustrating an example flow for providing audio and / or video effects techniques as described herein according to at least one example.
3 Figure 3 is another simplified block diagram illustrating hardware and software components for providing audio and / or video effects techniques as described herein according to at least one example.
4th FIG. 13 is a flow chart illustrating the provision of audio and / or video effects techniques as described herein, according to at least one example.
5 Figure 13 is another flow chart illustrating the provision of audio and / or video effects techniques as described herein, according to at least one example.
6th Figure 3 is a simplified block diagram illustrating a user interface for providing audio and / or video effects techniques as described herein, according to at least one example.
7th Figure 13 is another flow chart illustrating the provision of audio and / or video effects techniques as described herein, according to at least one example.
8th Figure 13 is another flow chart illustrating the provision of audio and / or video effects techniques as described herein, according to at least one example.
9 Figure 13 is a simplified block diagram illustrating a computer architecture for providing audio and / or video effects techniques as described herein, according to at least one example.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Bestimmte Ausführungsformen der vorliegenden Offenbarung beziehen sich auf Vorrichtungen, ein computerlesbares Medium und Verfahren zum Implementieren verschiedener Techniken zum Bereitstellen von Stimmeffekten (z. B. überarbeitetem Audio), welche zumindest teilweise auf Gesichtsausdrücken basieren. Zusätzlich können die verschiedenen Techniken in manchen Fällen auch Videoeffekte bereitstellen, welche zumindest teilweise auf Audiocharakteristika einer Aufzeichnung basieren. Ferner können die verschiedenen Techniken auch Stimmeffekte und Videoeffekte (z. B. zusammen) bereitstellen, die zumindest teilweise auf einem oder beiden von Gesichtsausdrücken und Audiocharakteristika einer Aufzeichnung basieren. In manchen Beispielen können die Stimmeffekte und/oder die Videoeffekte in einer Benutzerschnittstelle (UI) dargestellt werden, die dafür konfiguriert ist, eine Trickfilmdarstellung eines Benutzers anzuzeigen (z. B. einen Avatar oder eine digitale Puppe). Ein solcher Avatar, der einen Benutzer darstellt, kann als ein Animoji angesehen werden, da er wie ein Emoji-Zeichen aussehen kann, die den meisten Smartphone-Benutzern vertraut sind; er kann jedoch dazu animiert sein, tatsächliche Bewegungen des Benutzers nachzuahmen.Certain embodiments of the present disclosure relate to devices, a computer readable medium, and methods of implementing various techniques for providing voice effects (e.g., revised audio) based at least in part on facial expressions. Additionally, in some cases, the various techniques may also provide video effects based at least in part on audio characteristics of a recording. Further, the various techniques can also provide voice effects and video effects (e.g., together) based at least in part on one or both of facial expressions and audio characteristics of a recording. In some examples, the voice effects and / or the video effects may be presented in a user interface (UI) configured to display an animated film representation of a user (e.g., an avatar or a digital doll). Such an avatar representing a user can be thought of as an animoji because it can look like an emoji character that most smartphone users are familiar with; however, he can be animated to imitate actual movements of the user.

Zum Beispiel kann einem Benutzer einer Rechenvorrichtung eine UI zum Erzeugen eines Animoji-Videos (z. B. eines Videoclips) bereitgestellt werden. Der Videoclip kann auf eine vorbestimmte zeitliche Dauer begrenzt sein (z. B. 10 Sekunden, 30 Sekunden oder dergleichen) oder der Videoclip kann unbegrenzt sein. In der UI kann ein Vorschaubereich dem Benutzer eine Echtzeitrepräsentation seines Gesichts unter Verwendung einer Avatar-Figur darstellen. Es können verschiedene Avatar-Figuren bereitgestellt werden, und ein Benutzer kann sogar in der Lage sein, seinen eigenen Avatar zu erzeugen oder zu importieren. Der Vorschaubereich kann dafür konfiguriert sein, eine anfängliche Vorschau des Avatars und eine Vorschau des aufgezeichneten Videoclips bereitzustellen. Zusätzlich kann eine Vorschau des aufgezeichneten Videoclips in seiner Originalform (z. B. ohne jegliche Video- oder Audioeffekte) angesehen werden oder er kann mit Audio- und/oder Videoeffekten vorab angesehen werden. In manchen Fällen kann der Benutzer einen Avatar auswählen, nachdem der anfängliche Videoclip aufgezeichnet worden ist. Der Videoclip kann dann von einem Avatar zu einem anderen wechseln, wobei nach Bedarf die gleichen oder andere Videoeffekte darauf angewendet werden. Wenn zum Beispiel die Rohvorschau (z. B. die Originalform ohne Effekte) betrachtet wird und der Benutzer die Avatar-Figuren wechselt, kann die UI so aktualisiert werden, dass sie eine Darstellung desselben Videoclips anzeigt, jedoch mit dem neu ausgewählten Avatar. Mit anderen Worten können die Gesichtsmerkmale und das Audio (z. B. die Stimme des Benutzers), das während der Aufzeichnung aufgenommen wurde, von jedem der Avatare dargestellt werden (z. B. ohne jeden Effekt). In der Vorschau wird es so aussehen, als ob sich die Avatar-Figur auf dieselbe Weise bewegt, wie sich der Benutzer während der Aufzeichnung bewegt hat, und spricht, was der Benutzer während der Aufzeichnung gesprochen hat.For example, a user of a computing device may be provided with a UI for generating an Animoji video (e.g., a video clip). The video clip can be limited to a predetermined length of time (e.g., 10 seconds, 30 seconds, or the like) or the video clip can be unlimited. In the UI, a preview area can present the user with a real-time representation of his face using an avatar character. Different avatar characters can be provided and a user can even be able to create or import their own avatar. The preview area can be configured to provide an initial preview of the avatar and a preview of the recorded video clip. In addition, the recorded video clip can be previewed in its original form (e.g. without any video or audio effects) or it can be previewed with audio and / or video effects. In some cases, the user can select an avatar after the initial video clip has been recorded. The video clip can then switch from one avatar to another, using the same or different video effects on it as required be applied. For example, when viewing the raw preview (e.g., the original shape with no effects) and the user changes avatar characters, the UI can be updated to show a representation of the same video clip but with the newly selected avatar. In other words, the facial features and the audio (e.g. the user's voice) recorded during the recording can be represented by each of the avatars (e.g. without any effect). In the preview, it will appear as if the avatar character is moving in the same way as the user moved during the recording and speaks what the user said during the recording.

Beispielsweise kann ein Benutzer einen ersten Avatar (z. B. einen Kopf eines Einhorns) über die UI auswählen oder es kann anfänglich ein Standard-Avatar bereitgestellt werden. Die UI stellt den Avatar (in diesem Beispiel den Kopf eines Trickfilm-Einhorns, falls vom Benutzer ausgewählt, oder standardmäßig irgendeine andere verfügbare Puppe) in dem Vorschaubereich dar, und die Vorrichtung beginnt, Audio- und/oder Videoinformationen aufzunehmen (z. B. unter Verwendung eines oder mehrerer Mikrofone und/oder einer oder mehrerer Kameras). In manchen Fällen werden für den anfänglichen Vorschaubildschirm nur Videoinformationen benötigt. Die Videoinformationen können analysiert werden, und Gesichtsmerkmale können extrahiert werden. Diese extrahierten Gesichtsmerkmale können dann in Echtzeit auf das Einhorngesicht umgesetzt werden, so dass die anfängliche Vorschau des Einhornkopfs den des Benutzers zu spiegeln scheint. In manchen Fällen wird der Begriff „Echtzeit“ verwendet, um anzuzeigen, dass die Ergebnisse der Extraktion, Umsetzung, Darstellung und Präsentation in Reaktion auf die jeweilige Bewegung des Benutzers durchgeführt werden und im Wesentlichen unmittelbar dargestellt werden können. Für den Benutzer sieht es so aus, als ob er in den Spiegel schaut, außer dass das Bild seines Gesichts durch einen Avatar ersetzt ist.For example, a user can select a first avatar (e.g. a head of a unicorn) via the UI or a standard avatar can initially be provided. The UI displays the avatar (in this example, the head of a cartoon unicorn if selected by the user, or any other available doll by default) in the preview area and the device begins to record audio and / or video information (e.g. using one or more microphones and / or one or more cameras). In some cases, only video information is needed for the initial preview screen. The video information can be analyzed and facial features can be extracted. These extracted facial features can then be applied to the unicorn's face in real time so that the initial preview of the unicorn's head appears to mirror that of the user. In some cases, the term “real time” is used to indicate that the results of the extraction, rendering, rendering and presentation are performed in response to the user's movement and can be rendered essentially instantaneously. It appears to the user as if they are looking in the mirror, except that the image of their face is replaced with an avatar.

Obwohl sich das Gesicht des Benutzers in der Sichtlinie (z. B. dem Sichtfeld) einer Kamera der Vorrichtung befindet, stellt die UI weiter die anfängliche Vorschau dar. Nach dem Auswählen einer Aufzeichnungsmöglichkeit (z. B. einer virtuellen Taste) auf der UI kann die Vorrichtung beginnen, ein Video aufzunehmen, welches eine Audiokomponente aufweist. In manchen Beispielen schließt dies ein, dass eine Kamera Frames aufnimmt und ein Mikrofon Audioinformationen aufnimmt. Es kann eine Spezialkamera benutzt werden, welche auch fähig ist, 3-dimensionale (3D-) Informationen aufzunehmen. Zusätzlich kann in manchen Beispielen eine beliebige Kamera benutzt werden, welche fähig ist, ein Video aufzunehmen. Das Video kann in seiner Originalform gespeichert werden und/oder es können Metadaten gespeichert werden, die zu dem Video gehören. Somit kann sich das Aufnehmen der Video- und/oder Audioinformationen von dem Speichern der Informationen unterscheiden. Zum Beispiel kann das Aufnehmen der Informationen ein Erfassen der Informationen und zumindest Cache-Speichern derselben einschließen, so dass sie zur Verarbeitung verfügbar sind. Die verarbeiteten Daten können ebenfalls cache-gespeichert werden, bis bestimmt wird, ob die Daten gespeichert oder einfach benutzt werden sollen. Zum Beispiel können während der anfänglichen Vorschau, während das Gesicht des Benutzers als eine Puppe in Echtzeit dargestellt wird, die Videodaten (z. B. Metadaten, die zu den Daten gehören) cache-gespeichert werden, während sie auf die Puppe umgesetzt und dargestellt werden. Diese Daten müssen jedoch nicht dauerhaft gespeichert werden, so dass die anfängliche Vorschau nicht wiederverwendbar oder wiederherstellbar ist.Although the user's face is in the line of sight (e.g., the field of view) of a camera of the device, the UI still represents the initial preview. After selecting a recording option (e.g. a virtual button) on the UI the device begins to record a video which has an audio component. In some examples, this includes a camera capturing frames and a microphone capturing audio information. A special camera can be used, which is also able to record 3-dimensional (3D) information. Additionally, in some examples, any camera capable of capturing video can be used. The video can be saved in its original form and / or metadata associated with the video can be saved. Thus, the recording of the video and / or audio information can differ from the storage of the information. For example, taking the information may include capturing the information and at least caching it so that it is available for processing. The processed data can also be cached until it is determined whether the data should be saved or simply used. For example, during the initial preview, while the face of the user is being displayed as a doll in real time, the video data (e.g., metadata associated with the data) may be cached as it is being cast and displayed on the doll . However, this data does not need to be saved permanently, so the initial preview is not reusable or recoverable.

Alternativ können in manchen Beispielen, sobald der Benutzer die Aufzeichnungsmöglichkeit der UI auswählt, die Videodaten und die Audiodaten dauerhafter gespeichert werden. Auf diese Weise können die Audio- und Video(A/V)-Daten analysiert, verarbeitet usw. werden, um die hierin beschriebenen Audio- und Videoeffekte bereitzustellen. In manchen Beispielen können die Videodaten verarbeitet werden, um Gesichtsmerkmale (z. B. Gesichtsmerkmals-Charakteristika) zu extrahieren, und diese Gesichtsmerkmale können als Metadaten für den Animoji-Videoclip gespeichert werden. Der Metadatensatz kann mit einer Kennung (ID) gespeichert werden, welche die Zeit, das Datum und den Benutzer anzeigt, die zu dem Videoclip gehören. Zusätzlich können die Audiodaten mit derselben oder einer anderen ID gespeichert werden. Sobald sie gespeichert sind, oder in manchen Beispielen vor der Speicherung, kann das System (z. B. Prozessoren der Vorrichtung) Audiomerkmals-Charakteristika aus den Audiodaten und Gesichtsmerkmals-Charakteristika aus der Videodatei extrahieren. Diese Informationen können benutzt werden, um Kontext, Schlüsselwörter, Intentionen und/oder Emotionen des Benutzers zu identifizieren, und Video- und Audioeffekte können in Audio- und Videodaten eingefügt werden, bevor die Puppe dargestellt wird. In manchen Beispielen kann das Audiosignal so angepasst werden, dass es andere Wörter, Laute, Töne, Stimmlagen, Zeittaktungen usw. einschließt, zumindest teilweise basierend auf den extrahierten Merkmalen. Zusätzlich können in manchen Beispielen auch die Videodaten (z. B. die Metadaten) angepasst werden. In manchen Beispielen werden während der Vorschau selbst Audiomerkmale in Echtzeit extrahiert. Diese Audiomerkmale können Avatarspezifisch sein und nur erzeugt werden, wenn eine Vorschau des zugehörigen Avatars angesehen wird. Die Audiomerkmale können Avatar-unabhängig sein und für alle Avatare erzeugt werden. Das Audiosignal kann auch teilweise basierend auf diesen Echtzeit-Audiomerkmalsextraktionen und mit den vorab gespeicherten extrahierten Videomerkmalen angepasst werden, welche während oder nach dem Aufzeichnungsprozess, aber vor dem Ansehen der Vorschau erzeugt werden.Alternatively, in some examples, once the user selects the UI to record, the video and audio may be saved more permanently. In this manner, the audio and video (A / V) data can be analyzed, processed, etc. to provide the audio and video effects described herein. In some examples, the video data can be processed to extract facial features (e.g., facial feature characteristics) and these facial features can be saved as metadata for the Animoji video clip. The metadata set can be stored with an identifier (ID) indicating the time, date and user associated with the video clip. In addition, the audio data can be saved with the same or a different ID. Once saved, or in some examples prior to saving, the system (e.g., processors of the device) may extract audio feature characteristics from the audio data and facial feature characteristics from the video file. This information can be used to identify context, keywords, intentions, and / or emotions of the user, and video and audio effects can be incorporated into audio and video data before the doll is displayed. In some examples, the audio signal can be adjusted to include other words, sounds, tones, voices, timings, etc. based at least in part on the extracted features. In addition, the video data (e.g. the metadata) can also be adjusted in some examples. In some examples, audio features are extracted in real time during the preview itself. These audio features can be avatar-specific and can only be generated when a preview of the associated avatar is viewed. The audio features can be avatar-independent and can be generated for all avatars. The audio signal can also be based in part on these real-time audio feature extractions and with the pre-stored extracted video features generated during or after the recording process, but before viewing the preview.

Sobald die Video- und Audiodaten angepasst worden sind, zumindest teilweise basierend auf den extrahierten Charakteristika, kann eine zweite Vorschau der Puppe dargestellt werden. Diese Darstellung kann für jede mögliche Puppe durchgeführt werden, so dass, wenn der Benutzer durch verschiedene Puppen scrollt und verschiedene Puppen auswählt, die angepassten Daten bereits dargestellt werden. Oder die Darstellung kann nach der Auswahl der jeweiligen Puppe erfolgen. In jedem Fall kann die zweite Vorschau dargestellt werden, sobald der Benutzer eine Puppe auswählt. In der zweiten Vorschau wird der Videoclip abgespielt, der durch den Benutzer aufgezeichnet wurde, jedoch mit dem angepassten Audio und/oder Video. Wenn der Benutzer in dem obigen Beispiel sich selbst mit einem verärgerten Ton aufgezeichnet hat (z. B. mit einer barschen Stimme und einer gerunzelten Augenbraue), kann der Kontext oder die Intention von Zorn erfasst werden und die Audiodatei kann so angepasst werden, dass sie einen knurrenden Laut einschließt. Somit sieht die zweite Vorschau wie ein Einhorn aus, welches die Wörter spricht, die der Benutzer gesprochen hat; jedoch kann die Stimme des Benutzers so angepasst werden, dass sie wie ein Knurren klingt oder dass der Ton mehr einem Bariton entspricht (z. B. tiefer ist). Der Benutzer könnte dann die zweite Vorschau speichern oder zum Senden an einen anderen Benutzer auswählen (z. B. durch eine Nachrichtenanwendung oder dergleichen). In manchen Beispielen können die nachstehenden und die vorstehenden Animoji-Videoclips als .mov-Dateien geteilt werden. In anderen Beispielen jedoch können die beschriebenen Techniken in Echtzeit verwendet werden (z. B. mit Videonachrichten oder dergleichen).Once the video and audio data have been adjusted, based at least in part on the extracted characteristics, a second preview of the doll can be displayed. This display can be performed for each possible doll, so that when the user scrolls through different dolls and selects different dolls, the adjusted data is already presented. Or the representation can take place after the selection of the respective doll. In any case, the second preview can be displayed as soon as the user selects a doll. The second preview plays the video clip that was recorded by the user, but with the adjusted audio and / or video. In the example above, if the user recorded themselves with an annoyed tone (e.g., a harsh voice and a furrowed eyebrow), the context or intention of anger can be grasped and the audio file can be adjusted to match includes a growling sound. Thus the second preview looks like a unicorn speaking the words the user spoke; however, the user's voice can be adjusted to sound like a growl or to sound more like a baritone (e.g., lower). The user could then save the second preview or select it to be sent to another user (e.g., through a messaging application or the like). In some examples, the Animoji video clips below and above can be shared as .mov files. However, in other examples, the techniques described may be used in real time (e.g., with video messaging or the like).

1 ist ein vereinfachtes Blockschaubild, welches einen Beispielablauf 100 zum Bereitstellen von Audio- und/oder Videoeffekten veranschaulicht, zumindest teilweise basierend auf Audio- und/oder Videomerkmalen, die in einer Aufzeichnung eines Benutzers erfasst werden. In dem Beispielablauf 100 gibt es zwei getrennte Sitzungen: eine Aufzeichnungssitzung 102 und eine Ab spiel sitzung 104. In der Aufzeichnungssitzung 102 kann die Vorrichtung 106 in Block 110 ein Video aufnehmen, welches eine Audiokomponente eines Benutzers 108 aufweist. In manchen Beispielen können das Video und das Audio unter Verwendung von zwei verschiedenen Vorrichtungen (z. B. einem Mikrofon und einer Kamera) getrennt aufgenommen (z. B. zusammengestellt) werden. Das Aufnehmen des Videos und des Audios kann zumindest teilweise basierend auf einer Auswahl einer Aufzeichnungsmöglichkeit durch den Benutzer 108 ausgelöst werden. In manchen Beispielen kann der Benutzer 108 in Block 112 das Wort „Hallo“ sprechen. Zusätzlich kann die Vorrichtung 106 in dem Block 112 weiter die Video- und/oder Audiokomponenten der Handlungen des Benutzers aufnehmen. In Block 114 kann die Vorrichtung 106 weiter die Video- und/oder Audiokomponenten aufnehmen, und in diesem Beispiel kann der Benutzer 108 das Wort „Bellen“ sprechen. In dem Block 114 kann die Vorrichtung 106 außerdem gesprochene Wörter aus den Audioinformationen extrahieren. In anderen Beispielen jedoch kann die Extraktion gesprochener Wörter (oder eine beliebige Extraktion von Audiomerkmalen) tatsächlich stattfinden, nachdem die Aufzeichnungssitzung 102 abgeschlossen ist. In anderen Beispielen kann die Extraktion gesprochener Wörter (oder eine beliebige Extraktion von Audiomerkmalen) tatsächlich in Echtzeit während des Vorschaublocks 124 stattfinden. Es ist auch möglich, dass die Extraktion (z. B. die Analyse des Audios) in Echtzeit erfolgt, während die Aufzeichnungssitzung 102 noch fortgesetzt wird. In jedem Fall kann in dem Avatarprozess, der von der Vorrichtung 106 ausgeführt wird, durch die Extraktion identifiziert werden, dass der Benutzer das Wort „Bellen“ gesprochen hat, und es kann eine Logik angewendet werden, um zu bestimmen, welche Audioeffekte zu implementieren sind. 1 is a simplified block diagram showing an example flow 100 illustrated for providing audio and / or video effects based at least in part on audio and / or video characteristics captured in a recording of a user. In the example process 100 there are two separate sessions: a recording session 102 and a playing session 104 . In the recording session 102 can the device 106 in block 110 record a video, which is an audio component of a user 108 having. In some examples, the video and audio may be recorded (e.g., compiled) separately using two different devices (e.g., a microphone and a camera). The recording of the video and audio may be based at least in part on a selection of a recording option by the user 108 to be triggered. In some examples, the user can 108 in block 112 speak the word "hello". In addition, the device 106 in the block 112 further record the video and / or audio components of the user's actions. In block 114 can the device 106 continue to record the video and / or audio components, and in this example the user can 108 speak the word "bark". In the block 114 can the device 106 also extract spoken words from the audio information. However, in other examples, spoken word extraction (or any extraction of audio features) may actually take place after the recording session 102 is completed. In other examples, spoken word extraction (or any extraction of audio features) can actually be performed in real time during the preview block 124 occur. It is also possible that the extraction (e.g. analyzing the audio) takes place in real time during the recording session 102 is still going on. In either case, in the avatar process initiated by the device 106 is performed, the extraction identifies that the user has spoken the word "bark" and logic can be applied to determine which audio effects to implement.

Beispielsweise kann die Aufzeichnungssitzung 102 enden, wenn der Benutzer 108 erneut die Aufzeichnungsmöglichkeit wählt (was z. B. einen Wunsch anzeigt, die Aufzeichnung zu beenden), eine Aufzeichnungsbeendigungsmöglichkeit wählt (z. B. kann die Aufzeichnungsmöglichkeit während des Aufzeichnens als eine Aufzeichnungsbeendigungsmöglichkeit fungieren) oder zumindest teilweise basierend auf dem Ablauf einer Zeitperiode (z. B. 10 Sekunden, 30 Sekunden oder dergleichen). In manchen Fällen kann diese Zeitperiode automatisch vorbestimmt werden, während sie in anderen Fällen vom Benutzer gewählt werden kann (z. B. aus einer Liste von Optionen ausgewählt werden kann oder über eine Texteingabe-Schnittstelle in freier Form eingegeben werden kann). Sobald die Aufzeichnung beendet ist, kann der Benutzer 108 eine Vorschaumöglichkeit auswählen, wodurch angezeigt wird, dass sich der Benutzer 108 eine Vorschau der Aufzeichnung ansehen möchte. Eine Option könnte es sein, die Originalaufzeichnung ohne visuelle Effekte oder Audioeffekte abzuspielen. Eine andere Option könnte es jedoch sein, eine überarbeitete Version des Videoclips abzuspielen. Zumindest teilweise basierend auf der Erfassung des gesprochenen Worts „Bellen“ kann es sein, dass das Audio und/oder das Video des Videoclips in dem Avatarprozess überarbeitet worden sind.For example, the recording session 102 end when the user 108 re-selects the record option (e.g. indicating a desire to end recording), chooses a record stop option (e.g., the record option may act as a record stop option while recording), or based at least in part on the expiration of a period of time (e.g. B. 10 seconds, 30 seconds or the like). In some cases this time period can be automatically predetermined, while in other cases it can be selected by the user (e.g. can be selected from a list of options or can be entered in free form via a text input interface). Once the recording is finished, the user can 108 Select a preview option, which indicates that the user is 108 preview the recording. One option could be to play the original recording without any visual or audio effects. However, another option could be to play a revised version of the video clip. Based at least in part on the detection of the spoken word “bark”, the audio and / or video of the video clip may have been revised in the avatar process.

In Block 116 kann die Vorrichtung 106 einen Avatar (auch als eine Puppe und/oder ein Animoji bezeichnet) 118 auf einem Bildschirm darstellen. Die Vorrichtung 106 kann auch mit einem Lautsprecher 120 konfiguriert sein, welcher ein Audio abspielen kann, das zu dem Videoclip gehört. In diesem Beispiel entspricht der Block 116 demselben Zeitpunkt wie der Block 110, zu dem der Benutzer 108 seinen Mund geöffnet haben konnte, aber noch nicht gesprochen hat. Daher kann der Avatar 118 mit geöffnetem Mund dargestellt sein; jedoch wird vom Lautsprecher 120 noch kein Audio dargestellt. In Block 122, der dem Block 112 entspricht, in dem der Benutzer 108 „Hallo“ gesprochen hat, kann der Avatar 118 in dem Avatarprozess mit einer Avatar-spezifischen Stimme dargestellt werden. Mit anderen Worten kann in dem Block 122 eine vorab definierte Hundestimme verwendet werden, um das Wort „Hallo“ zu sprechen. Das Hundestimmenwort „Hallo“ kann durch den Lautsprecher 120 dargestellt werden. Wie nachstehend noch detaillierter beschrieben wird, ist eine Vielfalt verschiedener Tier-Avatare (und Avatare anderer Figuren) zur Auswahl durch den Benutzer 108 verfügbar. In manchen Beispielen kann zu jedem Avatar eine bestimmte vorab definierte Stimme gehören, die am besten zu diesem Avatar passt. Zum Beispiel kann ein Hund eine Hundestimme aufweisen, eine Katze kann eine Katzenstimme aufweisen, ein Schwein kann eine Schweinestimme aufweisen und ein Roboter kann eine Roboterstimme aufweisen. Diese Avatar-spezifischen Stimmen können vorab aufgezeichnet sein oder können mit bestimmten Frequenz- oder Audioumwandlungen verbunden sein, die erfolgen können, indem mathematische Operationen an dem Originallaut durchgeführt werden, so dass die Stimme jedes Benutzers so umgewandelt werden kann, dass sie wie die Hundestimme klingt. Jedoch kann die Hundestimme jedes Benutzers anders klingen, zumindest teilweise basierend auf der bestimmten durchgeführten Audioumwandlung.In block 116 can the device 106 display an avatar (also referred to as a doll and / or an animoji) 118 on a screen. The device 106 can also use a speaker 120 configured to play audio associated with the video clip. In this example, the block corresponds to 116 same point in time as the block 110 to which the user 108 could have opened his mouth but has not yet spoken. Hence the avatar can 118 be shown with his mouth open; however, is from the speaker 120 no audio shown yet. In block 122 that the block 112 corresponds to where the user 108 “Hello” can be said by the avatar 118 are represented in the avatar process with an avatar-specific voice. In other words, in the block 122 a pre-defined dog's voice can be used to say the word "hello". The dog voice word "Hello" can through the loudspeaker 120 being represented. As will be described in greater detail below, a variety of different animal avatars (and avatars of other characters) are available for selection by the user 108 available. In some examples, each avatar may have a specific pre-defined voice that best fits that avatar. For example, a dog can have a dog's voice, a cat can have a cat's voice, a pig can have a pig's voice, and a robot can have a robotic voice. These avatar-specific voices may be prerecorded or may be associated with certain frequency or audio conversions that can be done by performing mathematical operations on the original sound so that each user's voice can be converted to sound like the dog's voice . However, each user's dog voice may sound different based at least in part on the particular audio conversion performed.

In Block 124 kann der Avatarprozess das gesprochene Wort (z. B. „Bellen“) durch ein Avatar-spezifisches Wort ersetzen. In diesem Beispiel kann der Laut eines Hundebellens (z. B. ein aufgezeichnetes oder simuliertes Hundebellen) in die Audiodaten eingefügt werden (z. B. anstelle des Worts „Bellen“), so dass, wenn sie während der Darstellung des Videoclips abgespielt werden, von dem Lautsprecher 120 ein „Wuff“ dargestellt wird. In manchen Beispielen werden bei 124 verschiedene Avatar-spezifische Wörter dargestellt, zumindest teilweise basierend auf der Auswahl verschiedener Avatare, und in anderen Beispielen kann dasselbe Avatar-spezifische Wort dargestellt werden, ungeachtet der Auswahl des Avatars. Wenn zum Beispiel der Benutzer 108 „Bellen“ gesprochen hat, könnte ein „Wuff“ dargestellt werden, wenn der Hunde-Avatar ausgewählt ist. Wenn jedoch in demselben Fall der Benutzer 108 später für denselben Ablauf den Katzen-Avatar ausgewählt hat, gibt es einige Optionen für das Überarbeiten des Audios. In einem Beispiel könnte durch den Prozess das „Bellen“ in ein „Wuff“ umgewandelt werden, auch wenn ein „Wuff“ für eine Katze nicht passend wäre. In einem anderen Beispiel könnte durch den Prozess „Bellen“ in ein aufgezeichnetes oder simuliertes „Miau“ umgewandelt werden, zumindest teilweise basierend auf der Auswahl des Katzen-Avatars. Und in noch einem anderen Beispiel könnte durch den Prozess das „Bellen“ für andere Avatare als den Hunde-Avatar ignoriert werden. Somit kann es eine zweite Stufe einer Audiomerkmalsanalyse geben, die sogar nach der Extraktion bei 114 durchgeführt wird. Video- und Audiomerkmale können auch die Verarbeitung der Avatar-spezifischen Äußerungen beeinflussen. Zum Beispiel können die Stärke und die Stimmlage und die Intonation, mit denen ein Benutzer „Bellen“ ausspricht, als Teil der Audiomerkmalsextraktion erfasst werden, und dies kann das System dazu bringen, ein spezielles „Wuff“-Sample auszuwählen oder ein solches Sample vor und/oder während des Vorschauprozesses umzuwandeln.In block 124 the avatar process can replace the spoken word (e.g. "bark") with an avatar-specific word. In this example, the sound of a dog barking (e.g. a recorded or simulated dog bark) can be inserted into the audio (e.g. in place of the word "bark") so that if it is played while the video clip is being displayed, from the speaker 120 a "woof" is represented. In some examples, different avatar-specific words are displayed at 124 based at least in part on the selection of different avatars, and in other examples the same avatar-specific word may be displayed regardless of the selection of the avatar. For example, if the user 108 "Bark" has spoken, a "woof" could be displayed when the dog avatar is selected. However, if in the same case the user 108 If you later selected the cat avatar for the same process, there are a few options for reworking the audio. In one example, the process could convert the "bark" into a "woof" even if a "woof" would not be appropriate for a cat. In another example, the process could convert "bark" into a recorded or simulated "meow" based at least in part on the selection of the cat avatar. And in yet another example, the process could ignore the "bark" for avatars other than the canine avatar. Thus, there may be a second stage of audio feature analysis that is performed at 114 even after the extraction. Video and audio features can also influence the processing of the avatar-specific utterances. For example, the strength and pitch of the voice and intonation with which a user pronounces “bark” can be detected as part of the audio feature extraction, and this can cause the system to select a particular “woof” sample, or such a sample before and / or convert during the preview process.

2 ist ein weiteres vereinfachtes Blockschaubild, welches einen Beispielablauf 200 zum Bereitstellen von Audio- und/oder Videoeffekten veranschaulicht, zumindest teilweise basierend auf Audio- und/oder Videomerkmalen, die in einer Aufzeichnung eines Benutzers erfasst werden. In dem Beispielablauf 200 gibt es, sehr wie in dem Beispielablauf 100 der 1, zwei getrennte Sitzungen: eine Aufzeichnungssitzung 202 und eine Abspielsitzung 204. In der Aufzeichnungssitzung 202 kann eine Vorrichtung 206 in Block 210 ein Video aufnehmen, welches eine Audiokomponente des Benutzers 208 aufweist. Das Aufnehmen des Videos und des Audios kann zumindest teilweise basierend auf einer Auswahl einer Aufzeichnungsmöglichkeit durch den Benutzer 208 ausgelöst werden. In manchen Beispielen kann der Benutzer 208 in Block 212 das Wort „Hallo“ sprechen. Zusätzlich kann die Vorrichtung 206 in dem Block 212 weiter die Video- und/oder Audiokomponenten der Handlungen des Benutzers aufnehmen. In Block 214 kann die Vorrichtung 206 weiter die Video- und/oder Audiokomponenten aufnehmen, und in diesem Beispiel kann der Benutzer 208 seinen Mund offen halten, aber nichts sprechen. In dem Block 214 kann die Vorrichtung 206 außerdem Gesichtsausdrücke aus dem Video extrahieren. In anderen Beispielen jedoch kann die Gesichtsmerkmalsextraktion (oder eine beliebige Extraktion von Videomerkmalen) tatsächlich stattfinden, nachdem die Aufzeichnungssitzung 202 abgeschlossen ist. Es ist immer noch möglich, dass die Extraktion (z. B. die Analyse des Videos) in Echtzeit erfolgt, während die Aufzeichnungssitzung 202 noch fortgesetzt wird. In jedem Fall kann in dem Avatarprozess, der von der Vorrichtung 206 ausgeführt wird, durch die Extraktion identifiziert werden, dass der Benutzer kurz seinen Mund geöffnet hat (z. B. ohne irgendetwas zu sprechen), und es kann eine Logik angewendet werden, um zu bestimmen, welche Audio- und/oder Videoeffekte zu implementieren sind. In manchen Beispielen kann die Bestimmung, dass der Benutzer seinen Mund offen gehalten hat, ohne etwas zu sprechen, eine Extraktion und Analyse sowohl eines Audios als auch eines Videos erforderlich machen. Zum Beispiel kann eine Extraktion der Gesichtsmerkmals-Charakteristika (z. B. offener Mund) nicht ausreichend sein, und es kann auch erforderlich sein, dass in dem Prozess erfasst wird, dass der Benutzer 208 während derselben Zeitperiode der Aufzeichnung nichts gesprochen hat. Video- und Audiomerkmale können auch die Verarbeitung der Avatar-spezifischen Äußerungen beeinflussen. Zum Beispiel können die Dauer des Öffnens des Mundes, ein Öffnen der Augen usw. das System dazu bringen, ein spezielles „Wuff”-Sample auszuwählen oder ein solches Sample vor dem und/oder während des Vorschauprozesses umzuwandeln. Eine solche Umwandlung ändert die Stärke und/oder die Dauer des Wuff derart, dass es zu dem erfassten Öffnen und Schließen des Mundes des Benutzers passt. 2 is another simplified block diagram showing an example flow 200 illustrated for providing audio and / or video effects based at least in part on audio and / or video characteristics captured in a recording of a user. In the example process 200 is there, much like in the sample flow 100 the 1 , two separate sessions: a recording session 202 and a playback session 204 . In the recording session 202 can be a device 206 in block 210 record a video which is an audio component of the user 208 having. The recording of the video and audio may be based at least in part on a selection of a recording option by the user 208 to be triggered. In some examples, the user can 208 in block 212 speak the word "hello". In addition, the device 206 in the block 212 further record the video and / or audio components of the user's actions. In block 214 can the device 206 continue to record the video and / or audio components, and in this example the user can 208 keep your mouth open but don't speak. In the block 214 can the device 206 also extract facial expressions from the video. However, in other examples, facial feature extraction (or any extraction of video features) may actually take place after the recording session 202 is completed. It is still possible for the extraction (e.g. analyzing the video) to be done in real time during the recording session 202 is still going on. In either case, in the avatar process initiated by the device 206 is performed, the extraction identifies that the user has briefly opened his mouth (e.g., without speaking anything) and logic can be applied to determine what audio and / or video effects to implement . In some examples, the determination that the user kept his mouth open without speaking, requiring extraction and analysis of both an audio and a video. For example, extraction of the facial feature characteristics (e.g. open mouth) may not be sufficient, and it may also be necessary that the user is detected in the process 208 did not speak during the same time period of the recording. Video and audio features can also influence the processing of the avatar-specific utterances. For example, the duration of the opening of the mouth, opening of the eyes, etc. may cause the system to select a particular "woof" sample or to convert such a sample before and / or during the preview process. Such conversion alters the strength and / or duration of the woof to match the sensed opening and closing of the user's mouth.

Beispielsweise kann die Aufzeichnungssitzung 202 enden, wenn der Benutzer 208 erneut die Aufzeichnungsmöglichkeit wählt (was z. B. einen Wunsch anzeigt, die Aufzeichnung zu beenden), eine Aufzeichnungsbeendigungsmöglichkeit wählt (z. B. kann die Aufzeichnungsmöglichkeit während des Aufzeichnens als eine Aufzeichnungsbeendigungsmöglichkeit fungieren) oder zumindest teilweise basierend auf einem Ablauf einer Zeitperiode (z. B. 20 Sekunden, 30 Sekunden oder dergleichen). Sobald die Aufzeichnung beendet ist, kann der Benutzer 208 eine Vorschaumöglichkeit auswählen, wodurch angezeigt wird, dass sich der Benutzer 208 eine Vorschau der Aufzeichnung ansehen möchte. Eine Option könnte es sein, die Originalaufzeichnung ohne visuelle Effekte oder Audioeffekte abzuspielen. Eine andere Option könnte es jedoch sein, eine überarbeitete Version der Aufzeichnung abzuspielen. Zumindest teilweise basierend auf der Erfassung des Gesichtsausdrucks (z. B. des offenen Mundes) kann es sein, dass das Audio und/oder das Video des Videoclips durch den Avatarprozess überarbeitet worden sind.For example, the recording session 202 end when the user 208 re-selects the record option (e.g. indicating a desire to end recording), selects a record stop option (e.g. the record option may act as a record stop option while recording), or based at least in part on a lapse of time (e.g. B. 20 seconds, 30 seconds or the like). Once the recording is finished, the user can 208 Select a preview option, which indicates that the user is 208 preview the recording. One option could be to play the original recording without any visual or audio effects. However, another option could be to play a revised version of the recording. Based at least in part on the detection of the facial expression (e.g., the open mouth), the audio and / or video of the video clip may have been revised by the avatar process.

In Block 216 kann die Vorrichtung 206 einen Avatar (auch als eine Puppe und/oder ein Animoji bezeichnet) 218 auf einem Bildschirm der Vorrichtung 206 darstellen. Die Vorrichtung 206 kann auch mit einem Lautsprecher 220 konfiguriert sein, welcher ein Audio abspielen kann, das zu dem Videoclip gehört. In diesem Beispiel entspricht der Block 216 demselben Zeitpunkt wie der Block 210, zu dem der Benutzer 208 möglicherweise noch nicht gesprochen hat. Daher kann der Avatar 218 mit geöffnetem Mund dargestellt sein; jedoch wird von dem Lautsprecher 220 noch kein Audio dargestellt. In Block 222, der dem Block 212 entspricht, in dem der Benutzer 208 „Hallo“ gesprochen hat, kann der Avatar 218 in dem Avatarprozess mit einer Avatar-spezifischen Stimme dargestellt werden (wie vorstehend beschrieben).In block 216 can the device 206 an avatar (also known as a doll and / or an animoji) 218 on a screen of the device 206 represent. The device 206 can also use a speaker 220 configured to play audio associated with the video clip. In this example, the block corresponds to 216 same point in time as the block 210 to which the user 208 may not have spoken yet. Hence the avatar can 218 be shown with his mouth open; however, is from the speaker 220 no audio shown yet. In block 222 that the block 212 corresponds to where the user 208 “Hello” can be said by the avatar 218 are represented in the avatar process with an avatar-specific voice (as described above).

In Block 224 kann der Avatarprozess die in dem Block 214 identifizierte Stille durch ein Avatar-spezifisches Wort ersetzen. In diesem Beispiel kann der Laut eines Hundebellens (z. B. ein aufgezeichnetes oder simuliertes Hundebellen) in die Audiodaten eingefügt werden (z. B. anstelle der Stille), so dass, wenn sie während der Darstellung des Videoclips abgespielt werden, von dem Lautsprecher 220 ein „Wuff“ dargestellt wird. In manchen Beispielen werden bei 224 verschiedene Avatar-spezifische Wörter dargestellt, zumindest teilweise basierend auf der Auswahl verschiedener Avatare, und in anderen Beispielen kann dasselbe Avatar-spezifische Wort ungeachtet der Auswahl des Avatars dargestellt werden. Wenn zum Beispiel der Benutzer 208 seinen Mund offen gehalten hat, könnte ein „Wuff“ dargestellt werden, wenn der Hunde-Avatar ausgewählt ist, ein „Miau“-Laut könnte für einen Katzen-Avatar dargestellt werden usw. In manchen Fällen kann jeder Avatar einen vorab definierten Laut aufweisen, das abzuspielen ist, wenn erfasst wird, dass der Benutzer 208 seinen Mund eine bestimmte Zeit (z. B. eine halbe Sekunde, eine ganze Sekunde usw.) lang offen gehalten hat, ohne zu sprechen. In manchen Beispielen könnte der Prozess jedoch die Erfassung des geöffneten Mundes für Avatare ignorieren, die keinen vorab definierten Effekt für diesen Gesichtsausdruck aufweisen. Zusätzlich kann es eine zweite Stufe einer Audiomerkmalsanalyse geben, die sogar nach der Extraktion bei 214 durchgeführt wird. Wenn zum Beispiel in dem Prozess bestimmt wird, dass ein „Wuff“ für einen Hunde-Avatar einzufügen ist (z. B. basierend auf einer Erfassung des geöffneten Mundes), kann der Prozess auch erfassen, wie viele „Wuff“-Laute einzufügen sind (wenn z. B. der Benutzer seinen Mund für die doppelte Länge der Zeit geöffnet gehalten hat, die verwendet wird, um ein Bellen anzuzeigen), oder ob es nicht möglich ist, die Anzahl der angeforderten Belllaute einzufügen (z. B. in dem Szenario der 1, wobei der Benutzer „Bellen“ spricht, um anzuzeigen, dass ein „Wuff“-Laut eingefügt werden sollte. Somit sollte es basierend auf den vorstehenden zwei Beispielen ersichtlich sein, dass der Benutzer 208 Effekte des Abspielens (z. B. die aufgezeichnete Avatar-Nachricht) mit seinem Gesichtsausdruck und seinem stimmlichen Ausdruck steuern kann. Ferner kann die Benutzervorrichtung, obwohl in 1 oder 2 nicht ausdrücklich gezeigt, mit Software zum Ausführen des Avatarprozesses (z. B. Aufnehmen der A/V-Informationen, Extrahieren von Merkmalen, Analysieren der Daten, Implementieren der Logik, Überarbeiten der Audio- und/oder Videodateien und Darstellen der Vorschauen) sowie mit Software zum Ausführen einer Anwendung (z. B. einer Avatar-Anwendung mit ihrer eigenen UI) konfiguriert sein, welche ermöglicht, dass der Benutzer die Avatar-Nachrichten bildet und sie anschließend an andere Benutzervorrichtungen sendet.In block 224 can the avatar process those in the block 214 replace identified silence with an avatar-specific word. In this example, the sound of a dog barking (e.g. a recorded or simulated dog barking) may be inserted into the audio (e.g. in place of the silence) so that if it is played while the video clip is being displayed, it will be heard from the speaker 220 a "woof" is represented. In some examples, different avatar-specific words are displayed at 224 based at least in part on the selection of different avatars, and in other examples the same avatar-specific word may be displayed regardless of the selection of the avatar. For example, if the user 208 has kept his mouth open, a "woof" could be displayed if the dog avatar is selected, a "meow" sound could be displayed for a cat avatar, etc. In some cases each avatar can have a predefined sound, that is to play when it is detected that the user 208 has held his or her mouth open for a period of time (e.g. half a second, a whole second, etc.) without speaking. However, in some examples, the process could ignore the open mouth detection for avatars that do not have a predefined effect on that facial expression. In addition, there can be a second stage audio feature analysis that even after the extraction is performed 214 is carried out. For example, if the process determines that a "woof" is to be inserted for a dog avatar (e.g. based on an open mouth detection), the process may also determine how many "woof" sounds to insert (e.g. if the user has kept their mouth open for twice the length of time used to indicate a bark), or if it is not possible to insert the number of bells requested (e.g. in the Scenario of 1 , where the user speaks "bark" to indicate that a "woof" sound should be inserted. Thus, based on the above two examples, it should be apparent that the user 208 Can control effects of the playback (e.g. the recorded avatar message) with his facial expression and his vocal expression. Furthermore, although shown in FIG 1 or 2 not expressly shown, with software for performing the avatar process (e.g. recording the A / V information, extracting features, analyzing the data, implementing the logic, revising the audio and / or video files, and displaying the previews), as well as with Software may be configured to run an application (e.g., an avatar application with its own UI) which enables the user to form the avatar messages and then send them to other user devices.

3 ist ein vereinfachtes Blockschaubild 300, welches Komponenten (z. B. Software-Module) veranschaulicht, die bei dem vorstehend und nachstehend beschriebenen Avatarprozess benutzt werden. In manchen Beispielen können mehr oder weniger Module benutzt werden, um das Bereitstellen von Audio- und/oder Videoeffekten zu implementieren, zumindest teilweise basierend auf Audio- und/oder Videomerkmalen, die in einer Aufzeichnung eines Benutzers erfasst werden. In manchen Beispielen kann die Vorrichtung 302 mit einer Kamera 304, einem Mikrofon 306 und einem Anzeigebildschirm zum Darstellen einer UI und der Avatar-Vorschauen (z. B. der anfänglichen Vorschau vor dem Aufzeichnen sowie der Vorschau des Aufzeichnens vor dem Senden) konfiguriert sein. In manchen Beispielen ist der Avatarprozess mit einer Avatarmaschine 308 und einer Stimmenmaschine 310 konfiguriert. Die Avatarmaschine 308 kann die Liste von Avatars verwalten, die Videomerkmale (z. B. die Gesichtsmerkmals-Charakteristika) verarbeiten, die Videoinformationen überarbeiten, mit der Stimmenmaschine 301 kommunizieren, wenn dies angezeigt ist, und ein Video des Avatars 312 darstellen, wenn die gesamte Verarbeitung abgeschlossen ist und die Effekte implementiert (oder verworfen) worden sind. Das Überarbeiten der Videoinformationen kann ein Anpassen oder anderweitiges Editieren der Metadaten einschließen, die zu der Videodatei gehören. Auf diese Weise können, wenn die Videometadaten (angepasst oder nicht) verwendet werden, um die Puppe darzustellen, die Gesichtsmerkmale auf die Puppe umgesetzt werden. In manchen Beispielen kann die Stimmenmaschine 310 die Audioinformationen speichern, die Logik zum Bestimmen, welche Effekte zu implementieren sind, ausführen, die Audioinformationen überarbeiten und ein modifiziertes Audio 314 bereitstellen, wenn die gesamte Verarbeitung abgeschlossen ist und die Effekte implementiert (oder verworfen) worden sind. 3 is a simplified block diagram 300 which illustrates components (e.g., software modules) used in the avatar process described above and below. In some examples, more or fewer modules can be used to implement the provision of audio and / or video effects based at least in part on audio and / or video characteristics captured in a recording of a user. In some examples, the device may 302 with a camera 304 , a microphone 306 and a display screen configured to present a UI and the avatar previews (e.g., the initial preview before recording and the preview of the recording before broadcast). In some examples, the avatar process is with an avatar machine 308 and a voice machine 310 configured. The Avatar Machine 308 can manage the list of avatars that process video features (e.g., the facial feature characteristics), revise video information, with the voice machine 301 communicate when indicated and a video of the avatar 312 represent when all processing has been completed and the effects have been implemented (or deprecated). Revising the video information can include adjusting or otherwise editing the metadata associated with the video file. In this way, when the video metadata is used (adjusted or not) to represent the doll, the facial features can be implemented on the doll. In some examples, the voice machine can 310 store the audio information, execute the logic to determine which effects to implement, revise the audio information, and modified audio 314 deploy when all processing is complete and effects have been implemented (or deprecated).

In manchen Beispielen können, sobald der Benutzer auswählt, einen neuen Avatar-Videoclip aufzuzeichnen, die Videomerkmale 316 durch die Kamera 304 aufgenommen werden, und die Audiomerkmale 318 können durch das Mikrofon 306 aufgenommen werden. In manchen Fällen kann es fünfzig (oder mehr) Gesichtsmerkmale geben, die innerhalb der Videomerkmale 316 zu erfassen sind. Beispielvideomerkmale schließen, ohne darauf beschränkt zu sein, eine Dauer von Ausdrücken, einen geöffneten Mund, Stirnrunzeln, Lächeln, hochgezogene oder gerunzelte Augenbrauen usw. ein. Zusätzlich schließen die Videomerkmale 316 möglicherweise nur Metadaten ein, welche jedes der Gesichtsmerkmale identifizieren (z. B. Datenpunkte, welche anzeigen, welche Stellen auf dem Gesicht des Benutzers sich bewegt haben oder sich wo und in welcher Position befinden). Ferner können die Videomerkmale 316 zu der Avatarmaschine 308 und der Stimmenmaschine 310 weitergeleitet werden. An der Avatarmaschine 308 können die Metadaten, die zu den Videomerkmalen 316 gehören, gespeichert und analysiert werden. In manchen Beispielen kann die Avatarmaschine 308 die Merkmalsextraktion aus der Videodatei vor dem Speichern der Metadaten durchführen. In anderen Beispielen kann die Merkmalsextraktion jedoch durchgeführt werden, bevor die Videomerkmale 316 zu der Avatarmaschine gesendet werden (wobei in diesem Fall die Videomerkmale 316 die Metadaten selbst wären). An der Stimmenmaschine 310 können die Videomerkmale 316 mit den Audiomerkmalen 318 verglichen werden, wenn es hilfreich ist, in Übereinstimmung zu bringen, welche Audiomerkmale welchen Videomerkmalen entsprechen (um z. B. zu sehen, ob bestimmte Audio- und Videomerkmale gleichzeitig auftreten).In some examples, once the user selects to record a new avatar video clip, the video features 316 through the camera 304 and the audio characteristics 318 can through the microphone 306 be included. In some cases, there may be fifty (or more) facial features that are within the video features 316 are to be recorded. Example video features include, but are not limited to, duration of expressions, mouth open, frowns, smiles, raised or furrowed eyebrows, and so on. In addition, the video features close 316 possibly only metadata identifying each of the facial features (e.g. data points indicating which places on the user's face have moved or are where and in what position). Furthermore, the video features 316 to the avatar machine 308 and the voice machine 310 to get redirected. At the avatar machine 308 can change the metadata related to the video characteristics 316 belong, be stored and analyzed. In some examples, the avatar engine 308 perform feature extraction from the video file prior to saving the metadata. In other examples, however, feature extraction can be performed before the video features 316 to the avatar machine (in which case the video characteristics 316 the metadata itself). On the voice machine 310 can use the video features 316 with the audio features 318 if it is helpful to match which audio features correspond to which video features (e.g. to see whether certain audio and video features occur simultaneously).

In manchen Fällen werden auch Audiomerkmale zur Speicherung zu der Stimmenmaschine 310 weitergeleitet. Beispielaudiomerkmale schließen, ohne darauf beschränkt zu sein, eine Stärke, eine Stimmlage, eine Dynamik (z. B. Änderungen der Stärke, der Stimmlage, der Stimmhaftigkeit, der Formanten, der Dauer usw.) ein. Ein Rohaudio 320 schließt die unverarbeitete Audiodatei ein, wie sie aufgenommen wird. Das Rohaudio 320 kann zur weiteren Verarbeitung und zur möglichen (z. B. letztlichen) Überarbeitung zu der Stimmenmaschine 310 weitergeleitet werden, und es kann auch separat gespeichert werden, so dass das Originalaudio verwendet werden kann, falls gewünscht. Das Rohaudio 320 kann auch zu einem Stimmenerkennungsmodul 322 weitergeleitet werden. Das Stimmenerkennungsmodul 322 kann verwendet werden, um Wörter zu erkennen und die Intention eines Benutzers aus seiner Stimme zu identifizieren. Zum Beispiel kann das Stimmenerkennungsmodul 322 bestimmen, wann ein Benutzer wütend, traurig, glücklich oder dergleichen ist. Zusätzlich wird das Stimmenerkennungsmodul 322, wenn ein Benutzer ein Schlüsselwort (z. B. „Bellen“, wie vorstehend beschrieben) spricht, dieses erfassen. Informationen, die durch das Stimmenerkennungsmodul 322 erfasst und/oder gesammelt werden, können dann für weitere Logik und/oder zur weiteren Verarbeitung zu der Stimmenmaschine 310 weitergeleitet werden. Wie angegeben, werden in manchen Beispielen während der Vorschau selbst Audiomerkmale in Echtzeit extrahiert. Diese Audiomerkmale können Avatarspezifisch sein und nur erzeugt werden, wenn eine Vorschau des zugehörigen Avatars angesehen wird. Die Audiomerkmale können Avatar-unabhängig sein und für alle Avatare erzeugt werden. Das Audiosignal kann auch teilweise basierend auf diesen Echtzeit-Audiomerkmalsextraktionen und mit den vorab gespeicherten extrahierten Videomerkmalen angepasst werden, welche während oder nach dem Aufzeichnungsprozess, aber vor dem Ansehen der Vorschau erzeugt werden. Zusätzlich kann die Extraktion einiger Merkmale während der Darstellung bei 336 durch die Stimmenmaschine 310 durchgeführt werden. Manche vorab gespeicherte Laute 338 können von der Stimmenmaschine 310 verwendet werden, falls dies angebracht ist, um die Lücken zu füllen oder um andere Laute zu ersetzen, die extrahiert wurden.In some cases, audio features also become the voice machine for storage 310 forwarded. Example audio features include, but are not limited to, strength, pitch, dynamic (e.g., changes in power, pitch, voicing, formants, duration, etc.). A raw audio 320 includes the unprocessed audio file as it is recorded. The raw audio 320 can for further processing and for possible (e.g. final) revision to the voice machine 310 and it can also be saved separately so that the original audio can be used if desired. The raw audio 320 can also become a voice recognition module 322 to get redirected. The voice recognition module 322 can be used to recognize words and identify a user's intention from their voice. For example, the voice recognition module 322 determine when a user is angry, sad, happy, or the like. In addition, the voice recognition module 322 when a user utters a keyword (e.g., "bark" as described above), capture it. Information obtained by the voice recognition module 322 captured and / or collected can then be sent to the voice machine for further logic and / or further processing 310 to get redirected. As noted, in some examples, even audio features are extracted in real time during the preview. These audio features can be avatar-specific and can only be generated when a preview of the associated avatar is viewed. The audio features can be avatar-independent and can be generated for all avatars. The audio signal can also be adjusted based in part on these real-time audio feature extractions and with the pre-stored extracted video features generated during or after the recording process but prior to viewing the preview. In addition, the extraction of some features during the Representation at 336 through the voice machine 310 be performed. Some sounds stored in advance 338 can from the voice machine 310 used, if appropriate, to fill in the gaps or to replace other sounds that have been extracted.

In manchen Beispielen führt die Stimmenmaschine 310 die Bestimmung durch, was mit den Informationen zu tun ist, die von dem Stimmenerkennungsmodul 322 extrahiert wurden. In manchen Beispielen kann die Stimmenmaschine 310 die Informationen von dem Stimmenerkennungsmodul 322 zu einem Merkmalsmodul 324 weiterleiten, um zu bestimmen, welche Merkmale den Daten entsprechen, die durch das Stimmenerkennungsmodul 322 extrahiert werden. Zum Beispiel kann das Merkmalsmodul 324 anzeigen (z. B. basierend auf einem Satz von Regeln und/oder Logik), dass eine traurige Stimme, die durch das Stimmenerkennungsmodul 322 erfasst wird, einem Anheben der Stimmlage oder dem Verlangsamen der Geschwindigkeit oder des Takts der Stimme entspricht. Mit anderen Worten kann das Merkmalsmodul 322 die extrahierten Audiomerkmale zu speziellen Stimmenmerkmalen umsetzen. Anschließend kann ein Effekttypmodul 326 die speziellen Stimmenmerkmale zu dem gewünschten Effekt umsetzen. Die Stimmenmaschine 310 kann auch dafür verantwortlich sein, jede spezielle Stimme für jeden möglichen Avatar zu speichern. Zum Beispiel kann es Standardstimmen oder in Hardware codierte Stimmen für jeden Avatar geben. Wenn ein Benutzer einen bestimmten Avatar auswählt, kann die Stimmenmaschine 310, ohne dass andere Änderungen vorgenommen werden, die passende Standardstimme zur Verwendung beim Abspielen auswählen. In diesem Fall kann das modifizierte Audio 314 einfach das Rohaudio 320 sein, das, basierend auf dem ausgewählten Avatar, zu der passenden Avatarstimme umgewandelt ist. Wenn der Benutzer durch die Avatare scrollt und verschiedene auswählt, kann die Stimmenmaschine 310 das Rohaudio 320 spontan so modifizieren, dass es wie der neu ausgewählte Avatar klingt. Somit muss der Stimmenmaschine 310 der Avatartyp 328 bereitgestellt werden, um diese Änderung vorzunehmen. Wenn jedoch ein Effekt bereitzustellen ist (wenn z. B. die Stimmlage, der Ton oder tatsächliche Wörter innerhalb der Audiodatei zu ändern sind), kann die Stimmenmaschine 310 die Rohaudiodatei 320 überarbeiten und das modifizierte Audio 314 bereitstellen. In manchen Beispielen wird dem Benutzer bei Ein/Aus 330 eine Option bereitgestellt, die Originalaudiodatei zu verwenden. Wenn der Benutzer „Aus“ (z. B. Effekte aus) auswählt, dann kann das Rohaudio 320 mit einem Video des Avatars 312 (welches z. B. dem ungeänderten Video entspricht) kombiniert werden, um die A/V-Ausgabe 332 zu erzeugen. Die A/V-Ausgabe 332 kann der Avataranwendung bereitgestellt werden, die auf der UI der Vorrichtung 302 dargestellt wird.In some examples, the voice machine leads 310 determining what to do with the information received from the voice recognition module 322 were extracted. In some examples, the voice machine can 310 the information from the voice recognition module 322 to a feature module 324 forward to determine which features correspond to the data received by the voice recognition module 322 extracted. For example, the feature module 324 indicate (e.g. based on a set of rules and / or logic) that a sad voice generated by the voice recognition module 322 corresponds to raising the pitch of the voice or slowing down the speed or beat of the voice. In other words, the feature module 322 convert the extracted audio features into special voice features. Then an effect type module 326 convert the special voice characteristics to the desired effect. The voice machine 310 may also be responsible for saving each special voice for each possible avatar. For example, there may be standard or hardware coded voices for each avatar. When a user selects a particular avatar, the vote machine can 310 select the appropriate default voice to use during playback without making any other changes. In this case, the modified audio can 314 just the raw audio 320 which is converted to the appropriate avatar voice based on the selected avatar. As the user scrolls through the avatars and selects different ones, the voice machine can 310 the raw audio 320 Modify it spontaneously so that it sounds like the newly selected avatar. Thus, the voice machine must 310 the avatar type 328 provided to make this change. However, if there is an effect to be provided (e.g. changing the pitch, tone, or actual words within the audio file), the voice machine can 310 the raw audio file 320 revise and the modified audio 314 provide. In some examples, On / Off 330 provided an option to use the original audio file. If the user selects “Off” (e.g. effects off), then the raw audio 320 with a video of the avatar 312 (which e.g. corresponds to the unchanged video) can be combined to form the A / V output 332 to create. The A / V output 332 can be deployed to the avatar application on the device's UI 302 is pictured.

Die Avatarmaschine 308 kann dafür verantwortlich sein, das anfängliche Avatarbild bereitzustellen, zumindest teilweise basierend auf der Auswahl des Avatartyps 328. Zusätzlich ist die Avatarmaschine 308 dafür verantwortlich, die Videomerkmale 316 auf die passenden Gesichtsmarkierungen jedes Avatars umzusetzen. Wenn zum Beispiel die Videomerkmale 316 anzeigen, dass der Benutzer lächelt, können die Metadaten, die ein Lächeln anzeigen, auf den Mundbereich des ausgewählten Avatars umgesetzt werden, so dass der Avatar in dem Video des Avatars 312 zu lächeln scheint. Zusätzlich kann die Avatarmaschine 308 Zeittaktungsänderungen 334 von der Stimmenmaschine empfangen, wenn dies angebracht ist. Wenn zum Beispiel die Stimmenmaschine 310 bestimmt, dass ein Stimmeneffekt anzuwenden ist, der das Audio mehr zu einer flüsternden Stimme macht (z. B. basierend auf dem Merkmalsmodul 324 und/oder dem Effekttyp 326 und/oder dem Avatartyp), und die Stimme so modifiziert, dass sie mehr wie eine geflüsterte Stimme klingt, kann diese Effektänderung ein Verlangsamen der Stimme selbst einschließen, zusätzlich zu einer verringerten Stärke und anderen Formant- und Stimmlagenänderungen. Dementsprechend kann die Stimmenmaschine ein modifiziertes Audio erzeugen, welches im Vergleich zu der Original-Audiodatei für den Audioclip langsamer in der Abspielgeschwindigkeit ist. In diesem Szenario müsste die Stimmenmaschine 310 die Avatarmaschine 308 über Zeittaktungsänderungen 334 anweisen, so dass die Videodatei passend verlangsamt werden kann; anderenfalls wären das Video und das Audio nicht synchronisiert.The Avatar Machine 308 may be responsible for providing the initial avatar image based at least in part on the avatar type selection 328 . Additionally is the avatar machine 308 responsible for the video characteristics 316 to implement on the matching facial markings of each avatar. For example, if the video characteristics 316 indicate that the user is smiling, the metadata indicating a smile can be applied to the mouth area of the selected avatar so that the avatar is included in the video of the avatar 312 seems to smile. In addition, the avatar machine 308 Timing changes 334 received by the voice machine when appropriate. If, for example, the voice machine 310 determines to apply a voice effect that makes the audio more like a whispering voice (e.g. based on the feature module 324 and / or the effect type 326 and / or the avatar type), and modifying the voice to sound more like a whispered voice, this effect change may include slowing down the voice itself, in addition to decreased strength and other formant and pitch changes. Accordingly, the voice engine can generate modified audio that is slower in playback speed compared to the original audio file for the audio clip. In this scenario you would need the voice machine 310 the avatar machine 308 about timing changes 334 instruct so that the video file can be slowed down appropriately; otherwise the video and audio would be out of sync.

Wie angegeben, kann ein Benutzer die Avataranwendung der Vorrichtung 302 verwenden, um verschiedene Avatare auszuwählen. In manchen Beispielen kann sich zumindest teilweise basierend auf dieser Auswahl der Stimmeneffekt ändern. In anderen Beispielen jedoch kann dem Benutzer die Gelegenheit gegeben werden, für einen gegebenen Avatar eine andere Stimme auszuwählen (z. B. die Katzenstimme für den Hunde-Avatar usw.). Diese Art der Stimmeneffektänderung in freier Form kann durch den Benutzer über eine Auswahl auf der UI oder in manchen Fällen durch sprachliche Aktivierung oder Gesichtsbewegung ausgeführt werden. Zum Beispiel könnte ein bestimmter Gesichtsausdruck auslösen, dass die Stimmenmaschine 310 den Stimmeneffekt für einen gegebenen Avatar ändert. Ferner kann die Stimmenmaschine 310 in manchen Beispielen so konfiguriert sein, dass sie Kinderstimmen höher klingen lässt oder alternativ bestimmt, dass eine Kinderstimme nicht höher klingen soll, da sie unangemessen klingen würde angesichts der Tatsache, dass das Rohaudio 320 für eine Kinderstimme bereits hoch klingen könnte. Die Vornahme dieser benutzerspezifischen Bestimmung eines Effekts könnte zum Teil durch die extrahierten Audiomerkmale betrieben werden, und in diesem Fall könnten solche Merkmale Stimmlagenwerte und -bereiche über die Aufzeichnung hinweg einschließen.As indicated, a user can use the device's avatar application 302 use to select different avatars. In some examples, the voice effect may change based at least in part on this selection. However, in other examples, the user may be given the opportunity to select a different voice for a given avatar (e.g., the cat voice for the dog avatar, etc.). This type of free form voice effect change can be performed by the user via a selection on the UI or in some cases voice activation or facial movement. For example, a certain facial expression could trigger the voice machine 310 change the voice effect for a given avatar. Furthermore, the voice machine 310 in some examples be configured to make children's voices sound higher or, alternatively, determine that a child's voice should not sound higher because it would sound inappropriately given the fact that the raw audio 320 could already sound high to a child's voice. Making this custom determination of an effect could be driven in part by the extracted audio features, and in that case such features could Include pitch values and ranges across the record.

In manchen Beispielen kann das Stimmenerkennungsmodul 322 eine Erkennungsmaschine, einen Worterkenner, einen Stimmlagenanalysator und/oder einen Formantanalysator einschließen. Durch die von dem Stimmenerkennungsmodul 322 durchgeführte Analyse kann identifiziert werden, ob der Benutzer aufgeregt, wütend, glücklich usw. ist. Zusätzlich kann das Stimmenerkennungsmodul 322 in der Lage sein, Kontext und/oder Intonation der Stimme des Benutzers zu identifizieren, ebenso wie die Intention einer Wortwahl zu ändern und/oder ein Profil (z. B. eine virtuelle Identität) des Benutzers zu bestimmen.In some examples, the voice recognition module 322 include a recognition engine, a word recognizer, a voice pitch analyzer, and / or a formant analyzer. By the voice recognition module 322 Analysis performed can identify whether the user is excited, angry, happy, etc. In addition, the voice recognition module 322 be able to identify context and / or intonation of the user's voice, as well as change the intention of a choice of words and / or determine a profile (e.g. a virtual identity) of the user.

In manchen Beispielen kann der Avatarprozess 300 so konfiguriert sein, dass der Videoclip gebündelt/dargestellt wird, indem das Video des Avatars 312 und entweder das modifizierte Audio 314 oder das Rohaudio 320 in der A/V-Ausgabe 332 kombiniert werden. Um die zwei zu bündeln, muss die Stimmenmaschine 310 lediglich eine Kennung für die Metadaten kennen, die zu dem Video des Avatars 312 gehören (z. B. benötigt sie nicht unbedingt das Video des Avatars 312, sie benötigt lediglich die Kennung der Metadaten). Eine Nachricht innerhalb einer Nachrichtenanwendung (z. B. der Avataranwendung) kann an andere Rechenvorrichtungen gesendet werden, wo die Nachricht die A/V-Ausgabe 332 einschließt. Wenn ein Benutzer eine „Sende“-Möglichkeit in der UI auswählt, kann der letzte Videoclip gesendet werden, der in der Vorschau anzusehen ist. Wenn sich zum Beispiel ein Benutzer eine Vorschau seines Videoclips mit dem Hunde-Avatar ansieht und dann für eine Vorschau auf den Katzen-Avatar umschaltet, wird das Katzen-Avatar-Video gesendet, wenn der Benutzer „Senden“ auswählt. Zusätzlich kann der Zustand der letzten Vorschau gespeichert und später verwendet werden. Wenn zum Beispiel bei der letzten gesendeten Nachricht (z. B. einem Avatar-Videoclip) ein spezieller Effekt verwendet wurde, kann die erste Vorschau der nächsten Nachricht, die erzeugt wird, diesen speziellen Effekt benutzen.In some examples, the avatar process 300 be configured so that the video clip is bundled / displayed by the video of the avatar 312 and either the modified audio 314 or the raw audio 320 in the A / V output 332 be combined. In order to join the two, the voice machine has to be used 310 just know an identifier for the metadata associated with the avatar's video 312 belong (e.g. it doesn't necessarily need the avatar's video 312 , it only needs the identification of the metadata). A message within a messaging application (e.g. the avatar application) can be sent to other computing devices where the message is A / V output 332 includes. When a user selects a “Send” option in the UI, the last video clip to be previewed can be sent. For example, if a user previews their video clip with the dog avatar and then switches to the cat avatar preview, the cat avatar video will be sent when the user selects "Send". In addition, the status of the last preview can be saved and used later. For example, if a special effect was used on the last message sent (e.g. an avatar video clip), the first preview of the next message that is generated can use that special effect.

Die von der Stimmenmaschine 310 und/oder der Avatarmaschine 308 implementierte Logik kann auf bestimmte Hinweise und/oder Merkmale prüfen und dann die Audio- und/oder Videodateien überarbeiten, um den gewünschten Effekt zu implementieren. Einige Beispiel-Merkmal/Effekt-Paare schließen ein: Erfassen, dass der Benutzer seinen Mund geöffnet hat und für einen Moment pausiert. In diesem Beispiel müssen sowohl Gesichtsmerkmals-Charakteristika (z. B. Mund geöffnet) als auch Audiomerkmals-Charakteristika (z. B. Stille) gleichzeitig geschehen, damit der gewünschte Effekt implementiert wird. Für dieses Merkmal/Effekt-Paar ist der gewünschte Effekt, das Audio und Video so zu überarbeiten, dass der Avatar einen Avatar/Tier-spezifischen Laut von sich zu geben scheint. Zum Beispiel erzeugt ein Hund einen Bell-Laut, eine Katze erzeugt einen Miau-Laut, ein Affe, ein Pferd, ein Einhorn usw. erzeugen den passenden Laut für diese Figur/dieses Tier. Andere Beispiel-Merkmal/Effekt-Paare schließen ein Senken der Audio-Stimmlage und/oder des Tons ein, wenn ein Stirnrunzeln erfasst wird. In diesem Beispiel müssen nur die Videomerkmals-Charakteristika erfasst werden. In manchen Beispielen könnte dieser Effekt jedoch zumindest teilweise basierend darauf implementiert werden, dass das Stimmenerkennungsmodul 322 Traurigkeit in der Stimme des Benutzers erfasst. In diesem Fall würden überhaupt keine Videomerkmale 316 benötigt. Andere Beispiel-Merkmal/Effekt-Paare schließen Flüstern ein, welches bewirkt, dass die Audio- und Videogeschwindigkeiten verlangsamt werden, gedämpft werden, und/oder eine Verringerung der Änderungen bewirkt. In manchen Fällen können Videoveränderungen zu Modifikationen des Audios führen, während in anderen Fällen Audioveränderungen zu Modifikationen des Videos führen können.The one from the voice machine 310 and / or the avatar machine 308 implemented logic can check for certain cues and / or features and then revise the audio and / or video files to implement the desired effect. Some example feature / effect pairs include: Detecting that the user has opened their mouth and pauses for a moment. In this example, both facial feature characteristics (e.g. mouth opened) and audio feature characteristics (e.g. silence) must occur simultaneously in order for the desired effect to be implemented. For this feature / effect pair, the desired effect is to rework the audio and video so that the avatar appears to be making an avatar / animal-specific sound. For example, a dog makes a bell sound, a cat makes a meow sound, a monkey, horse, unicorn, etc. make the appropriate sound for this character / animal. Other example feature / effect pairs include lowering the audio pitch and / or tone when a frown is detected. In this example, only the video feature characteristics need to be acquired. In some examples, however, this effect could be implemented at least in part based on the voice recognition module 322 Sadness captured in the user's voice. In this case, there would be no video features at all 316 needed. Other example feature / effect pairs include Whisper, which causes the audio and video speeds to slow down, attenuate, and / or cause the changes to decrease. In some cases video changes can lead to modifications of the audio, while in other cases audio changes can lead to modifications to the video.

Wie vorstehend angegeben, kann die Avatarmaschine 308 in manchen Beispielen als der Merkmalsextrahierer fungieren, wobei in diesem Fall vor dem Senden an die Avatarmaschine 308 keine Videomerkmale 316 und Audiomerkmale 318 existieren müssen. Stattdessen können das Rohaudio 320 und Metadaten, die zu dem Rohvideo gehören, in die Avatarmaschine 308 weitergeleitet werden, wobei die Avatarmaschine 308 die Audiomerkmals-Charakteristika und die Videomerkmals-Charakteristika (z. B. Gesichtsmerkmals-Charakteristika) extrahieren kann. Mit anderen Worten können, obwohl in 3 nicht auf diese Weise gezeichnet, Teile der Avatarmaschine 308 tatsächlich innerhalb der Kamera 304 vorhanden sein. Zusätzlich können in manchen Beispielen Metadaten, die zu den Videomerkmalen 316 gehören, in einem sicheren Container gespeichert werden, und wenn die Stimmenmaschine 310 läuft, kann sie die Metadaten aus dem Container auslesen.As stated above, the avatar machine 308 to act as the feature extractor in some examples, in which case prior to sending to the avatar engine 308 no video features 316 and audio features 318 must exist. Instead, the raw audio 320 and metadata associated with the raw video into the avatar engine 308 being forwarded, being the avatar machine 308 extract the audio feature characteristics and the video feature characteristics (e.g., facial feature characteristics). In other words, although in 3 not drawn this way, parts of the avatar machine 308 actually inside the camera 304 to be available. Additionally, in some examples, metadata pertaining to the video characteristics 316 belong to be stored in a secure container, and if the voice machine 310 is running, it can read the metadata from the container.

In manchen Fällen können, da der Vorschau-Videoclip des Avatars nicht in Echtzeit angezeigt wird (z. B. wird er dargestellt und angezeigt, nachdem das Video aufgezeichnet ist, und manchmal nur in Reaktion auf die Auswahl einer Abspielmöglichkeit), die Audio- und Videoinformationen offline verarbeitet werden (z. B. nicht in Echtzeit). Daher können die Avatarmaschine 308 und die Stimmenmaschine 310 vorab in den Audio- und Videoinformationen lesen und im Voraus Kontextentscheidungen treffen. Anschließend kann die Stimmenmaschine 310 die Audiodatei dementsprechend überarbeiten. Diese Fähigkeit, vorab zu lesen und Entscheidungen offline zu treffen, erhöht deutlich die Effizienz des Systems, insbesondere für längere Aufzeichnungen. Zusätzlich ermöglicht dies eine zweite Analysestufe, wobei zusätzliche Logik verarbeitet werden kann. Somit kann die gesamte Audiodatei analysiert werden, bevor irgendwelche abschließenden Entscheidungen getroffen werden. Wenn der Benutzer zum Beispiel zweimal in Folge „Bellen“ spricht, aber die Wörter „Bellen“ zu eng zusammen gesprochen wurden, könnte der tatsächliche „Wuff“-Laut, der vorab aufgezeichnet wurde, nicht in der Lage sein, in die Zeit zu passen, die der Benutzer benötigte, um „Bellen, Bellen“ zu sprechen. In diesem Fall kann die Stimmenmaschine 310 die Informationen der Stimmenerkennung 322 entnehmen und bestimmen, das zweite „Bellen“ zu ignorieren, da es nicht möglich ist, beide „Wuff“-Laute in die Audiodatei einzubauen.In some cases, because the avatar's preview video clip is not displayed in real time (e.g., it is rendered and displayed after the video is recorded, and sometimes only in response to a play option being selected), the audio and video Video information is processed offline (e.g. not in real time). Hence, the avatar machine 308 and the voice machine 310 Read the audio and video information beforehand and make contextual decisions in advance. Then the voice machine can 310 revise the audio file accordingly. This ability to read ahead of time and make decisions offline significantly increases the efficiency of the system, especially for lengthy recordings. Additionally this enables a second stage of analysis, whereby additional logic can be processed. Thus, the entire audio file can be analyzed before any final decisions are made. For example, if the user says "bark" twice in a row but the words "bark" are spoken too closely together, the actual "woof" sound that was pre-recorded may not be able to fit in with the time that the user needed to say "bark, bark". In this case the voice machine can 310 the voice recognition information 322 and determine to ignore the second "bark", as it is not possible to incorporate both "woof" sounds into the audio file.

Wie vorstehend angegeben, muss die Stimmenmaschine, wenn die Audiodatei und das Video gebündelt werden, um die A/V-Ausgabe 332 zu erzeugen, nicht unbedingt auf das Video des Avatars 312 zugreifen. Stattdessen wird die Videodatei (z. B. eine Datei des .mov-Formats oder dergleichen) erzeugt, wenn das Video abgespielt wird, indem auf ein Array von Merkmalen (z. B. Gleitkommawerte) zugegriffen wird, die in die Metadatendatei geschrieben wurden. Jedoch können alle Permutationen/Anpassungen an den Audio- und Videodateien vorab vorgenommen werden, und manche können sogar in Echtzeit vorgenommen werden, wenn das Audio und das Video extrahiert werden. Zusätzlich könnte in manchen Beispielen jeder modifizierte Videoclip vorübergehend gespeichert (cache-gespeichert) werden, so dass, wenn der Benutzer einen Avatar erneut auswählt, von dem er bereits eine Vorschau angesehen hat, die Verarbeitung zum Erzeugen/Darstellen dieser speziellen Vorschau nicht erneut vorgenommen werden muss. Im Gegensatz zu einem erneuten Darstellen des überarbeiteten Videoclips jedes Mal, wenn während des Vorschauabschnitts derselbe Avatar ausgewählt wird, würde die vorstehend angegebene Cache-Speicherung dargestellter Videoclips die Realisierung großer Einsparungen an Prozessorleistung und Anweisungen je Sekunde (IPS) ermöglichen, insbesondere für längere Aufzeichnungen und/oder Aufzeichnungen mit einer großen Anzahl an Effekten.As stated above, when the audio file and video are bundled, the voice engine needs to be the A / V output 332 not necessarily on the avatar's video 312 access. Instead, when the video is played, the video file (e.g., a .mov format file or the like) is created by accessing an array of features (e.g., floating point values) written to the metadata file. However, any permutations / adjustments to the audio and video files can be made in advance, and some can even be made in real time as the audio and video are extracted. Additionally, in some examples, each modified video clip could be temporarily stored (cached) so that if the user re-selects an avatar that they have already previewed, the processing to create / display that particular preview is not repeated got to. As opposed to redisplaying the revised video clip every time the same avatar is selected during the preview section, the above-mentioned caching of displayed video clips would enable great savings in processor power and instructions per second (IPS) to be realized, especially for longer recordings and / or records with a large number of effects.

Zusätzlich können in manchen Beispielen Rauschunterdrückungsalgorithmen eingesetzt werden, um Fälle zu handhaben, wobei der durch das Mikrofon 306 aufgenommene Laut andere Laute als die Stimme des Benutzers einschließt. Zum Beispiel, wenn sich der Benutzer in einer windigen Gegend oder in einem lauten Raum (z. B. einem Restaurant oder einer Bar) befindet. In diesen Beispielen könnte ein Rauschunterdrückungsalgorithmus die Dezibel-Ausgabe bestimmter Teile der Audioaufzeichnung verringern. Alternativ oder zusätzlich könnten verschiedene Stimmen getrennt werden und/oder es könnte nur Audio aufgenommen werden, welches aus bestimmten Blickwinkeln kommt (z. B. aus dem Winkel des Gesichts des Benutzers), und andere Stimmen könnten ignoriert oder unterdrückt werden. In anderen Fällen könnte, wenn in dem Avatarprozess 300 bestimmt wird, dass die Rauschpegel zu laut sind oder schwierig zu verarbeiten sein werden, die Aufzeichnungsoption durch den Prozess 300 deaktiviert werden.Additionally, in some examples, noise suppression algorithms can be used to handle cases where the microphone is used 306 recorded sounds include sounds other than the user's voice. For example, if the user is in a windy area or in a noisy room (e.g. a restaurant or bar). In these examples, a noise reduction algorithm could reduce the decibels output of certain parts of the audio recording. Alternatively or additionally, different voices could be separated and / or only audio could be recorded which comes from certain viewing angles (e.g. from the corner of the user's face) and other voices could be ignored or suppressed. In other cases, if in the avatar process 300 If the noise levels are determined to be too loud or will be difficult to process, the recording option is through the process 300 deactivated.

4 veranschaulicht einen Beispielablaufplan, der einen Prozess 400 zum Implementieren verschiedener Audio- und/oder Videoeffekte zeigt, die zumindest teilweise auf Audio- und/oder Videomerkmalen basieren, gemäß mindestens einigen wenigen Beispielen. In manchen Beispielen kann die Rechenvorrichtung 106 der 1 oder eine andere ähnliche Benutzervorrichtung (welche z. B. zumindest den Avatarprozess 300 der 3 benutzt) den Prozess 400 der 4 durchführen. 4th illustrates a sample flow chart that represents a process 400 Figure 12 for implementing various audio and / or video effects based at least in part on audio and / or video features, according to at least a few examples. In some examples, the computing device may 106 the 1 or some other similar user device (e.g., which can at least run the avatar process 300 the 3 used) the process 400 the 4th carry out.

In Block 402 kann die Rechenvorrichtung 106 ein Video aufnehmen, welches eine Audiokomponente aufweist. In manchen Beispielen können das Video und das Audio durch zwei verschiedene Hardware-Komponenten aufgenommen werden (z. B. kann eine Kamera die Videoinformationen aufnehmen, während ein Mikrofon die Audioinformationen aufnehmen kann). In manchen Fällen kann jedoch eine einzelne Hardware-Komponente dafür konfiguriert sein, sowohl Audio als auch Video aufzunehmen. In jedem Fall können die Video- und die Audioinformationen miteinander in Verbindung gebracht werden (z. B. durch eine gemeinsame Kennung, einen Zeitstempel oder dergleichen). Somit kann das Video eine Audiokomponente aufweisen (z. B. sind sie Teil derselben Datei), oder das Video kann mit einer Audiokomponente verbunden sein (z. B. zwei Dateien, die zusammengehören).In block 402 can the computing device 106 record a video that has an audio component. In some examples, the video and audio can be picked up by two different hardware components (e.g., a camera can pick up the video information while a microphone can pick up the audio information). In some cases, however, a single piece of hardware can be configured to record both audio and video. In any case, the video and audio information can be associated with one another (for example by means of a common identifier, a time stamp or the like). Thus, the video can have an audio component (e.g. they are part of the same file), or the video can be associated with an audio component (e.g. two files that go together).

In Block 404 kann die Rechenvorrichtung 106 Gesichtsmerkmale und Audiomerkmale aus den aufgenommenen Video- bzw. Audioinformationen extrahieren. In manchen Fällen können die Gesichtsmerkmalsinformationen über die Avatarmaschine 308 extrahiert und als Metadaten gespeichert werden. Die Metadaten können verwendet werden, um jedes Gesichtsmerkmal auf eine spezielle Puppe oder auf eine beliebige Animation oder ein virtuelles Gesicht umzusetzen. Somit muss die tatsächliche Videodatei nicht gespeichert werden, was eine Speichereffizienz und bedeutende Einsparungen erzeugt. Hinsichtlich der Audiomerkmalsextraktion kann ein Stimmenerkennungsalgorithmus benutzt werden, um verschiedene Stimmenmerkmale zu extrahieren; zum Beispiel Wörter, Ausdrücke, Stimmlage, Geschwindigkeit usw.In block 404 can the computing device 106 Extract facial features and audio features from recorded video and audio information, respectively. In some cases, the facial feature information can be obtained through the avatar machine 308 extracted and saved as metadata. The metadata can be used to implement any facial feature on a special doll or on any animation or virtual face. Thus, the actual video file need not be saved, creating storage efficiency and significant savings. With regard to audio feature extraction, a voice recognition algorithm can be used to extract various voice features; for example words, expressions, pitch, speed, etc.

In Block 406 kann die Rechenvorrichtung 106 Kontext aus den extrahierten Merkmalen erfassen. Zum Beispiel kann der Kontext eine Intention eines Benutzers, eine Stimmung, eine Situation, einen Ort, Hintergrundelemente, Ideen usw. einschließen. Der Kontext kann wichtig sein, wenn eine Logik eingesetzt wird, um zu bestimmen, welche Effekte anzuwenden sind. In manchen Fällen kann der Kontext mit erfassten gesprochenen Wörtern kombiniert werden, um zu bestimmen, ob und/oder wie die Audiodatei und/oder die Videodatei anzupassen sind. In einem Beispiel kann ein Benutzer seine Augenbrauen runzeln und langsam sprechen. Das Runzeln der Augenbrauen ist ein Videomerkmal, das in dem Block 404 extrahiert worden sein kann, und die langsame Sprache ist ein Audiomerkmal, das in dem Block 404 extrahiert worden sein kann. Einzeln könnten diese beiden Merkmale etwas anderes bedeuten; wenn sie jedoch miteinander kombiniert werden, kann durch den Avatarprozess bestimmt werden, dass der Benutzer über etwas besorgt ist. In diesem Fall könnte der Kontext der Nachricht sein, dass ein Elternteil zu einem Kind spricht oder ein Freund zu einem anderen Freund über ein ernstes oder besorgniserregendes Thema spricht.In block 406 can the computing device 106 Capture context from the extracted features. For example, the context can be an intention of a Include user, mood, situation, place, background elements, ideas, etc. Context can be important when using logic to determine which effects to apply. In some cases, the context can be combined with captured spoken words to determine whether and / or how to adjust the audio file and / or the video file. In one example, a user may frown and speak slowly. The frowning of the eyebrows is a video feature that is featured in the block 404 may have been extracted, and the slow speech is an audio feature that is in the block 404 may have been extracted. Individually, these two features could mean something different; however, if they are combined with each other, it can be determined by the avatar process that the user is concerned about something. In this case, the context of the message could be that a parent is talking to a child or a friend is talking to another friend about a serious or worrisome topic.

In Block 408 kann die Rechenvorrichtung 106 Effekte zum Darstellen der Audio- und/oder Videodateien bestimmen, zumindest teilweise basierend auf dem Kontext. Wie vorstehend angegeben, könnte ein Kontext Besorgnis sein. Somit kann ein spezielles Video- und/oder Audiomerkmal für diesen Effekt eingesetzt werden. Zum Beispiel kann die Stimmendatei so angepasst werden, dass die Stimme düsterer klingt oder verlangsamt wird. In anderen Beispielen könnte die Avatar-spezifische Stimme durch eine Version des Originalaudios (z. B. des Rohaudios) ersetzt werden, um die Ernsthaftigkeit der Nachricht zu vermitteln. Für verschiedene andere Kontexte können verschiedene andere Effekte eingesetzt werden. In anderen Beispielen kann es sich bei dem Kontext um Tiergeräusche handeln (z. B. basierend darauf, dass der Benutzer „Bellen“ oder „Miau“ oder dergleichen spricht). In diesem Fall wäre der bestimmte Effekt, das gesprochene Wort „Bellen“ durch den Laut eines Hundes zu ersetzen, der bellt.In block 408 can the computing device 106 Determine effects for displaying the audio and / or video files based at least in part on the context. As indicated above, one context could be of concern. A special video and / or audio feature can thus be used for this effect. For example, the voice file can be adjusted to make the voice sound darker or to slow it down. In other examples, the avatar-specific voice could be replaced with a version of the original audio (e.g., raw audio) to convey the seriousness of the message. Various other effects can be used for various other contexts. In other examples, the context may be animal sounds (e.g., based on the user speaking “barking” or “meowing” or the like). In this case the particular effect would be to replace the spoken word “bark” with the sound of a dog barking.

In Block 410 kann die Rechenvorrichtung 106 eine zusätzliche Logik für zusätzliche Effekte durchführen. Wenn zum Beispiel der Benutzer versucht hat, den Belleffekt auszulösen, indem er zweimal in Folge „Bellen“ spricht, kann es sein, dass die zusätzliche Logik benutzt werden muss, um zu bestimmen, ob das zusätzliche Bellen technisch machbar ist. Wenn als ein Beispiel der Audioclip des Bellens, der verwendet wird, um das gesprochene Wort in den Rohaudioinformationen zu ersetzen, 0,5 Sekunden lang ist, der Benutzer aber in einer 0,7 Sekunden langen Zeitspanne zweimal „Bellen“ spricht, kann die zusätzliche Logik bestimmen, dass in die verfügbaren 0,7 Sekunden keine zwei Belllaute passen können. Somit kann es sein, dass die Audio- und die Videodatei erweitert werden müssen, um beide Belllaute unterzubringen, dass der Belllaut verkürzt werden muss (z. B. durch Verarbeiten des gespeicherten Belllauts) oder dass das zweite gesprochene Wort „Bellen“ ignoriert werden muss.In block 410 can the computing device 106 perform additional logic for additional effects. For example, if the user attempted to trigger the barking effect by saying "bark" twice in a row, the additional logic may need to be used to determine whether the additional bark is technically feasible. As an example, if the audio clip of barking used to replace the spoken word in the raw audio information is 0.5 seconds long but the user speaks "bark" twice in a 0.7 second period, the additional Logic determine that no two bells can fit in the available 0.7 seconds. It may therefore be that the audio and video files have to be expanded to accommodate both bells, that the bells must be shortened (e.g. by processing the stored bells) or that the second spoken word "bark" must be ignored .

In Block 412 kann die Rechenvorrichtung 106 die Audio- und/oder Videoinformationen überarbeiten, zumindest teilweise basierend auf den bestimmten Effekten und/oder zusätzlichen Effekten. In manchen Beispielen wird möglicherweise nur eine Gruppe von Effekten verwendet. In jedem Fall kann jedoch die Rohaudiodatei angepasst (z. B. überarbeitet) werden, um eine neue Audiodatei zu bilden, in der zusätzliche Laute hinzugefügt und/oder Laute entfernt wurden. Zum Beispiel wird in dem Anwendungsfall des „Bellens“ das gesprochene Wort „Bellen“ aus der Audiodatei entfernt, und es wird ein neuer Laut eingefügt, der ein tatsächliches Hundebellen repräsentiert. Die neue Datei kann mit einer anderen Kennung oder mit einer angehängten Kennung gespeichert werden (z. B. die Rohaudiokennung mit einem .v2-Identifizierungszeichen, um anzuzeigen, dass es sich nicht um das Original handelt). Zusätzlich wird die Rohaudiodatei separat gespeichert, so dass sie für zusätzliche Avatare, und/oder wenn der Benutzer entscheidet, die bestimmten Effekte nicht zu verwenden, wiederverwendet werden kann.In block 412 can the computing device 106 revise the audio and / or video information based at least in part on the determined effects and / or additional effects. In some examples, only one set of effects may be used. In either case, however, the raw audio file can be adapted (e.g. revised) to form a new audio file in which additional sounds have been added and / or sounds have been removed. For example, in the “barking” application, the spoken word “barking” is removed from the audio file and a new sound is inserted that represents an actual dog barking. The new file can be saved with a different identifier or with an identifier appended (for example, the raw audio identifier with a .v2 identifier to indicate that it is not the original). In addition, the raw audio file is saved separately so that it can be reused for additional avatars and / or if the user chooses not to use the particular effects.

In Block 414 kann die Rechenvorrichtung 106 eine Auswahl eines Avatars von dem Benutzer empfangen. Der Benutzer kann über eine UI der Avataranwendung, die durch die Rechenvorrichtung 106 ausgeführt wird, einen aus einer Vielzahl verschiedener Avatare auswählen. Die Avatare können über ein Scroll-Rad, über ein Drop-Down-Menü oder ein Icon-Menü (wo z. B. jeder Avatar in seiner eigenen Position auf dem Bildschirm sichtbar ist) ausgewählt werden.In block 414 can the computing device 106 receive a selection of an avatar from the user. The user can access the avatar application through a UI run by the computing device 106 select one of a variety of different avatars. The avatars can be selected using a scroll wheel, a drop-down menu or an icon menu (e.g. where each avatar is visible in its own position on the screen).

In Block 416 kann die Rechenvorrichtung 106 das überarbeitete Video mit dem überarbeiteten Audio zumindest teilweise basierend auf dem ausgewählten Avatar darstellen. In diesem Beispiel kann jeder angepasste Videoclip (z. B. ein fertiger Videoclip für den Avatar, der ein angepasstes Audio und/oder ein angepasstes Video aufweist) für jeden entsprechenden Avatar vor der Auswahl des Avatars durch den Benutzer erzeugt werden. Auf diese Weise ist die Verarbeitung bereits abgeschlossen worden, und der angepasste Videoclip ist bereit, unmittelbar nach der Auswahl des Avatars dargestellt zu werden. Während dies zusätzliche IPS vor der Avatar-Auswahl erforderlich machen könnte, beschleunigt es die Darstellung. Zusätzlich kann die Verarbeitung jedes angepassten Videoclips durchgeführt werden, während sich der Benutzer die erste Vorschau ansieht (z. B. die Vorschau, die dem ersten Avatar/Standard-Avatar entspricht, der in der UI dargestellt wird).In block 416 can the computing device 106 display the revised video with the revised audio based at least in part on the selected avatar. In this example, each customized video clip (e.g., a finished video clip for the avatar that has customized audio and / or video) can be generated for each corresponding avatar prior to the user's selection of the avatar. In this way, the processing has already been completed and the adapted video clip is ready to be displayed immediately after the avatar has been selected. While this might require additional IPS prior to avatar selection, it speeds up rendering. Additionally, processing of each customized video clip can be performed while the user is viewing the first preview (e.g. the preview corresponding to the first avatar / default avatar presented in the UI).

5 veranschaulicht einen Beispielablaufplan, der einen Prozess 500 zum Implementieren verschiedener Audio- und/oder Videoeffekte zeigt, die zumindest teilweise auf Audio- und/oder Videomerkmalen basieren, gemäß mindestens einigen wenigen Beispielen. In manchen Beispielen kann die Rechenvorrichtung 106 der 1 oder eine andere ähnliche Benutzervorrichtung (welche z. B. zumindest den Avatarprozess 300 der 3 benutzt) den Prozess 500 der 5 durchführen. 5 illustrates a sample flow chart that represents a process 500 Figure 12 for implementing various audio and / or video effects based at least in part on audio and / or video features, according to at least a few examples. In some examples, the computing device may 106 the 1 or some other similar user device (e.g., which can at least run the avatar process 300 the 3 used) the process 500 the 5 carry out.

In Block 502 kann die Rechenvorrichtung 106 ein Video aufnehmen, welches eine Audiokomponente aufweist. Genau wie in dem Block 402 der 4 können das Video und das Audio durch zwei verschiedene Hardware-Komponenten aufgenommen werden (z. B. kann eine Kamera die Videoinformationen aufnehmen, während ein Mikrofon die Audioinformationen aufnehmen kann). Wie angegeben, kann das Video eine Audiokomponente aufweisen (z. B. sind sie Teil derselben Datei), oder das Video kann mit einer Audiokomponente verbunden sein (z. B. zwei Dateien, die zusammengehören).In block 502 can the computing device 106 record a video that has an audio component. Just like in the block 402 the 4th For example, the video and audio can be recorded by two different hardware components (e.g. a camera can record the video information while a microphone can record the audio information). As indicated, the video can have an audio component (e.g., they are part of the same file), or the video can be associated with an audio component (e.g., two files that go together).

In Block 504 kann die Rechenvorrichtung 106 Gesichtsmerkmale und Audiomerkmale aus den aufgenommenen Video- bzw. Audioinformationen extrahieren. Genau wie vorstehend können die Gesichtsmerkmalsinformationen über die Avatarmaschine 308 extrahiert und als Metadaten gespeichert werden. Die Metadaten können verwendet werden, um jedes Gesichtsmerkmal auf eine spezielle Puppe oder auf eine beliebige Animation oder ein virtuelles Gesicht umzusetzen. Somit muss die tatsächliche Videodatei nicht gespeichert werden, was eine Speichereffizienz und bedeutende Einsparungen erzeugt. Hinsichtlich der Audiomerkmalsextraktion kann ein Stimmenerkennungsalgorithmus benutzt werden, um verschiedene Stimmenmerkmale zu extrahieren; zum Beispiel Wörter, Ausdrücke, Stimmlage, Geschwindigkeit usw. Zusätzlich können in manchen Beispielen die Avatarmaschine 308 und/oder die Stimmenmaschine 310 die Audiomerkmalsextraktion durchführen.In block 504 can the computing device 106 Extract facial features and audio features from recorded video and audio information, respectively. Just as above, the facial feature information can be made via the avatar machine 308 extracted and saved as metadata. The metadata can be used to implement any facial feature on a special doll or on any animation or virtual face. Thus, the actual video file need not be saved, creating storage efficiency and significant savings. With regard to audio feature extraction, a voice recognition algorithm can be used to extract various voice features; for example, words, phrases, pitch, speed, etc. Additionally, in some examples, the avatar machine 308 and / or the voice machine 310 perform the audio feature extraction.

In Block 506 kann die Rechenvorrichtung 106 Kontext aus den extrahierten Merkmalen erfassen. Zum Beispiel kann der Kontext eine Intention eines Benutzers, eine Stimmung, eine Situation, einen Ort, Ideen, eine Identität usw. einschließen. Der Kontext kann wichtig sein, wenn eine Logik eingesetzt wird, um zu bestimmen, welche Effekte anzuwenden sind. In manchen Fällen kann der Kontext mit gesprochenen Wörtern kombiniert werden, um zu bestimmen, ob und/oder wie die Audiodatei und/oder die Videodatei anzupassen sind. In einem Beispiel kann das Alter eines Benutzers als der Kontext erfasst werden (z. B. Kind, Erwachsener usw.), zumindest teilweise basierend auf Gesichts- und/oder Stimmenmerkmalen. Zum Beispiel kann das Gesicht eines Kindes spezielle Merkmale aufweisen, die identifiziert werden können (z. B. große Augen, eine kleine Nase und einen relativ kleinen Kopf usw.). So kann ein Kinder-Kontext erfasst werden.In block 506 can the computing device 106 Capture context from the extracted features. For example, the context can include a user's intention, mood, situation, location, ideas, identity, and so on. Context can be important when using logic to determine which effects to apply. In some cases, the context can be combined with spoken words to determine whether and / or how to adjust the audio file and / or the video file. In one example, the age of a user can be captured as the context (e.g. child, adult, etc.) based at least in part on facial and / or voice characteristics. For example, a child's face may have specific features that can be identified (e.g., large eyes, a small nose and a relatively small head, etc.). In this way, a children's context can be captured.

In Block 508 kann die Rechenvorrichtung 106 eine Auswahl eines Avatars von dem Benutzer empfangen. Der Benutzer kann über eine UI der Avataranwendung, die durch die Rechenvorrichtung 106 ausgeführt wird, einen aus einer Vielzahl verschiedener Avatare auswählen. Die Avatare können über ein Scroll-Rad, über ein Drop-Down-Menü oder ein Icon-Menü (wo z. B. jeder Avatar in seiner eigenen Position auf dem Bildschirm sichtbar ist) ausgewählt werden.In block 508 can the computing device 106 receive a selection of an avatar from the user. The user can access the avatar application through a UI run by the computing device 106 select one of a variety of different avatars. The avatars can be selected using a scroll wheel, a drop-down menu or an icon menu (e.g. where each avatar is visible in its own position on the screen).

In Block 510 kann die Rechenvorrichtung 106 Effekte zum Darstellen der Audio- und/oder Videodateien bestimmen, zumindest teilweise basierend auf dem Kontext und dem ausgewählten Avatar. In diesem Beispiel können die Effekte für jeden Avatar nach der Auswahl jedes Avatars erzeugt werden, anstatt alle auf einmal. In manchen Fällen ermöglicht dies eine Verwirklichung bedeutender Prozessor- und Speichereinsparungen, da nur eine Gruppe von Effekten zu einer Zeit durchgeführt wird und nur ein Avatar zu einer Zeit dargestellt wird. Diese Einsparungen können insbesondere verwirklicht werden, wenn der Benutzer nicht mehrere Avatare zur Vorschau auswählt.In block 510 can the computing device 106 Determine effects for displaying the audio and / or video files based at least in part on the context and the selected avatar. In this example, the effects for each avatar can be created after each avatar is selected, rather than all at once. In some cases, this enables significant processor and memory savings to be realized since only one group of effects is performed at a time and only one avatar is displayed at a time. These savings can be realized in particular if the user does not select multiple avatars for preview.

In Block 512 kann die Rechenvorrichtung 106 eine zusätzliche Logik für zusätzliche Effekte ausführen, ähnlich wie vorstehend in Bezug auf den Block 410 der 4 beschrieben. In Block 514 kann die Rechenvorrichtung 106 die Audio- und/oder Videoinformationen überarbeiten, zumindest teilweise basierend auf den bestimmten Effekten und/oder zusätzlichen Effekten für den ausgewählten Avatar, ähnlich wie vorstehend in Bezug auf den Block 412 der 4 beschrieben. In Block 516 kann die Rechenvorrichtung 106 das überarbeitete Video mit dem überarbeiteten Audio zumindest teilweise basierend auf dem ausgewählten Avatar darstellen, ähnlich wie vorstehend in Bezug auf den Block 416 der 4 beschrieben.In block 512 can the computing device 106 perform additional logic for additional effects, similar to the above with respect to the block 410 the 4th described. In block 514 can the computing device 106 revise the audio and / or video information based at least in part on the determined effects and / or additional effects for the selected avatar, similar to the above with respect to the block 412 the 4th described. In block 516 can the computing device 106 display the revised video with the revised audio based at least in part on the selected avatar, similar to the above with respect to the block 416 the 4th described.

In manchen Beispielen kann durch den Avatarprozess 300 bestimmt werden, ob der Ablauf 400 oder der Ablauf 500 durchzuführen ist, zumindest teilweise basierend auf Verlaufsinformationen. Wenn zum Beispiel der Benutzer allgemein jedes Mal denselben Avatar verwendet, ist der Ablauf 500 effizienter. Wenn jedoch der Benutzer regelmäßig zwischen Avataren wechselt und je Videoclip eine Vorschau mehrerer verschiedener Avatare ansieht, dann kann es effizienter sein, dem Ablauf 400 zu folgen.In some examples it can go through the avatar process 300 determine whether the expiration 400 or the process 500 to be performed based at least in part on historical information. For example, if the user generally uses the same avatar every time, the flow is 500 more efficient. However, if the user is regularly switching between avatars and previewing several different avatars per video clip, then the process can be more efficient 400 to follow.

6 veranschaulicht eine Beispiel-UI 600, um einem Benutzer zu ermöglichen, die Avataranwendung zu benutzen (z. B. entsprechend der Avataranwendungsmöglichkeit 602). In manchen Beispielen kann die UI 600 anders aussehen (z. B. kann sie als eine Standardtext- (z. B. Short-Messaging-Service(SMS)-)Nachrichtenanwendung erscheinen), bis die Avataranwendungsmöglichkeit 602 ausgewählt ist. Wie angegeben, kann die Avataranwendung mit dem Avatarprozess (z. B. dem Avatarprozessn 300 der 3) kommunizieren, um Anforderungen zum Aufnehmen, Verarbeiten (z. B. Extrahieren von Merkmalen, Laufenlassen einer Logik usw.) und Anpassen von Audio und/Video vorzunehmen. Wenn zum Beispiel der Benutzer eine Aufzeichnungsmöglichkeit auswählt (z. B. eine Videoclip-Aufzeichnen/Senden-Möglichkeit 604), kann die Avataranwendung einen Aufruf über eine Anwendungsprogrammierungs-Schnittstelle (API) zu dem Avatarprozess vornehmen, um zu beginnen, unter Verwendung der geeigneten Hardware-Komponenten Video- und Audioinformationen aufzunehmen. In manchen Beispielen kann die Videoclip-Aufzeichnen/Senden-Möglichkeit 604 vor dem Beginn der Aufzeichnungssitzung als ein roter Kreis (oder ein einfacher Kreis ohne die in 6 gezeigte Linie) dargestellt sein. Auf diese Weise sieht die Möglichkeit mehr wie eine Standard-Aufzeichnungstaste aus. Während des Aufzeichnens der Sitzung kann das Aussehen der Videoclip-Aufzeichnen/Senden-Möglichkeit 604 so verändert werden, dass sie wie ein Countdown auf einer Uhr oder eine andere Darstellung eines Zeitgebers aussieht (wenn z. B. die Länge der Videoclip-Aufzeichnungen begrenzt ist). In anderen Beispielen kann jedoch die Videoclip-Aufzeichnen/Senden-Möglichkeit 604 lediglich Farben ändern, um anzuzeigen, dass die Avataranwendung aufzeichnet. Wenn es keinen Zeitgeber oder keine Begrenzung für die Länge der Aufzeichnung gibt, kann es sein, dass der Benutzer die Videoclip-Aufzeichnen/Senden-Möglichkeit 604 erneut auswählen muss, um die Aufzeichnung zu beenden. 6th illustrates a sample UI 600 to allow a user to use the To use avatar application (e.g. according to the avatar application possibility 602 ). In some examples, the UI 600 look different (e.g. it may appear as a standard text (e.g. short messaging service (SMS)) messaging application) until the avatar application facility 602 is selected. As indicated, the avatar application can interact with the avatar process (e.g. the avatar processn 300 the 3 ) communicate to make requests for recording, processing (e.g. extracting features, running logic, etc.) and adjusting audio and / video. For example, when the user selects a recording option (e.g. a video clip record / send option 604 ), the avatar application can make a call through an application programming interface (API) to the avatar process to begin capturing video and audio information using the appropriate hardware components. In some examples, the video clip recording / sending capability 604 before the start of the recording session as a red circle (or a simple circle without the in 6th line shown). That way, the facility looks more like a standard record button. While the session is being recorded, the appearance of the video clip record / send facility may change 604 can be changed to look like a countdown on a clock or some other representation of a timer (e.g. if the length of the video clip recordings is limited). In other examples, however, the video clip record / send facility 604 just change colors to indicate that the avatar application is recording. If there is no timer or limit on the length of the recording, the user may have the video clip record / send option 604 must select again to stop recording.

In manchen Beispielen kann ein Benutzer die Avatar-Auswahlmöglichkeit 606 verwenden, um einen Avatar auszuwählen. Dies kann vor dem Aufzeichnen des Avatar-Videoclips und/oder nach dem Aufzeichnen des Avatar-Videoclips erfolgen. Wenn die Auswahl vor dem Aufzeichnen erfolgt, wird die anfängliche Vorschau der Bewegungen und Gesichtscharakteristika des Benutzers als der ausgewählte Avatar dargestellt. Zusätzlich wird die Aufzeichnung durchgeführt, während eine Live-Vorschau (z. B. eine Echtzeitvorschau) der Aufzeichnung dargestellt wird, wobei das Gesicht des Benutzers durch den ausgewählten Avatar dargestellt wird. Sobald die Aufzeichnung abgeschlossen ist, wird eine zweite Vorschau (z. B. eine Wiedergabe der aktuellen Aufzeichnung) dargestellt, wiederum unter Verwendung des ausgewählten Avatars. In dieser Stufe kann der Benutzer jedoch durch die Avatar-Auswahlmöglichkeit 606 scrollen, um einen neuen Avatar zum Betrachten der Aufzeichnungsvorschau auszuwählen. In manchen Fällen beginnt nach der Auswahl eines neuen Avatars die UI eine Vorschau der Aufzeichnung unter Verwendung des ausgewählten Avatars. Die neue Vorschau kann mit den Audio-Videoeffekten dargestellt werden, oder wie ursprünglich aufgezeichnet. Wie angegeben, kann die Bestimmung darüber, ob die Effektversion oder das Original darzustellen ist, zumindest teilweise auf dem letzten angewendeten Abspielverfahren basieren. Wenn zum Beispiel bei dem letzten Abspielen Effekte verwendet wurden, können bei dem ersten Abspielen nach der Auswahl eines neuen Avatars Effekte verwendet werden. Wenn jedoch bei dem letzten Abspielen keine Effekte verwendet wurden, kann es sein, dass bei dem ersten Abspielen nach der Auswahl eines neuen Avatars keine Effekte verwendet werden. In manchen Beispielen kann der Benutzer den Videoclip mit Effekten abspielen, indem er eine Effektvorschaumöglichkeit 608 auswählt, oder ohne Effekte, indem er eine Originalvorschaumöglichkeit 610 auswählt. Sobald er mit dem Videoclip (z. B. der Nachricht) zufrieden ist, kann der Benutzer das Avatarvideo in einer Nachricht an eine andere Rechenvorrichtung senden, indem er die Videoclip-Aufzeichnen/Senden-Möglichkeit 604 verwendet. Der Videoclip wird unter Verwendung des Formats gesendet, das der letzten Vorschau entspricht (z. B. mit Effekten oder ohne Effekte). Zu jeder Zeit kann, wenn es der Benutzer wünscht, eine Videoclip-Löschen-Möglichkeit 612 ausgewählt werden, um das Avatarvideo zu löschen und die Avatar- und/oder Nachrichtenanwendungen entweder von vom zu beginnen oder zu verlassen.In some examples, a user can choose the avatar option 606 use to select an avatar. This can be done before the avatar video clip is recorded and / or after the avatar video clip has been recorded. If the selection is made prior to recording, the initial preview of the user's movements and facial characteristics is presented as the selected avatar. In addition, the recording is performed while a live preview (e.g., a real-time preview) of the recording is displayed, with the user's face being represented by the selected avatar. Once the recording is complete, a second preview (e.g. a playback of the current recording) is displayed, again using the selected avatar. At this stage, however, the user can use the avatar selection option 606 Scroll to select a new avatar to view the recording preview. In some cases, after selecting a new avatar, the UI will begin previewing the recording using the selected avatar. The new preview can be displayed with the audio-video effects or as originally recorded. As indicated, the determination of whether to display the effect version or the original can be based at least in part on the last playback method used. For example, if effects were used the last time they were played, effects can be used the first time they were played after a new avatar was selected. However, if no effects were used the last time it was played, the first time it was played after selecting a new avatar, no effects may be used. In some examples, the user can play the video clip with effects by having an effect preview option 608 selects, or without effects, by having an original preview option 610 selects. Once satisfied with the video clip (e.g. the message), the user can send the avatar video in a message to another computing device by using the video clip record / send option 604 used. The video clip is sent using the format that corresponds to the last preview (for example, with or without effects). A video clip deletion option is available at any time if the user so desires 612 can be selected to delete the avatar video and either start or exit the avatar and / or messaging applications from.

7 veranschaulicht einen Beispielablaufplan, der einen Prozess (z. B. ein computerimplementiertes Verfahren) 700 zum Implementieren verschiedener Audio- und/oder Videoeffekte zeigt, die zumindest teilweise auf Audio- und/oder Videomerkmalen basieren, gemäß mindestens einigen wenigen Beispielen. In manchen Beispielen kann die Rechenvorrichtung 106 der 1 oder eine andere ähnliche Benutzervorrichtung (welche z. B. zumindest eine Avataranwendung benutzt, die eine ähnliche ist wie die in 6 gezeigte und der Avatarprozess 300 der 3) den Prozess 700 der 7 ausführen. 7th FIG. 10 illustrates an example flow diagram showing a process (e.g., a computer implemented method) 700 for implementing various audio and / or video effects based at least in part on audio and / or video features, according to at least a few examples. In some examples, the computing device may 106 the 1 or some other similar user device (e.g. using at least one avatar application similar to that in 6th shown and the avatar process 300 the 3 ) the process 700 the 7th To run.

In Block 702 kann die Rechenvorrichtung 106 eine Schnittstelle zur Erzeugung virtueller Avatare anzeigen. Die Schnittstelle zur Erzeugung virtueller Avatare kann ähnlich aussehen wie die in 6 veranschaulichte UI. Es kann jedoch jede UI verwendet werden, die so konfiguriert ist, dass sie dieselben hierin beschriebenen Merkmale ermöglicht.In block 702 can the computing device 106 display an interface for creating virtual avatars. The interface for creating virtual avatars can look similar to the one in 6th illustrated UI. However, any UI configured to enable the same features described herein can be used.

In Block 704 kann die Rechenvorrichtung 106 einen ersten Vorschauinhalt eines virtuellen Avatars anzeigen. In manchen Beispielen kann der erste Vorschauinhalt eine Echtzeitdarstellung des Gesichts des Benutzers sein, einschließlich Bewegung und Gesichtsausdrücken. Die erste Vorschau würde jedoch einen Avatar (z. B. eine Trickfilm-Figur, eine digitale/virtuelle Puppe) bereitstellen, um das Gesicht des Benutzers darzustellen, anstatt eines Bildes des Gesichts des Benutzers. Bei der ersten Vorschau kann es sich lediglich um ein Video oder zumindest um eine Darstellung des Avatars ohne Ton handeln. In manchen Beispielen wird diese erste Vorschau nicht aufgezeichnet und kann so lange benutzt werden, wie es der Benutzer wünscht, ohne andere Begrenzung als durch die Batterie-/Akkuleistung oder den Speicherplatz der Rechenvorrichtung 106.In block 704 can the computing device 106 display a first preview content of a virtual avatar. In some examples, the first preview content may be a real-time representation of the Face of the user, including movement and facial expressions. However, the first preview would provide an avatar (e.g. cartoon character, digital / virtual doll) to represent the user's face rather than an image of the user's face. The first preview can only be a video or at least a representation of the avatar without sound. In some examples, this initial preview is not recorded and can be used for as long as the user desires without limitation other than battery life or computing device storage space 106 .

In Block 706 kann die Rechenvorrichtung 106 die Auswahl einer Eingabe (z. B. die Videoclip-Aufzeichnen/Senden-Möglichkeit 604 der 6) in die Schnittstelle zur Erzeugung virtueller Avatare erfassen. Diese Auswahl kann vorgenommen werden, während die UI den ersten Vorschauinhalt anzeigt.In block 706 can the computing device 106 the selection of an input (e.g. the video clip recording / sending option 604 the 6th ) in the interface for creating virtual avatars. This selection can be made while the UI is displaying the first preview content.

In Block 708 kann die Rechenvorrichtung 106 beginnen, Video- und Audiosignale aufzunehmen, zumindest teilweise basierend auf der Eingabe, die in dem Block 706 erfasst wird. Wie beschrieben, können die Video- und Audiosignale durch geeignete Hardware-Komponenten aufgenommen werden und können durch eine oder eine Kombination solcher Komponenten aufgenommen werden.In block 708 can the computing device 106 begin to record video and audio signals based at least in part on the input provided in the block 706 is captured. As described, the video and audio signals can be recorded by suitable hardware components and can be recorded by one or a combination of such components.

In Block 710 kann die Rechenvorrichtung 106 Audiomerkmals-Charakteristika und Gesichtsmerkmals-Charakteristika extrahieren, wie vorstehend detailliert beschrieben. Wie angegeben, kann die Extraktion durch spezielle Module des Avatarprozesses 300 der 3 oder durch andere Extraktions- und/oder Analysekomponenten der Avataranwendung und/oder der Rechenvorrichtung 106 durchgeführt werden.In block 710 can the computing device 106 Extract audio feature characteristics and facial feature characteristics as detailed above. As indicated, the extraction can be done by special modules of the avatar process 300 the 3 or by other extraction and / or analysis components of the avatar application and / or the computing device 106 be performed.

In Block 712 kann die Rechenvorrichtung 106 angepasste Audiosignale erzeugen, zumindest teilweise basierend auf Gesichtsmerkmals-Charakteristika und Audiomerkmals-Charakteristika. Zum Beispiel kann die in dem Block 708 aufgenommene Audiodatei permanent (oder temporär) so überarbeitet (z. B. angepasst) werden, dass sie neue Laute, neue Wörter usw. einschließt, und/oder dass die Originalstimmlage, der Originalton, die Originallautstärke usw. angepasst werden. Diese Anpassungen können zumindest teilweise basierend auf dem Kontext vorgenommen werden, der über eine Analyse der Gesichtsmerkmals-Charakteristika und der Audiomerkmals-Charakteristika erfasst wird. Zusätzlich können die Anpassungen basierend auf dem ausgewählten Avatartyp und/oder basierend auf speziellen Bewegungen, Gesichtsausdrücken, Wörtern, Ausdrücken oder Handlungen erfolgen, die während der Aufzeichnungssitzung von dem Benutzer durchgeführt werden (z. B. durch das Gesicht des Benutzers ausgedrückt werden).In block 712 can the computing device 106 generate adjusted audio signals based at least in part on facial feature characteristics and audio feature characteristics. For example, the one in the block 708 recorded audio file can be permanently (or temporarily) revised (e.g. adjusted) to include new sounds, new words, etc., and / or that the original pitch, original sound, original volume, etc. are adjusted. These adjustments can be made based at least in part on the context, which is captured via an analysis of the facial feature characteristics and the audio feature characteristics. Additionally, the adjustments may be based on the selected avatar type and / or based on specific movements, facial expressions, words, phrases, or actions performed by the user (e.g., expressed through the user's face) during the recording session.

In Block 714 kann die Rechenvorrichtung 106 einen zweiten Vorschauinhalt des virtuellen Avatars in der UI gemäß dem angepassten Audiosignal erzeugen. Der erzeugte zweite Vorschauinhalt kann zumindest teilweise auf dem aktuell ausgewählten Avatar oder irgendeinem Standard-Avatar basieren. Sobald der zweite Vorschauinhalt erzeugt ist, kann die Rechenvorrichtung 106 in Block 716 den zweiten Vorschauinhalt in der UI darstellen.In block 714 can the computing device 106 generate a second preview content of the virtual avatar in the UI according to the customized audio signal. The generated second preview content can be based at least partially on the currently selected avatar or any standard avatar. As soon as the second preview content is generated, the computing device can 106 in block 716 display the second preview content in the UI.

8 veranschaulicht einen Beispielablaufplan, der einen Prozess (z. B. Anweisungen, die auf einem computerlesbaren Speicher gespeichert sind und ausgeführt werden können) 800 zum Implementieren verschiedener Audio- und/oder Videoeffekte darstellt, die zumindest teilweise auf Audio- und/oder Videomerkmalen basieren, gemäß mindestens einigen wenigen Beispielen. In manchen Beispielen kann die Rechenvorrichtung 106 der 1 oder eine andere ähnliche Benutzervorrichtung (welche z. B. zumindest eine Avataranwendung benutzt, die eine ähnliche ist wie die in 6 dargestellte und der Avatarprozess 300 der 3) den Prozess 800 der 8 durchführen. 8th Fig. 10 illustrates an example flowchart depicting a process (e.g., instructions stored on computer readable memory and executable) 800 for implementing various audio and / or video effects based at least in part on audio and / or video features, according to at least a few examples. In some examples, the computing device may 106 the 1 or some other similar user device (e.g. using at least one avatar application similar to that in 6th and the avatar process 300 the 3 ) the process 800 the 8th carry out.

In Block 802 kann die Rechenvorrichtung 106 eine Anforderung erfassen, einen Avatar-Videoclip eines virtuellen Avatars zu erzeugen. In manchen Beispielen kann die Anforderung zumindest teilweise auf der Auswahl einer Videoclip-Aufzeichnen/Senden-Möglichkeit 604 der 6 durch den Benutzer basieren.In block 802 can the computing device 106 detect a request to create an avatar video clip of a virtual avatar. In some examples, the request may be based, at least in part, on selecting a video clip record / broadcast option 604 the 6th based on the user.

In Block 804 kann die Rechenvorrichtung 106 ein Videosignal aufnehmen, welches zu einem Gesicht in dem Sichtfeld der Kamera gehört. In Block 806 kann die Rechenvorrichtung 106 ein Audiosignal aufnehmen, welches dem Videosignal entspricht (welches z. B. von dem Gesicht kommt, das von der Kamera aufgenommen wird).In block 804 can the computing device 106 record a video signal associated with a face in the field of view of the camera. In block 806 can the computing device 106 record an audio signal that corresponds to the video signal (e.g. coming from the face recorded by the camera).

In Block 808 kann die Rechenvorrichtung 106 Stimmenmerkmals-Charakteristika aus dem Audiosignal extrahieren, und in Block 810 kann die Rechenvorrichtung 106 Gesichtsmerkmals-Charakteristika aus dem Videosignal extrahieren.In block 808 can the computing device 106 Extract voice feature characteristics from the audio signal, and in block 810 can the computing device 106 Extract facial feature characteristics from the video signal.

In Block 812 kann die Rechenvorrichtung 106 eine Anforderung erfassen, eine Vorschau des Avatar-Videoclips anzusehen. Diese Anforderung kann zumindest teilweise auf der Auswahl eines neuen Avatars durch einen Benutzer über die Avatar-Auswahlmöglichkeit 606 der 6 basieren oder zumindest teilweise auf der Auswahl der Effektvorschaumöglichkeit 608 der 6 durch einen Benutzer basieren.In block 812 can the computing device 106 capture a request to preview the avatar video clip. This requirement can at least in part be based on the selection of a new avatar by a user via the avatar selection option 606 the 6th are based or at least partly on the selection of the effect preview option 608 the 6th based on a user.

In Block 814 kann die Rechenvorrichtung 106 angepasste Audiosignale erzeugen, zumindest teilweise basierend auf Gesichtsmerkmals-Charakteristika und Stimmenmerkmals-Charakteristika. Zum Beispiel kann die in dem Block 806 aufgenommene Audiodatei so überarbeitet (z. B. angepasst) werden, dass sie neue Laute, neue Wörter usw. einschließt, und/oder dass die Originalstimmlage, der Originalton, die Originallautstärke usw. angepasst werden. Diese Anpassungen können zumindest teilweise basierend auf dem Kontext vorgenommen werden, der über eine Analyse der Gesichtsmerkmals-Charakteristika und der Stimmenmerkmals-Charakteristika erfasst wird. Zusätzlich können die Anpassungen basierend auf dem ausgewählten Avatartyp und/oder basierend auf speziellen Bewegungen, Gesichtsausdrücken, Wörtern, Ausdrücken oder Handlungen erfolgen, die während der Aufzeichnungssitzung von dem Benutzer durchgeführt werden (z. B. durch das Gesicht des Benutzers ausgedrückt werden).In block 814 can the computing device 106 generate adjusted audio signals based at least in part on facial feature characteristics and voice feature characteristics. For example, the one in the block 806 The recorded audio file can be revised (e.g. adjusted) to include new sounds, new words, etc., and / or so that the original pitch, original sound, original volume, etc. are adjusted. These adjustments can be made based at least in part on the context captured via an analysis of the facial feature characteristics and the voice feature characteristics. Additionally, the adjustments may be based on the selected avatar type and / or based on specific movements, facial expressions, words, phrases, or actions performed by the user (e.g., expressed through the user's face) during the recording session.

In Block 816 kann die Rechenvorrichtung 106 eine Vorschau des virtuellen Avatars in der UI gemäß dem angepassten Audiosignal erzeugen. Die erzeugte Vorschau kann zumindest teilweise auf dem aktuell ausgewählten Avatar oder irgendeinem Standard-Avatar basieren. Sobald die Vorschau erzeugt ist, kann die Rechenvorrichtung 106 in dem Block 816 auch den zweiten Vorschauinhalt in der UI darstellen.In block 816 can the computing device 106 preview the virtual avatar in the UI according to the customized audio signal. The preview generated can be based at least in part on the currently selected avatar or any standard avatar. As soon as the preview is generated, the computing device can 106 in the block 816 also display the second preview content in the UI.

9 ist ein vereinfachtes Blockschaubild, welches eine Beispielarchitektur 900 zum Implementieren der hierin beschriebenen Merkmale gemäß mindestens einer Ausführungsform veranschaulicht. In manchen Beispielen kann die Rechenvorrichtung 902 (z. B. die Rechenvorrichtung 106 der 1), welche die Beispielarchitektur 900 aufweist, so konfiguriert sein, dass sie relevante UIs darstellt, Audio- und Videoinformationen aufnimmt, relevante Daten extrahiert, Logik durchführt, die Audio- und Videoinformationen überarbeitet und Animoji-Videos darstellt. 9 is a simplified block diagram showing an example architecture 900 for implementing the features described herein in accordance with at least one embodiment. In some examples, the computing device may 902 (e.g. the computing device 106 the 1 ) showing the example architecture 900 be configured to display relevant UIs, ingest audio and video information, extract relevant data, perform logic, revise the audio and video information, and display Animoji videos.

Die Rechenvorrichtung 902 kann so konfiguriert sein, dass sie Anwendungen oder Anweisungen zum Durchführen der beschriebenen Techniken ausführt oder auf andere Weise verwaltet, wie z. B., ohne darauf beschränkt zu sein, Bereitstellen einer Benutzerschnittstelle (z. B. der Benutzerschnittstelle 600 der 6) zum Aufzeichnen, Ansehen einer Vorschau und/oder Senden von Videoclips virtueller Avatare. Die Rechenvorrichtung 602 kann an der Benutzerschnittstelle Eingaben von einem Benutzer empfangen (z. B. unter Nutzung einer oder mehrerer E/A-Vorrichtungen 904, wie z. B. eines Touchscreens), Informationen aufnehmen, die Informationen verarbeiten und dann die Videoclips als Vorschauen darstellen, auch unter Nutzung der E/A-Vorrichtung(en) 904 (z. B. eines Lautsprechers der Rechenvorrichtung 902). Die Rechenvorrichtung 902 kann so konfiguriert sein, dass sie Audio- und/oder Videodateien überarbeitet, zumindest teilweise basierend auf Gesichtsmerkmalen, die aus dem aufgenommenen Video extrahiert werden, und/oder Stimmenmerkmalen, die aus dem aufgenommenen Audio extrahiert werden.The computing device 902 may be configured to run or otherwise manage applications or instructions for performing the techniques described, such as: B., but not limited to, providing a user interface (e.g. the user interface 600 the 6th ) to record, preview and / or send video clips of virtual avatars. The computing device 602 may receive input from a user at the user interface (e.g., using one or more I / O devices 904, such as a touch screen), record information, process the information, and then preview the video clips, too using the I / O device (s) 904 (e.g., a speaker of the computing device 902 ). The computing device 902 may be configured to revise audio and / or video files based at least in part on facial features extracted from the captured video and / or voice features extracted from the captured audio.

Die Rechenvorrichtung 902 kann ein beliebiger Typ einer Rechenvorrichtung sein, wie z. B., ohne darauf beschränkt zu sein, ein Mobiltelefon (z. B. ein Smartphone), ein Tablet-Computer, ein persönlicher digitaler Assistent (PDA), ein Laptop-Computer, ein Desktop-Computer, eine Thin-Client-Vorrichtung, eine Smartwatch, ein drahtloses Headset oder dergleichen.The computing device 902 can be any type of computing device such as E.g., but not limited to a mobile phone (e.g. a smartphone), a tablet computer, a personal digital assistant (PDA), a laptop computer, a desktop computer, a thin client device, a smart watch, wireless headset, or the like.

In einer veranschaulichenden Konfiguration kann die Rechenvorrichtung 902 mindestens einen Speicher 914 und eine oder mehrere Verarbeitungseinheiten (oder einen oder mehrere Prozessoren) 916 einschließen. Der Prozessor (die Prozessoren) 916 kann (können) gegebenenfalls in Hardware, computerausführbaren Anweisungen oder Kombinationen davon implementiert werden. Eine computerausführbare Anweisung oder Firmware-Implementierungen des Prozessors (der Prozessoren) 916 kann bzw. können computerausführbare oder maschinenausführbare Anweisungen einschließen, die in einer beliebigen geeigneten Programmiersprache zum Durchführen der verschiedenen beschriebenen Funktionen geschrieben sind.In an illustrative configuration, the computing device 902 at least one memory 914 and one or more processing units (or one or more processors) 916. The processor (s) 916 can be implemented in hardware, computer-executable instructions, or combinations thereof as appropriate. Computer executable instruction or firmware implementations of processor (s) 916 may include computer executable or machine executable instructions written in any suitable programming language for performing the various functions described.

Der Speicher 914 kann Programmanweisungen speichern, welche in den Prozessor (die Prozessoren) 916 ladbar und darauf ausführbar sind, ebenso wie Daten, die während der Ausführung dieser Programme erzeugt werden. Abhängig von der Konfiguration und dem Typ der Rechenvorrichtung 902 kann der Speicher 914 flüchtig (wie z. B. ein Direktzugriffsspeicher RAM) und/oder nicht-flüchtig (wie z. B. ein Nur-Lese-Speicher (ROM), ein Flash-Speicher usw.) sein. Die Rechenvorrichtung 902 kann außerdem eine zusätzliche entfernbare Speicherung und/oder nicht-entfernbare Speicherung 926 einschließen, einschließlich, ohne darauf beschränkt zu sein, Magnetspeicherung, optische Platten und/oder Bandspeicherung. Die Plattenlaufwerke und ihre zugehörigen nicht-flüchtigen computerlesbaren Medien können eine nicht-flüchtige Speicherung von computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen und anderen Daten für die Rechenvorrichtungen bereitstellen. In manchen Implementierungen kann der Speicher 914 mehrere verschiedene Speichertypen einschließen, wie z. B. statischen Direktzugriffsspeicher (SRAM), dynamischen Direktzugriffsspeicher (DRAM) oder ROM. Obwohl der hierin beschriebene flüchtige Speicher als RAM bezeichnet werden kann, wäre jeder flüchtige Speicher geeignet, der darin gespeicherte Daten nicht weiter speichert, sobald er von einem Host und/oder einer Stromversorgung getrennt wird.The memory 914 may store program instructions that are loadable into and executable on processor (s) 916, as well as data generated during the execution of those programs. Depending on the configuration and type of computing device 902 can the memory 914 volatile (such as RAM random access memory) and / or non-volatile (such as read only memory (ROM), flash memory, etc.). The computing device 902 can also have additional removable storage and / or non-removable storage 926 include, including but not limited to, magnetic storage, optical disks, and / or tape storage. The disk drives and their associated non-transitory computer readable media can provide non-transitory storage of computer readable instructions, data structures, program modules, and other data for the computing devices. In some implementations, the memory 914 include several different types of storage, such as Static random access memory (SRAM), dynamic random access memory (DRAM), or ROM. Although the volatile memory described herein may be referred to as RAM, any volatile memory that would no longer store data stored therein once disconnected from a host and / or power supply would be suitable.

Der Speicher 914 und die zusätzliche Speicherung 926, sowohl entfernbar als auch nicht-entfernbar, sind jeweils Beispiele für permanente computerlesbare Speicherungsmedien. Zum Beispiel können permanente computerlesbare Speicherungsmedien flüchtige oder nicht-flüchtige, entfernbare oder nicht-entfernbare Medien einschließen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen, wie z. B. computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert werden. Der Speicher 914 und die zusätzliche Speicherung 926 sind beide Beispiele für permanente computerlesbare Speicherungsmedien. Zusätzliche Arten von Computerspeicherungsmedien, die in der Rechenvorrichtung 902 vorhanden sein können, können, ohne darauf beschränkt zu sein, Phasenwechsel-RAM (PRAM), SRAM, DRAM, RAM, ROM, elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM), Flash-Speicher oder eine andere Speichertechnologie, einen Compact-Disc-Nur-Lese-Speicher (CD-ROM), eine Digital Video Disc (DVD) oder eine andere optische Speicherung, Magnetkassetten, ein Magnetband, eine Magnetplattenspeicherung oder andere Magnetspeicherungsvorrichtungen oder ein beliebiges anderes Medium einschließen, welches verwendet werden kann, um die gewünschten Informationen zu speichern, und auf welches durch die Rechenvorrichtung 902 zugegriffen werden kann. Kombinationen beliebiger der Vorstehenden sollten ebenfalls in dem Schutzumfang der permanenten computerlesbaren Speicherungsmedien eingeschlossen sein.The memory 914 and the additional storage 926 , both removable and non-removable, are examples of permanent computer readable storage media, respectively. For example, permanent computer-readable storage media can include volatile or non-volatile, removable or non-removable media that can be used in any method or technology for storing information, such as. B. computer-readable instructions, data structures, program modules or other data can be implemented. The memory 914 and the additional storage 926 are both examples of permanent computer readable storage media. Additional types of computer storage media used in the computing device 902 phase change RAM (PRAM), SRAM, DRAM, RAM, ROM, electrically erasable programmable read-only memory (EEPROM), flash memory or another storage technology, a compact Read-only disc storage (CD-ROM), digital video disc (DVD) or other optical storage, magnetic cartridges, magnetic tape, magnetic disk storage, or other magnetic storage devices, or any other medium that can be used to store the desired information to be stored, and to which by the computing device 902 can be accessed. Combinations of any of the foregoing should also be included within the scope of persistent computer readable storage media.

Alternativ können computerlesbare Kommunikationsmedien computerlesbare Anweisungen, Programmmodule oder andere Daten einschließen, die innerhalb eines Datensignals gesendet werden, wie z. B. einer Trägerwelle oder einer anderen Übertragung. Jedoch schließen computerlesbare Speicherungsmedien, wie hierin verwendet, nicht computerlesbare Kommunikationsmedien ein.Alternatively, computer readable communication media can include computer readable instructions, program modules, or other data sent within a data signal, such as, for example, a. B. a carrier wave or other transmission. However, as used herein, computer readable storage media does not include computer readable communication media.

Die Rechenvorrichtung 902 kann auch eine Kommunikationsverbindung (Kommunikationsverbindungen) 928 enthalten, welche ermöglicht (ermöglichen), dass die Rechenvorrichtung 902 über ein oder mehrere Netzwerke mit einem Datenspeicher, einer anderen Rechenvorrichtung oder einem Server, Benutzerendvorrichtungen und/oder anderen Vorrichtungen kommuniziert. Solche Netzwerke können ein beliebiges oder eine Kombination von vielen verschiedenen Arten von Netzwerken, wie z. B. Kabelnetzwerke, das Internet, drahtlose Netzwerke, zelluläre Netzwerke, Satellitennetzwerke, andere private und/oder öffentliche Netzwerke oder eine beliebige Kombination davon, einschließen. Die Rechenvorrichtung 902 kann außerdem eine E/A-Vorrichtung (E/A-Vorrichtungen) 904 einschließen, wie z. B. eine Berührungs-Eingabevorrichtung, eine Tastatur, eine Maus, einen Stift, eine Spracheingabevorrichtung, eine Anzeige, einen Lautsprecher, einen Drucker usw.The computing device 902 can also be a communication link (communication links) 928 included, which enables the computing device 902 communicates over one or more networks with a data store, other computing device or server, user terminal devices, and / or other devices. Such networks can be any or a combination of many different types of networks, such as Cable networks, the Internet, wireless networks, cellular networks, satellite networks, other private and / or public networks, or any combination thereof. The computing device 902 may also include an I / O device (s) 904, such as A touch input device, a keyboard, a mouse, a pen, a voice input device, a display, a speaker, a printer, etc.

Wenn man die Inhalte des Speichers 914 detaillierter betrachtet, kann der Speicher 914 ein Betriebssystem 932 und/oder ein oder mehrere Anwendungsprogramme oder Dienste zum Implementieren der hierin offenbarten Merkmale einschließen, einschließlich ein Benutzerschnittstellenmodul 934, ein Avatar-Steuerungsmodul 936, ein Avatar-Anwendungsmodul 938 und ein Nachrichtenmodul 940. Der Speicher 914 kann außerdem dafür konfiguriert sein, eine oder mehrere Audio- und Videodateien zu speichern, die dafür zu verwenden sind, Audio- und Videoausgaben zu erzeugen. Auf diese Weise kann die Rechenvorrichtung 902 alle der hierin beschriebenen Operationen durchführen.If you look at the contents of the store 914 Considered in more detail, the memory 914 an operating system 932 and / or include one or more application programs or services for implementing the features disclosed herein, including a user interface module 934 , an avatar control module 936 , an avatar application module 938 and a message module 940 . The memory 914 can also be configured to store one or more audio and video files to be used to produce audio and video output. In this way, the computing device 902 perform all of the operations described herein.

In manchen Beispielen kann das Benutzerschnittstellenmodul 934 dafür konfiguriert sein, die Benutzerschnittstelle der Rechenvorrichtung 902 zu verwalten. Zum Beispiel kann das Benutzerschnittstellenmodul 934 eine beliebige Anzahl verschiedener UIs darstellen, die von der Rechenvorrichtung 902 angefordert werden. Insbesondere kann das Benutzerschnittstellenmodul 934 dafür konfiguriert sein, die UI 600 der 6 darzustellen, welche eine Implementierung der hierin beschriebenen Merkmale ermöglicht, einschließlich einer Kommunikation mit dem Avatarprozess 300 der 3, welches für das Aufnehmen von Video- und Audioinformationen, das Extrahieren geeigneter Gesichtsmerkmals- und Stimmenmerkmalsinformationen und das Überarbeiten der Video- und Audioinformationen vor der Darstellung des erzeugten Avatar-Videoclips, wie vorstehend beschrieben, verantwortlich ist.In some examples, the user interface module 934 be configured to use the user interface of the computing device 902 manage. For example, the user interface module 934 represent any number of different UIs used by the computing device 902 be requested. In particular, the user interface module 934 be configured to use the UI 600 the 6th that enables implementation of the features described herein, including communication with the avatar process 300 the 3 which is responsible for capturing video and audio information, extracting appropriate facial and voice characteristic information, and revising the video and audio information prior to displaying the generated avatar video clip as described above.

In manchen Beispielen ist das Avatar-Steuerungsmodul 936 dafür konfiguriert, den Avatarprozess 300 zu implementieren (z. B. Anweisungen zu dessen Implementierung auszuführen), während das Avatar-Anwendungsmodul 938 dafür konfiguriert ist, die Benutzergesichtsanwendung zu realisieren. Wie vorstehend angegeben, kann das Avatar-Anwendungsmodul 938 eine oder mehrere APIs zum Anfordern und/oder Bereitstellen von Informationen für das Avatar-Steuerungsmodul 936 benutzen.In some examples, the avatar control module is 936 configured to use the avatar process 300 to implement (e.g. carry out instructions for its implementation) while the Avatar application module 938 configured to implement the user face application. As indicated above, the Avatar application module 938 one or more APIs for requesting and / or providing information for the avatar control module 936 to use.

In manchen Ausführungsformen kann das Nachrichtenmodul 940 eine beliebige selbstständige oder hinzugefügte Nachrichtenanwendung implementieren, welche mit dem Avatar-Steuerungsmodul 936 und/oder dem Avatar-Anwendungsmodul 938 kommunizieren kann. In manchen Beispielen kann das Nachrichtenmodul 940 vollständig mit dem Avatar-Anwendungsmodul 938 integriert sein (wie z. B. in der UI 600 der 6 zu sehen), wobei es so aussieht, dass die Avataranwendung ein Teil der Nachrichtenanwendung ist. In anderen Beispielen jedoch kann die Nachrichtenanwendung 940 das Avatar-Anwendungsmodul 938 aufrufen, wenn ein Benutzer anfordert, einen Avatar-Videoclip zu erzeugen, und das Avatar-Anwendungsmodul 938 kann eine vollkommen neue Anwendung öffnen, welche mit dem Nachrichtenmodul 940 integriert ist.In some embodiments, the messaging module 940 implement any standalone or add-on messaging application using the Avatar Control Module 936 and / or the avatar application module 938 can communicate. In some examples, the messaging module 940 complete with the Avatar application module 938 be integrated (such as in the UI 600 the 6th it appears that the Avatar application is part of the messaging application. In other examples, however, the news application may 940 the avatar Application module 938 invoke when a user requests to create an avatar video clip and the avatar application module 938 can open a completely new application that uses the messaging module 940 is integrated.

Die Rechenvorrichtung 902 kann außerdem mit einer Kamera und einem Mikrofon ausgestattet sein, wie zumindest in 3 gezeigt, und die Prozessoren 916 können dafür konfiguriert sein, Anweisungen auszuführen, um eine erste Vorschau eines virtuellen Avatars anzuzeigen. In manchen Beispielen kann, während die erste Vorschau eines virtuellen Avatars angezeigt wird, eine Eingabe über eine Schnittstelle zur Erzeugung virtueller Avatare erfasst werden, die von dem Benutzerschnittstellenmodul 934 dargestellt wird. In manchen Fällen kann das Avatar-Steuerungsmodul 936 in Reaktion auf ein Erfassen der Eingabe in die Schnittstelle zur Erzeugung virtueller Avatare eine Aufnahmesitzung beginnen, einschließend: Aufnehmen eines Videosignals über die Kamera, welches zu einem Gesicht in einem Sichtfeld der Kamera gehört, Aufnehmen eines Audiosignals über das Mikrofon, welches zu dem aufgenommenen Videosignal gehört, Extrahieren von Audiomerkmals-Charakteristika aus dem aufgenommenen Audiosignal und Extrahieren von Gesichtsmerkmals-Charakteristika, die zu dem Gesicht gehören, aus dem aufgenommenen Videosignal. Zusätzlich kann das Avatar-Steuerungsmodul 936 in Reaktion auf ein Erfassen eines Ablaufs der Aufzeichnungssitzung ein angepasstes Audiosignal erzeugen, welches zumindest teilweise auf den Audiomerkmals-Charakteristika und den Gesichtsmerkmals-Charakteristika basiert, und gemäß den Gesichtsmerkmals-Charakteristika und dem angepassten Audiosignal eine zweite Vorschau des virtuellen Avatars in der Schnittstelle zur Erzeugung virtueller Avatare anzeigen.The computing device 902 can also be equipped with a camera and microphone, as at least in 3 shown and the processors 916 may be configured to execute instructions to display an initial preview of a virtual avatar. In some examples, while the first preview of a virtual avatar is displayed, input may be captured through a virtual avatar creation interface provided by the user interface module 934 is pictured. In some cases the avatar control module 936 in response to detecting the input to the virtual avatar generation interface, starting a recording session including: recording a video signal associated with a face in a field of view of the camera via the camera, recording an audio signal via the microphone which corresponds to the recorded video signal extracting audio feature characteristics from the recorded audio signal and extracting facial feature characteristics associated with the face from the recorded video signal. In addition, the avatar control module 936 in response to detecting a course of the recording session, generate an adjusted audio signal based at least in part on the audio feature characteristics and the facial feature characteristics, and according to the facial feature characteristics and the adjusted audio signal, a second preview of the virtual avatar in the interface for generation of virtual avatars.

Veranschaulichende Verfahren, ein computerlesbares Medium und Systeme zum Bereitstellen verschiedener Techniken zum Anpassen von Audio- und/oder Videoinhalt, zumindest teilweise basierend auf Stimmen- und/oder Gesichtsmerkmals-Charakteristika, sind vorstehend beschrieben. Manche oder alle dieser Systeme, Medien und Verfahren können, müssen jedoch nicht, zumindest teilweise durch Architekturen und Abläufe wie z. B. jenen implementiert werden, die zumindest vorstehend in 1 bis 9 gezeigt sind. Obwohl viele der Ausführungsformen vorstehend in Bezug auf Nachrichtenanwendungen beschrieben sind, sollte es sich verstehen, dass alle der vorstehenden Techniken innerhalb beliebiger Arten von Anwendungen verwendet werden können, einschließlich Echtzeitvideo-Abspielanwendungen oder Echtzeitvideo-Nachrichtenanwendungen. Zu Erläuterungszwecken werden zahlreiche spezielle Konfigurationen und Details dargelegt, um ein gründliches Verständnis der Beispiele bereitzustellen. Es sollte jedoch für den Fachmann ersichtlich sein, dass die Beispiele ohne die speziellen Details ausführbar sind. Des Weiteren wurden wohlbekannte Merkmale manchmal weggelassen oder vereinfacht, um das Beispiel, das beschrieben wird, nicht zu verschleiern.Illustrative methods, computer readable medium, and systems for providing various techniques for customizing audio and / or video content based at least in part on voice and / or facial feature characteristics are described above. Some or all of these systems, media and processes can, but do not have to, at least in part through architectures and processes such as B. those implemented at least in 1 to 9 are shown. While many of the embodiments are described above in relation to news applications, it should be understood that any of the above techniques can be used within any type of application, including real-time video playback applications or real-time video news applications. For purposes of explanation, numerous specific configurations and details are set forth in order to provide a thorough understanding of the examples. However, it should be apparent to those skilled in the art that the examples can be carried out without the specific details. Furthermore, well-known features have sometimes been omitted or simplified in order not to obscure the example being described.

Die verschiedenen Ausführungsformen können ferner in einer breiten Vielfalt von Betriebsumgebungen implementiert werden, welche in manchen Fällen einen oder mehrere Benutzercomputer, Rechenvorrichtungen oder Verarbeitungsvorrichtungen einschließen können, welche verwendet werden können, um beliebige von einer Anzahl von Anwendungen zu betreiben. Benutzer- oder Client-Vorrichtungen können beliebige aus einer Anzahl von Universal-Personal-Computern, wie z. B. Desktop- oder Laptop-Computern, auf denen ein Standard-Betriebssystem läuft, sowie zellulären, drahtlosen und handgehaltenen Vorrichtungen einschließen, auf denen eine Mobil-Software läuft und die fähig sind, eine Anzahl von Netzwerk- und Nachrichtenprotokollen zu unterstützen. Ein solches System kann außerdem eine Anzahl von Workstations einschließen, auf denen ein beliebiges aus einer Vielfalt von kommerziell erhältlichen Betriebssystemen und andere bekannte Anwendungen für Zwecke wie z. B. Entwicklung und Datenbankverwaltung läuft. Diese Vorrichtungen können außerdem andere Elektronikvorrichtungen einschließen, wie z. B. Dummy-Endvorrichtungen, Thin-Clients, Spielsysteme und andere Vorrichtungen, die fähig sind, über ein Netzwerk zu kommunizieren.The various embodiments can also be implemented in a wide variety of operating environments, which in some cases may include one or more user computers, computing devices, or processing devices that can be used to run any of a number of applications. User or client devices can be any of a number of general purpose personal computers, such as. Include desktop or laptop computers running a standard operating system as well as cellular, wireless and handheld devices running mobile software and capable of supporting a number of network and messaging protocols. Such a system may also include a number of workstations on which any of a variety of commercially available operating systems and other known applications for such purposes as B. Development and database administration in progress. These devices can also include other electronic devices, such as e.g. E.g., dummy end devices, thin clients, gaming systems, and other devices capable of communicating over a network.

In den meisten Ausführungsformen wird mindestens ein Netzwerk benutzt, welches dem Fachmann bekannt ist, zum Unterstützen von Kommunikationen unter Verwendung beliebiger aus einer Vielfalt von kommerziell erhältlichen Protokollen, wie z. B. TCP/IP, OSI, FTP, UPnP, NFS, CIFS und AppleTalk. Bei dem Netzwerk kann es sich zum Beispiel um ein lokales Netzwerk, ein Weitbereichsnetzwerk, ein virtuelles privates Netzwerk, das Internet, ein Intranet, ein Extranet, ein öffentliches Telefonwählnetz, ein Infrarot-Netzwerk, ein drahtloses Netzwerk und eine beliebige Kombination davon handeln.In most embodiments, at least one network known to those skilled in the art will be used to support communications using any of a variety of commercially available protocols, e.g. B. TCP / IP, OSI, FTP, UPnP, NFS, CIFS and AppleTalk. The network can be, for example, a local area network, a wide area network, a virtual private network, the Internet, an intranet, an extranet, a public switched telephone network, an infrared network, a wireless network, and any combination thereof.

In Ausführungsformen, bei denen ein Netzwerk-Server benutzt wird, können auf dem Netzwerk-Server beliebige aus einer Vielfalt von Server- oder Mid-Tier-Anwendungen laufen, einschließlich HTTP-Servern, FTP-Servern, CGI-Servern, Daten-Servern, Java-Servern und Geschäftsanwendungs-Servern. Der (Die) Server kann (können) auch fähig sein, Programme oder Skripte in Reaktion auf Anforderungen von Benutzervorrichtungen auszuführen, wie z. B. durch Ausführen einer oder mehrerer Anwendungen, welche als ein oder mehrere Skripte oder Programme implementiert werden können, die in einer beliebigen Programmiersprache geschrieben sind, wie z. B. Java^®, C, C# oder C++ oder eine beliebige Skriptsprache wie z. B. Perl, Python oder TCL sowie Kombinationen davon. Der (Die) Server kann (können) auch Datenbank-Server einschließen, einschließlich, ohne darauf beschränkt zu sein, jenen, die von Oracle^®, Microsoft^®, Sybase^®, und IBM^® kommerziell erhältlich sind.In embodiments using a network server, any of a variety of server or mid-tier applications can run on the network server, including HTTP servers, FTP servers, CGI servers, data servers, Java servers and business application servers. The server (s) may also be capable of executing programs or scripts in response to requests from user devices, e.g. By running one or more applications which can be implemented as one or more scripts or programs written in any programming language are, such as B. Java ^® , C, C # or C ++ or any scripting language such as. B. Perl, Python or TCL and combinations thereof. The applicant (s) server (can) also include database servers, including but not limited to, those that are commercially available from Oracle ^®, Microsoft ^®, Sybase ^®, and IBM ^®.

Die Umgebung kann eine Vielfalt von Datenspeichern und anderen Speicher- und Speicherungsmedien einschließen, wie vorstehend beschrieben. Diese können an einer Vielfalt von Stellen angeordnet sein, wie z. B. auf einem Speicherungsmedium lokal zu (und/oder angeordnet in) einem oder mehreren der Computer oder entfernt von beliebigen oder allen der Computer in dem Netzwerk. In einer speziellen Gruppe von Ausführungsformen können die Informationen in einem Speicherungsbereichs-Netzwerk (SAN) angeordnet sein, welches dem Fachmann vertraut ist. In ähnlicher Weise können alle notwendigen Dateien zum Durchführen der Funktionen, die den Computern, Servern oder anderen Netzwerkvorrichtungen zugeschrieben werden, gegebenenfalls lokal und/oder entfernt gespeichert sein. Wo ein System computergestützte Vorrichtungen einschließt, kann jede solche Vorrichtung Hardware-Elemente einschließen, welche über einen Bus elektrisch verbunden sein können, wobei die Elemente zum Beispiel mindestens eine Zentralprozessoreinheit (CPU), mindestens eine Eingabevorrichtung (z. B. eine Maus, eine Tastatur, einen Controller, einen Touchscreen oder ein Tastenfeld) und mindestens eine Ausgabevorrichtung (z. B. eine Anzeigevorrichtung, einen Drucker oder einen Lautsprecher) einschließen. Ein solches System kann außerdem eine oder mehrere Speicherungsvorrichtungen einschließen, wie z. B. Plattenlaufwerke, optische Speicherungsvorrichtungen und Solid-State-Speicherungsvorrichtungen, wie z. B. RAM oder ROM, ebenso wie Vorrichtungen entfernbarer Medien, Speicherkarten, Flash-Karten usw.The environment can include a variety of data stores and other storage and storage media, as described above. These can be located in a variety of locations, such as. On a storage medium local to (and / or located in) one or more of the computers or remotely from any or all of the computers on the network. In a specific group of embodiments, the information can be located in a storage area network (SAN) familiar to those skilled in the art. Similarly, any files necessary to perform the functions attributed to the computers, servers, or other network devices may be stored locally and / or remotely, if necessary. Where a system includes computerized devices, each such device may include hardware elements that may be electrically connected by a bus, the elements, for example, at least one central processing unit (CPU), at least one input device (e.g., mouse, keyboard , a controller, a touch screen, or a keypad) and at least one output device (e.g., a display device, a printer, or a speaker). Such a system may also include one or more storage devices, such as e.g. Disk drives, optical storage devices, and solid state storage devices such as e.g. B. RAM or ROM, as well as removable media devices, memory cards, flash cards, etc.

Solche Vorrichtungen können außerdem eine Lesevorrichtung für computerlesbare Speicherungsmedien, eine Kommunikationsvorrichtung (z. B. ein Modem, eine Netzwerkkarte (drahtlos oder drahtgebunden), eine Infrarot-Kommunikationsvorrichtung usw.) und Arbeitsspeicher einschließen, wie vorstehend beschrieben. Die Lesevorrichtung für computerlesbare Speicherungsmedien kann mit einem permanenten computerlesbaren Speicherungsmedium verbunden sein oder dafür konfiguriert sein, ein solches aufzunehmen, welches entfernte, lokale, feste und/oder entfernbare Speicherungsvorrichtungen sowie Speicherungsmedien zum temporären oder permanenteren Enthalten, Speichern, Senden und Abrufen von computerlesbaren Informationen repräsentiert. Das System und die verschiedenen Vorrichtungen schließen außerdem üblicherweise eine Anzahl von Software-Anwendungen, Modulen, Diensten oder anderen Elementen ein, die innerhalb mindestens einer Arbeitsspeichervorrichtung angeordnet sind, einschließlich eines Betriebssystems und Anwendungsprogrammen, wie z. B. einer Client-Anwendung oder eines Browsers. Es sollte ersehen werden, dass alternative Ausführungsformen zahlreiche Abweichungen von den vorstehend beschriebenen aufweisen können. Zum Beispiel könnte auch individuell angepasste Hardware verwendet werden und/oder bestimmte Elemente könnten in Hardware, Software (einschließlich portabler Software, wie z. B. Applets) oder beiden implementiert werden. Ferner kann eine Verbindung mit anderen Rechenvorrichtungen, wie z. B. Netzwerk-Eingabe/Ausgabe-Vorrichtungen, eingesetzt werden.Such devices may also include a computer readable storage media reader, communication device (e.g., modem, network card (wireless or wired), infrared communication device, etc.), and memory, as described above. The reading device for computer readable storage media can be connected to a permanent computer readable storage medium or be configured to receive one which represents remote, local, fixed and / or removable storage devices as well as storage media for temporarily or more permanently containing, storing, sending and retrieving computer readable information . The system and the various devices also typically include a number of software applications, modules, services, or other elements located within at least one memory device, including an operating system and application programs, such as, e.g. B. a client application or a browser. It should be understood that alternative embodiments can vary in numerous ways from those described above. For example, customized hardware could also be used and / or certain elements could be implemented in hardware, software (including portable software such as applets), or both. Furthermore, a connection with other computing devices, such as. B. network input / output devices can be used.

Permanente Speicherungsmedien und computerlesbare Speicherungsmedien zum Enthalten von Code oder Code-Abschnitten können beliebige geeignete Medien einschließen, die auf dem Fachgebiet bekannt sind oder verwendet werden (außer nicht-permanenten Medien wie Trägerwellen oder dergleichen), wie z. B., ohne darauf beschränkt zu sein, flüchtige und nicht-flüchtige, entfernbare und nicht-entfernbare Medien, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen, wie z. B. computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert werden, einschließlich RAM, ROM, elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM), Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD oder eine andere optische Speicherung, Magnetkassetten, Magnetband, Magnetplattenspeicherung oder Magnetspeicherungsvorrichtungen oder ein beliebiges anderes Medium, welches verwendet werden kann, um die gewünschten Informationen zu speichern, und auf welches durch eine Systemvorrichtung zugegriffen werden kann. Basierend auf der hierin bereitgestellten Offenbarung und den hierin bereitgestellten Lehren erkennt der Durchschnittsfachmann andere Wege und/oder Verfahren zum Implementieren der verschiedenen Ausführungsformen. Jedoch schließen, wie vorstehend angegeben, computerlesbare Speicherungsmedien keine nicht-permanente Medien ein, wie z. B. Trägerwellen oder dergleichen.Persistent storage media and computer readable storage media for containing code or sections of code may include any suitable media known or used in the art (other than non-permanent media such as carrier waves or the like), such as, e.g. B., but not limited to, volatile and non-volatile, removable and non-removable media used in any method or technology for storing information, such as. Computer readable instructions, data structures, program modules or other data, including RAM, ROM, electrically erasable programmable read-only memory (EEPROM), flash memory or other storage technology, CD-ROM, DVD or other optical storage , Magnetic cartridges, magnetic tape, magnetic disk storage or magnetic storage devices, or any other medium which can be used to store the desired information and which can be accessed by a system device. Based on the disclosure and teachings provided herein, those of ordinary skill in the art will recognize other ways and / or methods of implementing the various embodiments. However, as indicated above, computer readable storage media do not include non-permanent media, such as. B. carrier waves or the like.

Die Patentschrift und Zeichnungen sind dementsprechend in einem veranschaulichenden und nicht einschränkenden Sinn anzusehen. Es ist jedoch offensichtlich, dass verschiedene Modifikationen und Änderungen daran vorgenommen werden können, ohne von dem breiteren Geist und vom Schutzumfang der Offenbarung abzuweichen, wie sie in den Ansprüchen dargelegt sind.Accordingly, the specification and drawings are to be viewed in an illustrative rather than a restrictive sense. It is apparent, however, that various modifications and changes can be made therein without departing from the broader spirit and scope of the disclosure as set forth in the claims.

Andere Variationen liegen innerhalb des Geistes der vorliegenden Offenbarung. Somit sind, obwohl die offenbarten Techniken verschiedenen Modifikationen und alternativen Konstruktionen zugänglich sind, bestimmte veranschaulichte Ausführungsformen davon in den Zeichnungen gezeigt und vorstehend detailliert beschrieben worden. Es sollte sich jedoch verstehen, dass die Offenbarung nicht auf die spezielle offenbarte Form oder speziellen offenbarten Formen beschränkt werden soll, sondern im Gegenteil alle Modifikationen, alternativen Konstruktionen und Äquivalente abgedeckt sein sollen, die unter den Geist und den Schutzumfang der Offenbarung fallen, wie sie in den beiliegenden Ansprüchen definiert sind.Other variations are within the spirit of the present disclosure. Thus, although the techniques disclosed are different Modifications and alternative constructions are amenable to certain illustrated embodiments thereof shown in the drawings and described in detail above. It should be understood, however, that the disclosure is not intended to be limited to the particular form or forms disclosed, but on the contrary is intended to cover all modifications, alternative constructions, and equivalents that fall within the spirit and scope of the disclosure as they come are defined in the accompanying claims.

Die Verwendung der Begriffe „ein“, „eine“ und „der“, „die“, „das“ und ähnliche Bezugswörter im Kontext des Beschreibens der offenbarten Ausführungsformen (insbesondere in dem Kontext der folgenden Ansprüche) sind so auszulegen, dass sie sowohl den Singular als auch den Plural abdeckt, sofern hierin nicht anders angegeben und sofern der Kontext nicht eindeutig dagegen spricht. Die Begriffe „umfassend“, „aufweisend“, „einschließend“ und „enthaltend“ sind als offene Begriffe auszulegen (d. h., sie bedeuten „einschließen, ohne darauf beschränkt zu sein“), sofern nicht anders angegeben. Der Begriff „verbunden“ ist als „teilweise oder vollständig innerhalb ... enthalten“, „befestigt an“ oder „miteinander verbunden“ auszulegen, auch wenn etwas dazwischen angeordnet ist. Der Ausdruck „basierend auf“ sollte so verstanden werden, dass er offen und in keiner Weise beschränkend ist, und soll, wo dies angemessen ist, als „zumindest teilweise basierend auf“ interpretiert oder anderweitig gelesen werden. Die Angabe von Wertebereichen hierin soll lediglich als ein Kurzverfahren dafür dienen, jeden einzelnen Wert individuell aufzuführen, der in den Bereich fällt, sofern hierin nicht anders angegeben, und jeder einzelne Wert wird in die Patentschrift einbezogen, als ob er hierin individuell aufgeführt würde. Alle hierin beschriebenen Verfahren können in jeder beliebigen geeigneten Reihenfolge durchgeführt werden, sofern nicht hierin anders angegeben oder sofern der Kontext nicht eindeutig dagegen spricht. Durch die Verwendung etwaiger und aller Beispiele oder einer beispielhaften Sprache (z. B. „wie z. B.“), die hierin bereitgestellt wird, sollen lediglich Ausführungsformen der Offenbarung besser erklärt werden, und es soll keine Beschränkung des Schutzumfangs der Offenbarung dargestellt werden, sofern nicht anders beansprucht. Keine Sprache in der Patentschrift sollte so ausgelegt werden, dass sie irgendein nicht beanspruchtes Element als wesentlich für die Ausübung der Offenbarung anzeigt.The use of the terms “a”, “an” and “the”, “the”, “the” and similar reference words in the context of describing the disclosed embodiments (particularly in the context of the following claims) are to be construed as encompassing both the Covers the singular as well as the plural, unless otherwise stated herein and unless the context clearly speaks against it. The terms “comprising,” “having,” “including,” and “containing” are to be construed as open-ended terms (i.e., meaning “including, but not limited to”) unless otherwise specified. The term “connected” is to be interpreted as “partly or wholly contained within ...”, “attached to” or “connected to one another”, even if something is placed in between. The term "based on" should be construed as being candid and in no way limiting and, where appropriate, should be interpreted or otherwise read as "based at least in part on". The provision of ranges of values herein is intended only as a shorthand way of listing each individual value that falls within the range, unless otherwise specified herein, and each individual value is included in the specification as if it were individually listed herein. All of the methods described herein can be performed in any suitable order unless otherwise stated herein or unless the context clearly indicates otherwise. The use of any and all examples or exemplary language (e.g., “such as”) provided herein is intended to better explain embodiments of the disclosure, and not to limit the scope of the disclosure unless otherwise stated. No language in the specification should be construed as indicating any unclaimed element as essential to the practice of the disclosure.

Eine disjunktive Sprache, wie z. B. der Ausdruck „mindestens eines aus X, Y oder Z“, ist hingegen, sofern nicht speziell anders angegeben, innerhalb des Kontexts so zu verstehen, dass sie im Allgemeinen verwendet wird, um darzustellen, dass ein Element, Begriff usw. entweder X, Y oder Z oder eine beliebige Kombination davon (z. B. X, Y und/oder Z) sein kann. Somit soll eine solche disjunktive Sprache nicht allgemein implizieren, dass bestimmte Ausführungsformen erfordern, dass mindestens eines von X, mindestens eines von Y oder mindestens eines von Z vorliegt. Zusätzlich sollte eine konjunktive Sprache, wie z. B. der Ausdruck „mindestens eines von X, Y und Z“, sofern nicht speziell anders angegeben, ebenfalls so verstanden werden, dass sie X, Y, Z oder eine beliebige Kombination davon bedeutet, einschließlich „X, Y und/oder Z“.A disjunctive language such as However, unless specifically stated otherwise, the term "at least one of X, Y, or Z" is to be understood within the context of its general use to represent that an element, term, etc. is either X , Y, or Z, or any combination thereof (e.g., X, Y, and / or Z). Thus, such disjunctive language is not generally intended to imply that certain embodiments require at least one of X, at least one of Y, or at least one of Z to be present. In addition, a conjunctive language such as B. Unless specifically stated otherwise, the term "at least one of X, Y and Z" should also be understood to mean X, Y, Z or any combination thereof, including "X, Y and / or Z" .

Hierin werden bevorzugte Ausführungsformen dieser Offenbarung beschrieben, einschließlich des besten Modus zum Ausführen der Offenbarung, der den Erfindern bekannt ist. Variationen jener bevorzugten Ausführungsformen können dem Durchschnittsfachmann nach Lesen der vorhergehenden Beschreibung ersichtlich werden. Die Erfinder erwarten, dass der Fachmann gegebenenfalls solche Variationen einsetzt, und die Erfinder beabsichtigen, dass die Offenbarung anders ausgeübt wird, als speziell hierin beschrieben. Dementsprechend schließt diese Offenbarung alle Modifikationen und Äquivalente des Gegenstands ein, der in den hieran angehängten Ansprüchen ausgeführt wird, wie durch das anwendbare Recht gestattet. Überdies sind alle Kombinationen der vorstehend beschriebenen Elemente in allen möglichen Variationen davon von der Offenbarung umfasst, sofern hierin nicht anders angegeben und sofern der Kontext nicht eindeutig dagegen spricht.Preferred embodiments of this disclosure are described herein, including the best mode for carrying out the disclosure known to the inventors. Variations of those preferred embodiments will become apparent to those of ordinary skill in the art after reading the preceding description. The inventors expect that those skilled in the art will employ such variations as necessary, and the inventors intend that the disclosure be practiced otherwise than as specifically described herein. Accordingly, this disclosure includes all modifications and equivalents of subject matter set forth in the claims appended hereto as permitted by applicable law. Moreover, all combinations of the elements described above in all possible variations thereof are encompassed by the disclosure, unless otherwise stated herein and unless the context clearly indicates otherwise.

Alle Bezugnahmen, einschließlich Publikationen, Patentanmeldungen und Patentschriften, die hierin zitiert werden, werden hiermit durch Bezugnahme in demselben Maße einbezogen, als wenn für jede Bezugnahme individuell und speziell angegeben würde, dass sie durch Bezugnahme einbezogen wird, und in ihrer Gesamtheit hierin dargelegt würde.All references, including publications, patent applications and patents cited herein, are hereby incorporated by reference to the same extent as if each reference were individually and specifically indicated to be incorporated by reference and set forth in their entirety herein.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

US 15908603 [0001]
US 16/033111 [0001]

Claims

Method comprising: on an electronic device that has at least one camera and one microphone: Displaying an interface for creating virtual avatars; Displaying a first preview content of a virtual avatar in the interface for generating virtual avatars, the first preview content of the virtual avatar real-time preview video frames of a user portrait recording in a field of view of the camera and corresponding changes in appearance of the portrait photograph; Detecting an input to the interface for creating virtual avatars while displaying the first preview content of the virtual avatar; in response to the capture of the input in the interface for generating virtual avatars: Recording a video signal associated with the user portrait recording during a recording session via the camera; Recording a user audio signal through the microphone during the recording session; Extracting audio feature characteristics from the recorded user audio signal; and Extracting facial feature characteristics related to the Face include, from the recorded video signal; and in response to detecting a history of the recording session: Generating an adjusted audio signal from the recorded audio signal based at least in part on the facial feature characteristics and the audio feature characteristics; Generating a second preview content of the virtual avatar in the interface for generating virtual avatars in accordance with the facial feature characteristics and the adjusted audio signal; and Representation of the second preview content in the interface for generating virtual avatars.

Procedure according to Claim 1 further comprising storing facial feature metadata associated with the facial feature characteristics extracted from the video signal and storing audio metadata associated with the audio feature characteristics extracted from the audio signal.

Procedure according to Claim 2 , further comprising generating customized facial feature metadata from the facial feature metadata based at least in part on the facial feature characteristics and the audio feature characteristics.

Procedure according to Claim 3 wherein the second preview of the virtual avatar is further displayed according to the customized face metadata.

An electronic device comprising: a camera; a microphone; and one or more processors in communication with the camera and microphone, the one or more processors configured to: Detecting an input to an interface for generating virtual avatars while displaying a first preview of a virtual avatar; in response to capturing input to the virtual avatar generation interface, starting a recording session including: Taking in via the camera a video signal associated with a face in a field of view of the camera; Recording an audio signal associated with the recorded video signal through the microphone; Extracting audio feature characteristics from the recorded audio signal; and Extracting facial feature characteristics related to the Face include, from the recorded video signal; and in response to detecting a course of the recording session: Generating an adjusted audio signal based at least in part on the audio feature characteristics and the facial feature characteristics; and Displaying a second preview of the virtual avatar in the interface for generating virtual avatars according to the facial feature characteristics and the adjusted audio signal.

Electronic device according to Claim 5 wherein the audio signal is further adjusted based at least in part on a type of the virtual avatar.

Electronic device according to Claim 6 wherein the type of virtual avatar is received based at least in part on a choice of avatar types presented in the virtual avatar generation interface.

Electronic device according to Claim 6 wherein the type of virtual avatar includes an animal species, and wherein the customized audio signal is generated based at least in part on a predetermined sound associated with the animal species.

Electronic device according to Claim 5 wherein the one or more processors are further configured to determine whether a part of the audio signal corresponds to the face in the field of view.

Electronic device according to Claim 9 wherein the one or more processors are further configured to store the portion of the audio signal for use in generating the customized audio signal, in accordance with a determination that the portion of the audio signal corresponds to the face.

Electronic device according to Claim 9 wherein the one or more processors are further configured to discard at least the portion of the audio signal in accordance with a determination that the portion of the audio signal does not correspond to the face.

Electronic device according to Claim 5 wherein the audio feature characteristics include features of a voice associated with the face in the field of view.

Electronic device according to Claim 5 wherein the one or more processors are further configured to store facial feature metadata associated with the facial feature characteristics extracted from the video signal.

Electronic device according to Claim 13 wherein the one or more processors are further configured to store customized facial metadata based at least in part on the facial feature characteristics and the audio feature characteristics.

Electronic device according to Claim 14 wherein the second preview of the virtual avatar is generated according to the customized face metadata and the customized audio signal.

Computer readable storage medium that stores computer executable instructions that, when executed by one or more processors, configure the one or more processors to perform operations, comprising: in response to detecting a request to create an avatar video clip of a virtual avatar: Picking up a video signal associated with a face in a field of view of a camera of an electronic device via the camera; Picking up an audio signal through a microphone of the electronic device; Extracting voice feature characteristics from the recorded audio signal; and Extracting facial feature characteristics related to the face belong, from the recorded video signal; and in response to detecting a request to preview the avatar video clip: Generating an adjusted audio signal based at least in part on the facial feature characteristics and the voice feature characteristics; and Preview the video clip of the virtual avatar using the customized audio.

Computer readable storage medium according to Claim 16 wherein the audio signal is adjusted based at least in part on a facial expression identified in the facial feature characteristics associated with the face.

Computer readable storage medium according to Claim 16 wherein the adjusted audio signal is further adjusted by inserting one or more pre-stored audio samples.

Computer readable storage medium according to Claim 16 wherein the audio signal is adjusted based at least in part on a level, pitch, duration, variable playback speed, speech spectral format positions, speech spectral format levels, instant playback speed, or a change in voice associated with the face.

Computer readable storage medium according to Claim 16 wherein the one or more processors are further configured to perform the operations including sending the video clip of the virtual avatar to another electronic device.