[go: up one dir, main page]

WO2016158267A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2016158267A1
WO2016158267A1 PCT/JP2016/057392 JP2016057392W WO2016158267A1 WO 2016158267 A1 WO2016158267 A1 WO 2016158267A1 JP 2016057392 W JP2016057392 W JP 2016057392W WO 2016158267 A1 WO2016158267 A1 WO 2016158267A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information processing
users
processing apparatus
information
Prior art date
Application number
PCT/JP2016/057392
Other languages
English (en)
French (fr)
Inventor
敬太 望月
康隆 福本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201680016943.0A priority Critical patent/CN107408396A/zh
Priority to US15/554,328 priority patent/US20180040317A1/en
Priority to EP16772151.3A priority patent/EP3276622A4/en
Priority to JP2017509478A priority patent/JP6756328B2/ja
Publication of WO2016158267A1 publication Critical patent/WO2016158267A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/13Receivers
    • G01S19/34Power consumption

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 proposes a technique for extracting a conversation group based on the similarity of speech feature amounts such as frequency components extracted from speech information transmitted from each user's terminal device. Yes. This makes it possible to analyze conversations that occur unspecified between unspecified persons.
  • a new and improved information processing apparatus information processing, which makes it possible to detect conversations between users more robustly in various aspects while using feature amounts extracted from audio data. Propose methods and programs.
  • communication occurs between the plurality of users based on a feature amount indicating an interaction between the plurality of users including the user extracted from voice data including at least the user's speech.
  • an information processing apparatus including a communication determination unit that determines whether or not the communication is performed.
  • the processor is based on a feature amount indicating an interaction between a plurality of users including the user, which is extracted from voice data including at least the user's speech.
  • An information processing method including determining whether or not communication is occurring is provided.
  • communication between the plurality of users is performed based on a feature amount indicating an interaction between the plurality of users including the user, which is extracted from voice data including at least the user's speech.
  • a program for causing a computer to realize a function of determining whether or not it has occurred is provided.
  • conversations between users can be detected more robustly in various aspects while using feature amounts extracted from audio data.
  • 1st embodiment of this indication it is a figure which shows the example at the time of expressing the state of the conversation which has generate
  • 1st embodiment of this indication it is a figure which shows the example at the time of expressing the state of the conversation which has generate
  • FIG. 3 is a block diagram illustrating a hardware configuration example of an information processing apparatus according to an embodiment of the present disclosure.
  • FIG. 1 is a diagram for conceptually explaining conversation detection according to an embodiment of the present disclosure.
  • FIGS. 1A to 1C show a process of identifying a user having a conversation from a plurality of users in the present embodiment as (a) to (c).
  • users other than the target user are divided into candidate users and other users.
  • the candidate user is a user who is indicated to be close to the target user by GNSS or Wi-Fi positioning, for example.
  • sensor data is acquired for each of the target user and the candidate user. More specifically, the sensor data includes, for example, audio data acquired by a microphone (sound sensor) and sensor data such as acceleration indicating a user's motion. As shown in (c), it is determined whether or not a conversation is occurring between the target user and the candidate user based on the feature amount indicating the interaction between users extracted from these sensor data. .
  • the target user can be classified into a common conversation group together with candidate users who are determined to have conversations.
  • FIG. 2 is a diagram illustrating a configuration example of a system according to an embodiment of the present disclosure.
  • system 10 includes wearable terminal 100 (eyewear 100 a and listware 100 b), mobile terminal 200, and server 300.
  • the devices constituting the system 10 can be realized by, for example, a hardware configuration of an information processing device described later.
  • Wearable terminal 100 is worn by each user.
  • Wearable terminal 100 has a microphone (sound sensor), for example, and acquires voice data including a user's speech.
  • Wearable terminal 100 has other sensors, such as an acceleration sensor and a gyro sensor, and may acquire sensor data, such as acceleration which shows a user's motion, for example.
  • the eyewear 100a may be able to acquire sensor data indicating acceleration or angular velocity corresponding to the user's nodding.
  • the listware 100b it may be possible to acquire sensor data indicating a biological index such as an acceleration or angular velocity corresponding to a user's hand movement or a pulse.
  • the wearable terminal 100 may be used to present information generated by information processing according to the present embodiment as described later to the user. More specifically, the wearable terminal 100 may include an output device such as a display or a speaker, and information may be presented to the user from these output devices by an image or sound. In the illustrated example, wearable terminal 100 and mobile terminal 200 are shown separately, but in other examples, functions of wearable terminal 100 may be included in mobile terminal 200. In this case, the mobile terminal 200 acquires sensor data using a microphone, an acceleration sensor, a gyro sensor, or the like, and presents information generated by information processing to the user.
  • the mobile terminal 200 is carried by each user.
  • the mobile terminal 200 relays communication between the wearable terminal 100 and the server 300. More specifically, for example, communication between the wearable terminal 100 and the mobile terminal 200 is performed by wireless communication such as Bluetooth (registered trademark), and communication between the mobile terminal 200 and the server 300 is performed by network communication such as the Internet.
  • the mobile terminal 200 may transmit the information received from the wearable terminal 100 to the server 300 after processing the information as necessary.
  • the mobile terminal 200 may analyze sensor data including audio data received from the wearable terminal 100 and extract an intermediate feature amount.
  • the mobile terminal 200 may transfer the sensor data received from the wearable terminal 100 to the server 300 as it is.
  • the system 10 may not necessarily include the mobile terminal 200.
  • the mobile terminal 200 may be used to present information generated by information processing according to the present embodiment as described later to the user instead of or along with the wearable terminal 100.
  • the server 300 is realized by one or a plurality of information processing apparatuses on the network, and provides a service to each user. For example, the server 300 extracts feature quantities from sensor data collected from each user's wearable terminal 100 via the mobile terminal 200, and determines whether or not a conversation between users is occurring based on the feature quantities. judge. For example, the server 300 may generate information that expresses the state of occurrence of conversation between users based on the determination result. This information may be used for, for example, a screen display for a user (which may be a user who is not participating in a conversation or a user who is not a target for conversation detection) to grasp the occurrence state in real time. , May be accumulated as a log.
  • the information accumulated as a log may be referred to by a user as described above afterwards, or a graph structure that expresses the relationship among a plurality of users is specified based on the information accumulated as a log. May be.
  • these processes may be executed by the mobile terminal 200 that acts as a host between the wearable terminal 100 and the mobile terminal 200 of each user, for example.
  • the system 10 does not necessarily include the server 300.
  • FIG. 3 is a diagram illustrating a functional configuration example of a system according to an embodiment of the present disclosure.
  • the system 10 includes a sensing unit 11, an action detection unit 12, a candidate selection unit 13, a feature amount extraction unit 14, a conversation determination unit 15, a score calculation unit 16, as functional configurations. And a grouping unit 17.
  • the sensing unit 11 is mounted by a sensor such as a microphone (sound sensor), an acceleration sensor, and / or a gyro sensor included in the wearable terminal 100 described with reference to FIG.
  • the action detection unit 12, the candidate selection unit 13, the feature amount extraction unit 14, the conversation determination unit 15, the score calculation unit 16, and the grouping unit 17 are servers 300, mobile terminals 200, and / or a processor such as a CPU in the server 300.
  • the functional configuration implemented by the above processor may be integrated and implemented in any one of the information processing apparatuses included in the system 10, or may be distributed and implemented in a plurality of information processing apparatuses.
  • each functional configuration will be further described.
  • the sensing unit 11 includes, as inputs of the system 10, for example, a microphone (sound sensor) that acquires voice data, a sensor such as an acceleration sensor or a gyro sensor that acquires sensor data such as acceleration indicating user motion. Furthermore, the sensing unit 11 includes a wireless communication device such as a GNSS receiver or Wi-Fi that acquires user location information.
  • the sensing unit 11 is implemented in the wearable terminal 100 such as the eyewear 100a and the listware 100b illustrated in FIG. 2, for example. As described above, the function of the wearable terminal 100 is included in the mobile terminal 200. In this case, the sensing unit 11 is mounted in the mobile terminal 200.
  • the action detection unit 12 detects the action of each user who provided the sensor data from the sensor data (which may include voice data) acquired by the sensing unit 11. More specifically, for example, the action detection unit 12 detects an action of a user's utterance from voice data.
  • the action detection unit 12 does not necessarily have to detect the voice feature or the content of the utterance in the utterance. That is, the action detection unit 12 may simply detect whether or not the user has spoken at a certain time.
  • the action detection unit 12 may detect the voice characteristics and the content of the utterance when they can be detected.
  • the action detection unit 12 detects an action such as a user's nodding or hand movement (gesture) from sensor data of acceleration and angular velocity.
  • the action detection unit 12 may detect a user's psychological action from sensor data of a biological index such as a user's pulse.
  • the candidate selection unit 13 detects the positional relationship of each user who provided the sensor data from the sensor data acquired by the sensing unit 11, and selects a user whose positional relationship satisfies a predetermined condition as a candidate for a user who forms a conversation group Elected as. More specifically, the candidate selection unit 13 selects other users who are shown to be close to the target user by GNSS, Wi-Fi positioning, or the like as candidate users. In addition, when the candidate selection part 13 selects a candidate user, the positional information on each user may not necessarily be available. For example, the candidate selection unit 13 allows each user terminal device (for example, the wearable terminal 100 or the mobile terminal 200) to directly communicate with each other by wireless communication such as Bluetooth (registered trademark). May be recognized as close to each other.
  • wireless communication such as Bluetooth (registered trademark). May be recognized as close to each other.
  • the candidate selection part 13 may select a candidate user based on each user's action information. More specifically, for example, the candidate selection unit 13 acquires a user's action recognition result (for example, work in a office, meeting, etc.) associated with the position, and the action recognition result common to the target user is acquired. Other users may be selected as candidate users. In addition, for example, the candidate selection unit 13 acquires a user's schedule associated with the position (for example, work, meeting, etc. in the office, similar to the action recognition result), and the schedule common to the target user is acquired. Other users may be selected as candidate users.
  • a user's action recognition result for example, work in a office, meeting, etc.
  • Other users may be selected as candidate users.
  • the feature amount extraction unit 14 extracts, for each of the candidate users extracted by the candidate selection unit 13, a feature amount indicating an interrelationship of actions detected by the action detection unit 12, that is, an interaction with the target user.
  • such feature amounts are extracted based on the temporal relationship between actions.
  • the feature amount extraction unit 14 extracts a feature amount indicating an interaction between a plurality of users including the user from voice data including the user's uttered voice. More specifically, the plurality of users include a first user and a second user, and the feature amount extraction unit 14 determines the utterance voice of the first user (which may be the target user) and the second user (candidate). The feature amount is extracted based on the temporal relationship with the uttered voice of the user. This feature may indicate that an utterance exchange has occurred between the first user and the second user. For example, when the first user and the second user are having a conversation, it is unlikely that the utterance sections of the first user and the second user will be largely overlapped, and the utterance sections of the respective users are substantially alternating. Should have occurred.
  • the audio data acquired by the sensing unit 11 includes first audio data including the first user's utterance audio and second audio data including the second user's utterance audio, respectively. It may be included separately. Or the audio
  • the feature amount extraction unit 14 provides the utterance voice of the user included in the voice data provided by each user between the first user and the second user, as well as from each user.
  • the feature amount may be extracted based on the temporal relationship with the motion or the biological index indicated by the sensor data. That is, for example, the feature amount extraction unit 14 performs the motion or biological index indicated by the first user's speech voice included in the voice data provided by the first user and the sensor data provided by the second user.
  • the feature amount may be extracted based on the relationship between Further, the feature quantity extraction unit 14 may extract not only the feature quantity between the target user and the candidate user but also the feature quantity between the candidate users.
  • the conversation determination unit 15 determines whether or not a conversation is occurring between a plurality of users based on the feature amount extracted by the feature amount extraction unit 14.
  • the conversation determination part 15 is a conversation between the users selected from the plurality of users (all users to be processed) based on the positional relationship of each user. It is determined whether or not this has occurred.
  • the user to be determined may be selected based on the behavior information of each user. More specifically, for example, when the conversation determination unit 15 exceeds the predetermined threshold, the conversation occurrence probability calculated based on the feature amount extracted between the first user and the second user. In addition, it is determined that a conversation is occurring between the first user and the second user.
  • the conversation determination unit 15 calculates the occurrence probability based on the feature amount extracted by the feature amount extraction unit 14 between the target user and the candidate user, so that the candidate user who has conversation with the target user Can be specified. Furthermore, the conversation determination unit 15 can specify the conversation that has occurred between the candidate users by calculating the occurrence probability based on the feature amount extracted by the feature amount extraction unit 14 between the candidate users. . By specifying a conversation that occurs not only between the target user and the candidate user but also between the candidate users, it is possible to grasp the situation of the conversation that has occurred around the target user.
  • the score calculation unit 16 calculates a score among each of a plurality of users based on the conversation occurrence history based on the determination of the conversation determination unit 15. For example, the score calculation unit 16 may calculate the score by integrating the time during which conversation has occurred between the users in a predetermined period. Alternatively, the score calculation unit 16 may calculate the score based on the frequency at which a conversation of a predetermined time or more has occurred between each user during a predetermined period. In addition, for example, the score calculation unit 16 refers to the conversation occurrence probability calculated by the conversation determination unit 15 when it is determined that a conversation has occurred between users, and determines that the conversation has occurred with a higher occurrence probability. A higher score may be calculated among the users who have been.
  • the score calculation unit 16 estimates the degree of conversation excitement based on these, and the excitement is larger. Higher scores may be calculated among users who have conversations.
  • the grouping unit 17 groups users based on the score calculated by the score calculation unit 16. Grouping expressions can vary. For example, the grouping unit 17 classifies a plurality of users whose mutual scores exceed a threshold value into a common group. Further, the grouping unit 17 may specify a graph structure that expresses the relationship between users. The graph structure may be defined separately from the group, or the group may be defined according to the presence / absence or strength of the graph structure link. Note that the generation of information based on the determination result of the conversation determination unit 15 in the present embodiment is not limited to the grouping unit 17 and can be implemented in various forms. Such other examples will be described later.
  • FIG. 4 is a diagram for describing action detection according to an embodiment of the present disclosure.
  • the wearable terminal 100c includes a headset 110 and a motion sensor 120 for detecting the user's nodding.
  • the headset 110 includes a microphone 112 and acquires audio data.
  • the motion sensor 120 includes a gyro sensor 122 and an acceleration sensor 124, and acquires sensor data of angular velocity and acceleration.
  • the action detection unit 12 in the system 10 described above uses the start condition that the energy extracted from the audio data exceeds the threshold value, and the end condition that the state where the energy is below the threshold value continues for a predetermined time or more. Can be detected.
  • the action detection unit 12 can detect a section where the user's nod is generated by removing a section where the dispersion of acceleration is large from a section where the predetermined frequency of the angular velocity is large.
  • the feature amount extraction unit 14 in the system 10 calculates a feature amount indicating an interaction between the first user and the second user.
  • the feature amount extraction unit 14 extracts a positive feature amount with respect to the interaction between users based on, for example, the following events. That is, when the occurrence frequency of the following events is high, the feature amount indicating the interaction between users can be high.
  • the feature amount extraction unit 14 calculates a negative feature amount for the interaction between users based on, for example, the following events. That is, when the occurrence frequency of the following events is high, the feature amount indicating the interaction between users can be low.
  • Speaking section coincidence (the first user's utterance and the second user's utterance occur simultaneously) ⁇ No non-speaker reaction to utterance
  • the feature amount extraction unit 14 performs the calculation of the feature amount based on the above event at a predetermined cycle (100 Hz as an example).
  • the conversation determination unit 15 may calculate the calculated feature value for a predetermined period (feature value calculation period may be longer. For example, 0.2 Hz. In this case, the feature value may be treated as an average value every 30 s.
  • the determiner is, for example, a binary determiner, and determines whether the first user and the second user are likely to have a conversation or not.
  • Such a determiner is generated by machine learning, for example.
  • a machine learning technique for example, SVM (Support Vector Machine) can be used, but not limited to this example, various known techniques can be used.
  • the determination device in this embodiment should just be a determination device which can perform determination which is demonstrated below by the output. More specifically, the determiner may be a binary determiner or a determiner that outputs a probability. Further, the determiner is not necessarily generated by machine learning.
  • FIG. 5 is a diagram for describing the occurrence determination of the conversation according to an embodiment of the present disclosure.
  • the conversation determination unit 15 of the system 10 calculates the occurrence probability according to the output of the determiner, and determines whether or not conversation is occurring based on the occurrence probability. More specifically, the conversation determining unit 15 increases the probability of occurrence when the above-described determiner is a binary determiner and the output of the determiner is positive (conversation seems to have occurred) If the output is negative (no conversation appears to have occurred), the probability of occurrence is lowered.
  • the conversation determination unit 15 may change the score of the occurrence probability according to the magnitude of the probability output from the determiner.
  • the output of the determiner is implemented at 0.2 Hz, and the occurrence probability is updated every 5 s.
  • the conversation determination part 15 determines with the conversation having generate
  • FIG. 6 to 8 are diagrams illustrating an example in a case where the state of conversation occurring between users is expressed in time series in the embodiment of the present disclosure.
  • the conversation state between users based on the conversation occurrence determination by the conversation determination unit 15 as shown in FIG. May be output in time series.
  • Such an output may be presented to the user himself / herself who is involved in the conversation by the wearable terminal 100 or the mobile terminal 200 shown in the example of FIG.
  • it may be presented to other users who do not use the system 10 but have viewing authority.
  • a display control unit that displays a screen for presenting detected conversations in time series can be implemented by the processor of wearable terminal 100, mobile terminal 200, or server 300.
  • FIG. 6 is an example of expressing the state of conversation occurring between two users.
  • the occurrence state of the conversation between the user U1 and the user U2 is indicated by the link L1 and the link L2.
  • the widths of the link L1 and the link L2 change corresponding to the occurrence probability of the conversation between the user U1 and the user U2 calculated as in the example shown in FIG. That is, in the illustrated example, the link L1 indicates that the probability of occurrence of a conversation between the user U1 and the user U2 is low. For example, when the occurrence probability of the conversation is greater than 0 but does not reach the predetermined threshold, the link L1 can be displayed with the narrowest width. On the other hand, the link L2 having a wider width can be displayed as the probability of occurrence of conversation rises above the threshold.
  • the probability of occurrence of conversation is used to determine whether or not conversation is occurring, for example, by determination using a threshold as shown in FIG.
  • the probability of occurrence of conversation is calculated based on the feature amount as exemplified above, the high probability of occurrence of conversation means that the exchange of utterances and the nodding of non-speakers occur frequently. Can represent. Accordingly, it is possible to interpret the probability of occurrence of conversation as, for example, a continuous value indicating the conversation activity and use it for the change in display form as described above.
  • FIG. 7 is an example of expressing the state of conversation occurring between three users.
  • feature quantities are extracted for a pair of users (first user and second user) included in a plurality of target users, and further based on the feature quantities. It is determined whether or not a conversation is occurring according to the calculated conversation occurrence probability.
  • a wide link L2 is displayed between the user U1 and the user U2 and between the user U2 and the user U3.
  • the link L2 represents that a conversation is actively occurring between these users, as in the example shown in FIG.
  • a link L3 having a medium width is displayed between the user U3 and the user U1.
  • the link L3 expresses that the conversation is occurring between the user U3 and the user U1, but is not so active. From such a display, it is estimated that the conversation between the three users U1 to U3 is progressing with the user U2 as a hub.
  • the user U4 may be treated as a candidate user because the position of the user U4 is close to the users U1 to U3.
  • the feature quantity indicating the interaction between users extracted by the feature quantity extraction unit 14 does not become positive with respect to the occurrence of conversation, and therefore the probability of occurrence of conversation calculated by the conversation determination unit 15 is also high. It will not be high. Therefore, for example, a narrow link L1 may be displayed between the user U1 and the user U4 or between the user U3 and the user U4 as shown in FIG. Since the link does not exceed the width of the displayed link, the link L1 disappears when the user U4 moves away.
  • FIG. 8 is an example of expressing the state of conversation occurring between four users. Also in this example, a feature amount is extracted for a pair of users included in a plurality of target users, and it is further determined whether or not conversation is occurring according to the conversation occurrence probability calculated based on the feature amount.
  • a wide link L2 is displayed between the user U1 and the user U2 and between the user U3 and the user U4.
  • the link L2 represents that a conversation is actively occurring between these users, as in the example described above.
  • a narrow link L1 is displayed between the remaining combinations of the four users.
  • the link L1 expresses that almost no conversation has occurred between these users.
  • the feature amount extraction unit 14 extracts feature amounts indicating the interaction between users, it is possible to accurately specify a combination of users who are actually talking. is there.
  • FIG. 9 is a diagram for explaining optimization of a conversation graph structure according to an embodiment of the present disclosure.
  • the graph structure is optimized according to preset rules. More specifically, in the illustrated example, in the original graph structure including the users U1 to U7, the link between the user U2 and the user U5 is cut by optimization, and the conversation group including the users U1 to U4 The conversation group including the users U5 to U7 is separated.
  • the conversation determination unit 15 performs the optimization as described above by minimizing the energy of the generated graph structure (rule that minimizes energy).
  • the conversation determination unit 15 optimizes the graph structure according to a rule based on common sense such that the user who becomes a conversation hub is one person in the conversation group like the user U2 in the example of FIG. Also good.
  • the conversation determination unit 15 may use the speed of another user's reaction to a certain user's utterance to determine whether or not to maintain the link (speaker) And links between non-speakers who had a quick reaction to utterances are easier to maintain).
  • the wearable terminal 100 can detect the face orientation of each user, the conversation determination unit 15 may use the face orientation of each user to determine whether or not to maintain the link. Good (the link between the speaker and the speaker whose face is facing the speaker is more easily maintained).
  • FIG. 10 is a diagram for describing feature amount expansion according to an embodiment of the present disclosure.
  • the user's utterance and nodding are used as an action for extracting a feature amount for detecting a conversation between users.
  • feature amounts may be extracted based on various actions.
  • FIG. 10 includes a microphone 112, a motion sensor 120 (which may include the gyro sensor 122 and the acceleration sensor 124 illustrated in FIG. 4), a geomagnetic sensor 126, and sensors that can be used to extract such feature quantities.
  • a biosensor 128 is illustrated. These sensors are included in the wearable terminal 100 or the mobile terminal 200, for example.
  • the illustrated actions 130 to 140 will be described.
  • the nod 130 is detected based on sensor data acquired by the motion sensor 120 mounted on the terminal device such as the eyewear 100a mounted on the user's head. Is done. Further, the nod 130 may be detected using the sensor data of the geomagnetic sensor 126 similarly mounted on the terminal device.
  • the utterance section 132 is detected based on voice data including the user's utterance voice acquired by the microphone 112.
  • the speech content 134 may be detectable from the voice data. In this case, for example, detecting a conversation occurring between users based on the commonality of conversation topics in addition to the state of interaction between users indicated by the temporal relationship of the utterance section 132. Can do.
  • the body direction 136 is detected using sensor data acquired by the geomagnetic sensor 126, for example. As described above with reference to FIG. 9, for example, when a non-speaker is facing a speaker or a speaker is facing a non-speaker, the occurrence of a conversation is detected there. Can be a positive element to do.
  • the gesture 138 is detected using sensor data acquired by the motion sensor 120 or the geomagnetic sensor 126, for example.
  • the gesture 138 can be used as an element indicating an interaction between users by specifying a temporal relationship with the utterance interval, like the nod in the example described with reference to FIG. 4, for example.
  • the pulse 140 is detected using the biosensor 128, for example. For example, when the user is actively talking, if the pulse 140 also shows an upward trend, estimating the consistency between the pulse state and the user's conversation state, and whether the user is talking (E.g., the user is not actually speaking if the pulse 140 is not elevated, even though other actions or features indicate that it is actively speaking) there is a possibility).
  • the conversation determining unit 15 may consider the context of the user's behavior and the usage method of the specified conversation group when classifying the user into the conversation group. For example, when trying to share a user's private image between specified conversation groups, by setting a high threshold for determining that a conversation is occurring between users, It is possible to prevent the image from being shared between them. In addition, for example, in a party venue where there is a high possibility that participants are having a conversation in a wide range, by setting the threshold value low, it is possible to classify the partner with whom the user has a conversation into a conversation group.
  • the user may be in a place with few people, such as a house, while setting a high threshold to prevent false detections during daytime hours when the user is often in a crowd such as the city. You may set a low threshold value at the time zone of many nights.
  • FIG. 11 is a diagram for describing a usage example of information obtained by detecting conversation in an embodiment of the present disclosure.
  • the determination result of the conversation occurrence by the conversation determination unit 15 is used by the score calculation unit 16 and the grouping unit 17. It is not limited to such an example, and various other uses are possible.
  • FIG. 11 shows a UI generation unit 171 to a topic recommendation unit 183 as functional configurations for such use.
  • These functional configurations are implemented in software in the terminal device or server using, for example, a processor and memory or storage.
  • information provided by these functional configurations will be further described.
  • the UI generation unit 171 may provide a user interface that graphically displays the state of conversation between users in a time series as described above with reference to FIGS. 6 to 8, for example.
  • the UI generation unit 171 may provide a user interface that displays a list of real-time conversation states as described above.
  • the UI generation unit 171 may enable the real-time conversation state displayed as described above to be linked to another application.
  • the UI generation unit 171 cooperates with the social media link function 172 to enable sharing of data such as images among users belonging to a common conversation group or to play a game at the same time. May be supported.
  • the conversation state between the users detected as described above is used for various purposes, the conversation close to the actual situation of the conversation by ad hoc conversation group recognition between the terminal devices as shown in FIG. Groups can be recognized.
  • terminal devices 100x and 100y (the terminal devices used by each user may be used, for example, the wearable terminal 100 in the example of Fig. 2 or the mobile terminal 200.
  • Each of them includes a sensing unit 11, an action detection unit 12, a candidate selection unit 13, a feature amount extraction unit 14, a conversation determination unit 15, a communication unit 31, a display unit 32, and a UI generation unit 171.
  • the communication unit 31 is implemented by a communication device such as Bluetooth (registered trademark) included in each of the terminal devices 100x and 100y.
  • the display unit 32 is implemented by a display such as an LCD provided in each of the terminal devices 100x and 100y.
  • the corresponding functional configurations of the terminal device 100x and the terminal device 100y cooperate to specify that users of each other belong to a common conversation group.
  • the candidate selection unit 13 selects a candidate user based on the position information acquired by the sensing unit 11 and the position information acquired by the partner sensing unit 11. At this time, the users of the terminal devices 100x and 100y are each selected as a candidate user.
  • the action detection unit 12 identifies a section in which an action such as utterance or nodding occurs based on the sensor data acquired by the sensing unit 11.
  • the feature amount extraction unit 14 shares information such as the section specified by the action detection unit 12 of each terminal device via the communication unit 31, and the feature amount indicating the interaction between the users of the terminal devices 100x and 100y. To extract.
  • the conversation determination unit 15 determines whether a conversation is occurring between the users of the terminal devices 100x and 100y based on the extracted feature amount.
  • the UI generation unit 171 generates the above-described graph or list user interface according to the determination result, and presents it to each user via the display unit 32.
  • FIGS. 13 and 14 are diagrams showing examples of user interfaces provided in the first example described above.
  • a user interface a screen is displayed on the display 210 of the mobile terminal 200 (for example, a similar screen may be displayed on the wearable terminal 100).
  • conversation groups between users are displayed as graphs on the screens 2100a and 2100b.
  • the user can transition between the screen 2100a and the screen 2100b by a zoom-in / out operation.
  • On the screen 2100a for example, only other users who are more reliably estimated to belong to the same conversation group are displayed based on, for example, a relatively high occurrence probability threshold.
  • the user can correct the recognition result of the conversation group by performing an operation on another user's icon displayed on the screens 2100a and 2100b via a touch panel or the like.
  • the user can exclude other users indicated by the icons from the conversation group by moving the icons of the other users out of the screens 2100a and 2100b by a swipe operation.
  • conversation groups between users are displayed as a list on the screen 2100c.
  • the display order of the list may be the order in which the conversation occurrence probability calculated by the conversation determination unit 15 is high. Therefore, the display order of the list can change dynamically.
  • the maximum number of users included in the conversation group may be limited.
  • the history of the conversation partner is output on the timeline by the log output unit 175 and the link function 172 to social media.
  • FIG. 15 shows a functional configuration for such output (note that in the illustrated example, the estimation of the conversation is executed by the terminal device, but may be executed by the server).
  • the terminal device 100 z includes a sensing unit 11, an action detection unit 12, a candidate selection unit 13, a feature amount extraction unit 14, a conversation determination unit 15, a communication unit 31, a log output unit 175, and social A function 172 for linking with media is included.
  • the log output unit 175 is based on the conversation occurrence history based on the determination of the conversation determination unit 15, or information on a partner with whom at least one user included in a plurality of users (all users to be processed) has conversation, or conversation A log containing at least one of conversation information with the other party is output.
  • the log generated by the log output unit 175 is a timeline of social media presented to the at least one user via the function 172 for linking with social media (in another example, a time not related to social media). Line (which may be a line).
  • the voice recognition unit 34 and the topic recognition unit 35 are implemented in software.
  • another user who exchanged a certain amount of conversation (which can be determined based on conversation time or high conversation probability) can be recommended as a friend on social media.
  • information such as a conversation topic recognized by the processing of the voice recognition unit 34 and the topic recognition unit 35, information on a place where the conversation has occurred, an image, and the like may be added to the log.
  • the conversation log is filtered and displayed by topic or conversation partner, it is useful as a user's memory assist tool or memory recording means.
  • FIG. 16 is a diagram illustrating an example of a user interface provided in the second example described above.
  • a screen is displayed on the display 210 of the mobile terminal 200 as a user interface (for example, a similar screen may be displayed on the wearable terminal 100).
  • a date 2101 and a list on the timeline indicating other users with whom the user has a conversation on that day are displayed on the screen 2100 d.
  • the list may include, for example, other user names 2103 and conversation time 2105.
  • the user can display the conversation history screen 2100e of the user by selecting one of the users displayed as a list on the screen 2100d.
  • the screen 2100e includes a name 2103 and a conversation time 2105 of another user, an icon 2107 for becoming a friend with the user on social media, and a past conversation history 2109 with the user.
  • the conversation topic 2111 may be displayed in addition to the date and conversation time when the conversation occurred.
  • the feature amount extraction unit 14 not only extracts a feature amount based on the relationship between the utterance speeches of a plurality of users, but also the utterance speech of one user, It is possible to extract a feature amount based on a temporal relationship with an action (for example, motion or biological index) other than the user's utterance.
  • an action for example, motion or biological index
  • the person recognition unit 173 who has spoken in a single conversation is not limited to other users in which the user exchanges utterances, but also other users who have performed some action on the user's utterances, or It is possible to recognize other users who have made utterances to which user actions are directed and display them on the timeline provided by the log output unit 175. Based on this, the user can perform an action 174 on the cloud for the above-mentioned other users (often not acquaintances). At this time, in the action on the cloud, for protection of privacy, for example, the personal information does not necessarily have to be exchanged to the extent that the other party's avatar can be seen.
  • FIG. 17 is a diagram showing a functional configuration for output as described above.
  • the terminal device 100w includes a sensing unit 11, an action detection unit 12, a candidate selection unit 13, a feature amount extraction unit 14, a conversation determination unit 15, a communication unit 31, a log output unit 175, a post process. Part 36.
  • the post-processing unit 36 corresponds to the above-described single recognition person recognition unit 173 and action 174 on the cloud, and is implemented in software by, for example, a processor included in the terminal device 100w operating according to a program.
  • the log output unit 175 outputs a conversation group generation result as a log.
  • the post-processing unit 36 identifies another user in the log in which a communication including a conversation of a predetermined time or less or an utterance of only one user is detected. Further, the post-processing unit 36 extracts other users who have had a temporary encounter by excluding users who are already friends on social media from among the identified other users. It is possible to execute an action on the cloud for such a user.
  • the topic recommendation unit 183 shown in FIG. 11 supports user communication by providing a topic.
  • the topic recommendation unit 183 estimates the degree of conversation excitement from the conversation tempo indicated by the feature amount extracted by the feature amount extraction unit 14, and recommends the topic accordingly.
  • the topic recommendation unit 183 has a tendency that the conversation occurrence probability calculated by the conversation determination unit 15 tends to decrease, or a separately estimated conversation excitement level (for example, a user's utterance tempo or voice If the user is in a downward trend (estimated by size), it may be determined that the user needs a new topic and a topic different from that may be recommended.
  • the topic recommendation unit 183 determines that the current topic is continued when the occurrence probability of the conversation is increasing or the degree of excitement of the conversation matches with the increasing tendency, Information about the topic may be provided to the user.
  • the topic recommendation unit 183 may provide a topic to the user according to the log output by the log output unit 175 or the familiarity calculated by the familiarity graph generation unit 177 described later. Good. More specifically, for example, when the topic recommending unit 183 is conversing with a partner with whom the user normally has a conversation (a partner with a lot of conversation logs remaining) or a partner with a high degree of familiarity, Since the conversation should be exciting, when it is estimated that the conversation is inactive as described above, it may be determined to provide a new topic.
  • the topic recommending unit 183 may have a case where conversation is not particularly necessary when the user is talking to a partner who does not usually talk much (a partner who does not have a lot of conversation logs), or a partner with a low familiarity. Therefore, provision of a new topic may be suppressed even when it is estimated that the conversation is inactive as described above.
  • the familiarity graph generation unit 177 illustrated in FIG. 11 generates a graph indicating the familiarity between users based on the log output by the log output unit 175.
  • the familiarity graph generated here can be said to be a graph structure that expresses the relationship between a plurality of users based on the conversation history. Therefore, it can be said that the familiarity graph generation unit 177 is a relationship graph specifying unit that specifies such a graph structure.
  • the closeness graph generation unit 177 generates a strong link in the closeness graph between users whose conversation frequency is high or the accumulated time of the conversation is long due to the log of the log output unit 175.
  • the familiarity graph generation unit 177 estimates the familiarity based on the number and types of reactions extracted by the action detection unit 12 and the feature amount extraction unit 14, and establishes a strong link between users with high familiarity. It may be generated. More specifically, the closeness graph generation unit 177 determines the strength of the link between users in the closeness graph depending on whether a user often speaks or nods in a conversation with another user. You may change the height. In addition, the closeness graph generation unit 177 adds a label (for example, a parent, a brother, a boss, a colleague, a friend, a lover, etc.) to a link between users based on information acquired from the outside (such as a user's profile). May be given. Similarly, the familiarity graph generation unit 177 may give a label (for example, family, company, synchronization, circle) to a group formed on the familiarity graph.
  • a label for example, family, company, synchronization, circle
  • the familiarity graph generation unit 177 may calculate the familiarity C with other users using a mathematical expression such as the following Expression 1.
  • the index i is given each of the conversations that occurred with other users, t now is the current time, t Past_i the time conversation with i th other users occurs (therefore, in equation 1, the more conversations that occurred in the past, the effect on decrease familiarity), duration i is the cumulative time of the i-th conversation, the speak i time that was spoken in the i-th conversation, nod i is i
  • the time spent nodding in the second conversation (so, in Formula 1, the longer the time spoken compared to the time nodded, the greater the intimacy), positive i and negative i are based on biological information etc.
  • Estimated emotions to the other user during the i-th conversation (positive and negative. In formula 1, if positive emotions are stronger, Degree is a plus, indicating the degree of intimacy is negative if stronger is more of negative emotions).
  • the sharing desire graph generation unit 179 illustrated in FIG. 11 applies the filter generated by the adaptive graph generation unit 181 to the closeness graph generated by the closeness graph generation unit 177, thereby allowing the user to Set the range for sharing content.
  • the shared desire graph generation unit 179 is shared in a graph structure that expresses the relationship between users in an aspect in which at least one user included in a plurality of users (all users to be processed) shares information. It is an example of the shared user specific
  • FIG. 18 is a diagram for schematically explaining generation of a shared desire graph in the present embodiment.
  • FIG. 18 shows that the sharing desire graph G2 can be obtained by applying the filter F to the group familiarity graph G1.
  • the group closeness graph G1 is generated by the group closeness graph generation unit 178 shown in FIG. 11, for example.
  • the group closeness graph G1 is generated by, for example, integrating the closeness graph for each user generated by the closeness graph generation unit 177 for an arbitrary user group (including a plurality of users).
  • the filter F corresponds to the adaptive graph generated by the adaptive graph generation unit 181 and a filter related to the shared information is selected.
  • a graph of interest is selected from graphs such as place, interest, and affiliation, and a filter F corresponding to the selected graph is applied.
  • the adaptive graph generation unit 181 includes a context at the time of content sharing recognized by the context recognition unit 180 (what kind of content is shared in what situation), a user An adaptive graph that provides an appropriate filter F is generated based on the current profile 182.
  • the sharing desire graph G2 the positional relationship of other users constituting the graph is changed compared to the group familiarity graph G1.
  • One user is strengthened by applying filter F, and another user is weakened by applying filter F (in the example shown, the strength of the link is represented by the distance from the center of the graph). ).
  • the group familiarity graph G1 is simply used. Therefore, it is possible to set an appropriate sharing destination or its candidate according to the type of content and the context in which sharing has occurred, rather than determining the sharing destination and its candidate.
  • an adaptive graph corresponding to the location attribute may be selected, and links with other users in the user's current location (travel destination) may be strengthened (included in the graph structure) Filter configured based on the user's positional relationship).
  • an adaptive graph corresponding to the job may be selected, and a link with another user (for example, a colleague) having a work relationship may be strengthened (in the graph structure). Filter configured based on the user's affiliation).
  • an adaptive graph corresponding to the interest may be selected, and a link with another user who is interested in the sport may be strengthened (graph structure) Filter configured based on the user's interests included in the).
  • graph structure Filter configured based on user behavior information included in the.
  • the adaptive graph may be selected so that the link with other users who have knowledge is strengthened ( Filter configured based on knowledge of users included in graph structure).
  • the adaptive graph generation unit 181 automatically selects an adaptive graph (for example, on a rule basis) based on a recognized context, a user profile, and the like. It may be possible to select the adaptation graph according to the user's selection after presenting it to the user.
  • the adaptive graph is selected according to the user's selection, the selection criterion of the adaptive graph (based on the context of the user's situation, the type of content to be shared, etc.) is learned based on the user's selection result, Eventually, the adaptive graph generation unit 181 may be configured to automatically select the adaptive graph.
  • FIG. 19 is a diagram for explaining dynamic correction of the familiarity graph in the present embodiment.
  • the group familiarity graph G3 for the user A and the user B is corrected by the position of the user A's remark that "C should have come" in the conversation between the user A and the user B.
  • the familiarity graph G4 in which the link between the user C and the users A and B is strengthened (the position of the user C is brought closer to the center of the graph) is generated.
  • the links with the user C are strengthened, and other users (users D to F) Link is weakened (the position moves away from the center of the graph).
  • the link with the user C is strengthened because the name of the user C is mentioned in the actual utterance of the user A, but the same processing is performed, for example, when the user A and the user B chat online. This is also possible when the name of the user C is included in the text input by the user A (or the user B).
  • This may be an example of temporarily correcting when the name of the user C is included in the content transmitted by the user A in the case of a virtual conversation such as an online chat.
  • the group familiarity graph generation unit 178 temporarily strengthens the relationship between the user A and the user C in the group familiarity graph.
  • the group closeness graph generation unit 178 may temporarily strengthen the link in the closeness graph for other users whose users have turned their eyes.
  • the sharing desire graph (G3 shown in FIG. 18) is presented to the user as an image.
  • a shared range (range R indicated by G3 in FIG. 18) may be superimposed on the shared desire graph.
  • the sharing range R is finally determined after the automatically generated candidates are first presented to the user, and the user corrects the candidates. For example, the user enlarges / reduces a figure such as a circle indicating the shared range R, includes other users displayed as icons in the shared range R, or excludes them from the shared range R.
  • the shared range R can be corrected.
  • the sharing desire graph generation unit 179 learns the user's intention regarding the sharing range from the correction result of the sharing range R, and eventually the sharing desire graph generation unit 179 automatically sets an appropriate sharing range R. May be.
  • a user who receives content sharing can selectively share content of other users who are really intimate or content of interest. , Higher satisfaction in content sharing can be obtained.
  • content that a user is experiencing in real time (such as live sports watching) can be shared in real time with other users at remote locations, thereby sharing the experience.
  • an information processing apparatus for example, an information processing apparatus, a system, an information processing method executed by the information processing apparatus or system, a program for causing the information processing apparatus to function, and a program are recorded. It may include tangible media that is not temporary.
  • the conversation is not necessarily limited to all of the related users, for example, only some users speak, and other users nods according to the utterance. It is possible to detect the case where the above action is taken. Therefore, it can be said that the occurrence of communication between users can be detected in the embodiment of the present disclosure including the case where such a case is detected separately from the conversation in other embodiments (the conversation is a communication A kind). Therefore, it can be said that the conversation determination unit is an example of a communication determination unit.
  • Second embodiment> (2-1. Overview and system configuration)
  • the embodiment has been described in which it is determined whether or not a conversation is occurring between the target user and the candidate user based on the feature amount indicating the interaction between the users.
  • 2nd embodiment which is an application example of 1st embodiment mentioned above is described.
  • a system in which positioning information is exchanged between a plurality of users will be described.
  • GNSS positioning consumes a large amount of power, and it is desirable that GNSS positioning can be performed with low power in a terminal having a small battery such as the mobile terminal 100 or the wearable terminal 200. Therefore, an embodiment in which positioning information is exchanged among a plurality of users will be described below.
  • FIG. 20 is a diagram showing an outline of the GNSS positioning method in the second embodiment.
  • a group is formed among a plurality of users by using a wearable terminal 100 such as a pendant type, a spectacle type, or a wristwatch type.
  • FIG. 20 illustrates a case where a group is formed by three users U1 to U3.
  • the plurality of users include at least one accompanying person who acts together with the specific user.
  • the relationship between a specific user and a companion is not important, and the other user (others in the case of a plurality of users) viewed from one user is treated as a companion.
  • a method for recognizing a plurality of accompanying persons who form a group will be described later.
  • a GNSS positioning right (conceptually shown by a key figure in FIG. 20B) for performing GNSS positioning among a plurality of users of the formed group is exchanged.
  • the wearable terminal 100 of the user U1 having the GNSS positioning right performs GNSS positioning
  • the wearable terminals 100 of the other users (U2 and U3) not having the GNSS positioning right are GNSS positioning.
  • Positioning information is received from the wearable terminal 100 of the user U1 who performs and shares positioning information.
  • the received positioning information is used as a group representative value (latitude, longitude information, etc.).
  • the above-mentioned GNSS positioning right may be exchanged at predetermined time intervals. Further, when the remaining battery level of each wearable terminal 100 is recognized, the GNSS positioning right may be passed to the wearable terminal 100 having a large remaining battery level. As described above, the GNSS positioning is performed by the wearable terminal 100 having a large remaining battery level, whereby the remaining battery level of the terminals in the group can be smoothed. Further, as shown in FIG. 21, the GNSS positioning right may be exchanged through an operation screen displayed on the user's mobile terminal 200.
  • FIG. 21 three users are recognized in the group. And it is shown that “Mr. BBB” currently has the GNSS positioning right. That is, on the display screen, a mark indicating that GNSS positioning right is possessed is displayed in the check box next to Mr. BBB's name.
  • the GNSS positioning rights are passed to other users by marking the checkbox that appears next to the name of the user that the user wants to pass GNSS positioning rights. .
  • FIG. 22 is a diagram showing a system configuration of a system that performs the above-described operation.
  • the system of the present embodiment includes a server 300m and wearable terminals 100m and 100n. Note that the number of wearable terminals 100 is not limited to two.
  • the server 300m includes a communication unit 37, a companion recognition unit 38, and a GNSS positioning determination unit 39.
  • the communication unit 37 communicates with each wearable terminal 100m, 100n.
  • the companion recognition unit 38 groups a plurality of companions based on information sent from the wearable terminals 100m and 100n. Further, the GNSS positioning determination unit 39 determines to which user in the group recognized by the companion recognition unit 38 the GNSS positioning right is given.
  • the wearable terminals 100m and 100n include a communication unit 31, a display unit 32, a sensing unit 11, a companion recognition unit 40, a GNSS positioning unit 41, a GNSS control unit 42, and a virtual GNSS positioning unit 43.
  • the communication unit 31 communicates with the server 300m.
  • the display part 32 displays information, such as information regarding a plurality of users belonging to a group, for example.
  • the communication unit 31 is implemented by a communication device such as Bluetooth (registered trademark) or Wi-Fi provided in each of the wearable terminals 100m and 100n.
  • the sensing unit 11 includes a microphone, an acceleration sensor, and / or a gyro sensor as described above, and may further include an imaging unit such as a camera.
  • the companion recognition unit 40 receives information from the sensing unit 11 and the communication unit 31, and transmits the received information to the companion identification unit 38 of the server 300m via the communication unit 31.
  • the accompanying person recognition part 40 receives the information of the accompanying person recognized by the accompanying person recognition part 38 of the server 300m.
  • the companion information may be displayed on the display unit 32, and the displayed companion information may be corrected by the user.
  • the GNSS positioning unit 41 receives a GNSS signal from a GNSS satellite and performs positioning.
  • the virtual GNSS positioning unit 43 determines the position of the own terminal using the positioning information received from another terminal.
  • the GNSS control unit 42 switches between turning on the GNSS positioning unit 41 or turning on the virtual GNSS positioning unit 43 based on the GNSS positioning right generated by the GNSS positioning determination unit 39 of the server 300m. Further, as described above with reference to FIG. 21, when the GNSS positioning right is manually changed, the GNSS control unit 42 recognizes the manual change of the GNSS positioning right and turns on the GNSS positioning unit 41 or virtually Switches whether to turn on the GNSS positioning unit 43.
  • the companion recognition unit 40 of the wearable terminals 100m and 100n receives the following information from the sensing unit 11, the GNSS control unit 42, or the communication unit 31.
  • Positioning information generated by the GNSS positioning unit 41 or the virtual GNSS positioning unit 43 (2) Bluetooth (registered trademark) of other terminals to be received or Wi-Fi terminal identification information (ID) (3) Sound received by the microphone (4) Information of the captured image captured by the camera
  • the companion recognition unit 40 of the wearable terminals 100m and 100n transmits the information (1) to (4) described above to the companion recognition unit 38 of the server 300m. Then, the companion recognition unit 38 of the server 300m that has received the information determines the distance between each wearable terminal 100 from the positioning information of (1), for example, and if the distance is equal to or less than a predetermined distance, the user having the wearable terminal 100 is determined. You may recognize as a companion.
  • the companion recognition unit 38 of the server 300m may recognize, as the companion, a user who has the wearable terminal 100 of the terminal identification information observed in the long term with respect to the terminal identification information (2). That is, when wearable terminal 100 having terminal identification information A observes wearable terminal 100 having terminal identification information B for a long time, a user having wearable terminal 100 having terminal identification information B is identified as a companion.
  • the companion recognition unit 38 of the server 300m may perform environmental sound matching based on the audio information (3) and recognize a wearable terminal user having similar audio information as an accompanying person. Further, the companion recognition unit 38 of the server 300m may recognize a person recognized in the captured image for a predetermined period as an accompanying person based on the image information (4). At this time, person data (for example, face image data) used for image recognition may be stored in each of the wearable terminals 100m and 100n, and the companion recognition unit 40 of the wearable terminals 100m and 100n may store the person data. May be transmitted to the server 300m.
  • person data for example, face image data
  • the companion recognition unit 38 of the server 300m described above includes a plurality of users (that is, companions) based on actions such as the user's nodding and hand movements (gestures) described in the first embodiment, or speech between the users. ) May be recognized on the basis of the feature amount indicating the interaction.
  • the companion may be recognized by integrating the information of (1) to (4) and the interaction between users.
  • a recognition method corresponding to the situation of the wearable terminals 100m and 100n is selected. For example, when the camera is activated, information on the captured image of the camera may be used for the recognition of the accompanying person. Also, when the microphone is activated, audio information may be used for the recognition of the accompanying person.
  • a companion can be identified with higher accuracy.
  • the information on (1) to (4) and the interaction between users can be considered as an example of companion recognition information used for recognizing a companion.
  • FIG. 23 is a diagram illustrating a configuration of an example in which a companion is recognized in each wearable terminal 100m and 100n.
  • the companion identification unit 40 in FIG. 23 has the function of the companion recognition unit 38 of the server 300m in FIG.
  • the GNSS control unit 42 in FIG. 23 has the function of the GNSS positioning determination unit 39 of the server in FIG.
  • a similar system may be formed by the mobile terminal 200 having the same configuration.
  • FIG. 24 is a block diagram showing the wearable terminal 100 using the vehicle 400 having the GNSS positioning unit 45 and the positioning information measured by the vehicle 400.
  • the wearable terminal 100 and the vehicle 400 shown in FIG. 24 are associated by communication by the communication units 31 and 44. This may be done by pairing such as Bluetooth (registered trademark).
  • the GNSS control unit 42 of the wearable terminal 100 associated with the vehicle 400 turns off the power of the GNSS positioning unit 41. Then, the GNSS control unit 42 acquires the positioning information measured by the GNSS positioning unit 45 of the vehicle 400 via the communication unit 31. The GNSS control unit 42 turns on the virtual GNSS positioning unit 43 and recognizes the position of the terminal itself using the acquired control information. When the association between wearable terminal 100 and vehicle 400 is released, wearable terminal 100 turns on GNSS positioning unit 41 of wearable terminal 100 and performs positioning by itself.
  • the wearable terminal 100 when the wearable terminal 100 is associated with a device having sufficient power, such as the vehicle 400, the wearable terminal 100 uses positioning information measured by a device having sufficient power. As a result, power consumption of the wearable terminal 100 is suppressed.
  • FIG. 25 is a flowchart showing the operation of the application example.
  • the wearable terminal 100 scans for a nearby terminal using the communication unit 31 such as Bluetooth (registered trademark).
  • the communication unit 31 such as Bluetooth (registered trademark).
  • near field communication such as Bluetooth Low Energy
  • a terminal having a radius of several meters is detected by the communication unit 31 of the wearable terminal 100.
  • the wearable terminal 100 determines the number of neighboring terminals scanned in S100.
  • the wearable terminal 100 performs intermittent positioning, which will be described in detail later, based on the number of neighboring terminals determined in S102.
  • wearable terminal 100 determines whether or not to receive positioning information from another terminal in S108.
  • positioning information cannot be obtained from another terminal
  • the process proceeds to S112, and the wearable terminal 100 performs GNSS positioning by itself.
  • the wearable terminal receives the positioning information from the other terminal in S108
  • the process proceeds to S110, and the wearable terminal recognizes the position of the own terminal using the positioning information received from the other terminal. And a process returns to S100 and the process mentioned above is repeated.
  • the intermittent rate may be changed according to the number of neighboring terminals determined in S102. For example, it is assumed that the number of proximity terminals determined in S102 is 10, and each of them performs positioning at an intermittent rate of 90%.
  • the intermittent rate of 90% means that, for example, the GNSS positioning unit 41 is turned on for 1 second every 10 seconds.
  • wearable terminal 100 has a very high probability of receiving positioning information from other terminals at intervals of at least about 3 seconds. Therefore, in the system described above, wearable terminal 100 can obtain positioning information with sufficient accuracy while maintaining an intermittent rate of 90%.
  • the wearable terminal 199 can increase the intermittent rate if the number of detected proximity terminals is large, and the wearable terminal 100 decreases the intermittent rate if the number of detected adjacent terminals is small. There must be.
  • the GNSS positioning unit 41 is intermittently operated, so that power saving is achieved in the wearable terminal 100.
  • the GNSS positioning method that performs intermittent positioning the GNSS positioning may be complemented and executed using past positioning information. At this time, if the past positioning information is too old, there is a possibility that complementation cannot be performed.
  • positioning information can be obtained from another terminal even if the intermittent rate is increased, so that the positioning information is appropriately complemented.
  • an information processing apparatus for example, an information processing apparatus, a system, an information processing method executed by the information processing apparatus or system, a program for causing the information processing apparatus to function, and a program are recorded. It may include tangible media that is not temporary.
  • the companion recognition may be performed using a dedicated application that registers the user as a companion in advance.
  • the companion recognition may be performed using a group function in an existing SNS (social network service).
  • FIG. 26 is a block diagram illustrating a hardware configuration example of the information processing apparatus according to the embodiment of the present disclosure.
  • the information processing apparatus 900 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing apparatus 900 may include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing apparatus 900 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing apparatus 900 may include a processing circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 900 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 primarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may be, for example, a remote control device that uses infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing device 900.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data and instruct processing operations to the information processing device 900.
  • the output device 917 is configured by a device capable of notifying the acquired information to the user using a sense such as vision, hearing, or touch.
  • the output device 917 can be, for example, a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display, an audio output device such as a speaker or headphones, or a vibrator.
  • the output device 917 outputs the result obtained by the processing of the information processing device 900 as video such as text or image, sound such as sound or sound, or vibration.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 900.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores, for example, programs executed by the CPU 901 and various data, and various data acquired from the outside.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing apparatus 900.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for connecting a device to the information processing apparatus 900.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for LAN (Local Area Network), Bluetooth (registered trademark), Wi-Fi, or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a network connected by wire or wireless, and may include, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like.
  • the imaging device 933 uses various members such as an imaging element such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device), and a lens for controlling the formation of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as an acceleration sensor, an angular velocity sensor, a geomagnetic sensor, an illuminance sensor, a temperature sensor, an atmospheric pressure sensor, or a sound sensor (microphone).
  • the sensor 935 acquires information about the state of the information processing apparatus 900 itself, such as the posture of the information processing apparatus 900, and information about the surrounding environment of the information processing apparatus 900, such as brightness and noise around the information processing apparatus 900, for example. To do.
  • the sensor 935 may include a GPS receiver that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the device.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the following configurations also belong to the technical scope of the present disclosure.
  • An information processing apparatus including a communication determination unit that determines whether or not.
  • the plurality of users include a first user and a second user, The information according to (1), wherein the feature amount is extracted based on a temporal relationship between the utterance voice of the first user and the utterance voice of the second user included in the voice data. Processing equipment.
  • (3) The voice data includes the first voice data including the voice of the first user and the second voice data including the voice of the second user.
  • Information processing device includes the first voice data including the voice of the first user and the second voice data including the voice of the second user.
  • the information processing apparatus includes single voice data including a voice of the first user and a voice of the second user.
  • the information processing apparatus according to any one of (1) to (4), further including a feature amount extraction unit that extracts the feature amount from the audio data.
  • the communication determination unit determines whether or not the communication is occurring between users selected from the plurality of users based on the positional relationship between the users, (1) to (5) The information processing apparatus according to any one of the above.
  • the communication determination unit determines whether or not the communication is occurring between users selected from the plurality of users based on the behavior information of each user, (1) to (6) The information processing apparatus according to any one of the above.
  • the information processing apparatus according to any one of (1) to (7), wherein the feature amount is further extracted from sensor data indicating the motions or biological indices of the plurality of users.
  • the plurality of users include a third user and a fourth user, The feature amount is extracted based on a relationship between the speech voice of the third user included in the voice data and the motion or biological index of the fourth user indicated by the sensor data. ).
  • the information processing apparatus according to any one of (1) to (9), further including a display control unit configured to display a screen for presenting the communication in time series.
  • (11) The information processing apparatus according to (10), wherein the communication is presented on the screen in a form corresponding to the occurrence probability of the communication calculated based on the feature amount.
  • a log that outputs a log including at least one of information of a partner communicated by at least one user included in the plurality of users or conversation information with the communicated partner
  • the information processing apparatus according to any one of (1) to (11), further including an output unit.
  • (14) In any one of (1) to (13), further comprising a relationship graph specifying unit that specifies a graph structure expressing the relationship among the plurality of users based on the occurrence history of the communication. The information processing apparatus described.
  • the information processing apparatus further including a shared user specifying unit for specifying.
  • the filter includes a positional relationship of users included in the graph structure, a user's affiliation included in the graph structure, a target of interest of the user included in the graph structure, and an action of the user included in the graph structure.
  • the information processing apparatus configured based on information or knowledge of a user included in the graph structure.
  • the relationship graph specifying unit has generated the graph structure specified based on the occurrence history of the communication in the first period in the second period that is shorter than the first period.
  • the information processing apparatus according to any one of (14) to (16), wherein the information is temporarily corrected according to a content of communication.
  • the plurality of users include a fifth user and a sixth user;
  • the relationship graph specifying unit includes the fifth graph in the graph structure when the name of the sixth user is included in the content transmitted by the fifth user in the communication generated in the second period.
  • the information processing apparatus according to (17), wherein the relationship between the user and the sixth user is temporarily strengthened.
  • Communication occurs between the plurality of users based on a feature amount indicating an interaction between the plurality of users including the user, which is extracted from voice data including at least the user's speech. An information processing method including determining whether or not the information is being processed.
  • the companion recognition information is a feature amount indicating an interaction between the user and the companion, image information captured by a first information processing apparatus possessed by the user, or the first information processing apparatus and the Including any one of the information regarding the distance to the second information processing device or the terminal identification information issued by the first information processing device or the second information processing device or a combination thereof (21 ).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える情報処理装置が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 ユーザの間で発生する会話などのコミュニケーションを検出することは、例えばユーザ間の関係性を推測したりするために有用である。そのための技術として、例えば、特許文献1では、各ユーザの端末装置から送信された音声情報から抽出される周波数成分などの音声特徴量の類似度に基づいて会話グループを抽出する技術が提案されている。これによって、不特定の人物の間で不特定に発生する会話を解析することが可能になる。
特開2012-155374号公報
 しかしながら、例えば特許文献1に記載されたような技術では、周波数成分のような集計的な音声特徴量に基づいて会話を検出するために、ユーザ間の短い会話を検出したり、会話が開始されたことをリアルタイムで検出したりすることは必ずしも容易ではなかった。また、例えば会話グループの候補になるユーザが大勢いたり、ユーザが騒がしい環境にいるような場合には、会話のロバストな検出が困難になる可能性もあった。
 そこで、本開示では、音声データから抽出される特徴量を利用しつつ、さまざまな局面でよりロバストにユーザ間の会話を検出することを可能にする、新規かつ改良された報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える情報処理装置が提供される。
 また、本開示によれば、プロセッサが、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定することを含む情報処理方法が提供される。
 また、本開示によれば、少なくともユーザの発話音声を含む音声データから抽出される、上記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、上記複数のユーザの間でコミュニケーションが発生しているか否かを判定する機能をコンピュータに実現させるためのプログラムが提供される。
 以上説明したように本開示によれば、音声データから抽出される特徴量を利用しつつ、さまざまな局面でよりロバストにユーザ間の会話を検出することができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第一の実施形態における会話の検出について概念的に説明するための図である。 本開示の第一の実施形態に係るシステムの構成例を示す図である。 本開示の第一の実施形態に係るシステムの機能構成例を示す図である。 本開示の第一の実施形態におけるアクションの検出について説明するための図である。 本開示の第一の実施形態における会話の発生判定について説明するための図である。 本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。 本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。 本開示の第一の実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。 本開示の第一の実施形態における会話のグラフ構造の最適化について説明するための図である。 本開示の第一の実施形態における特徴量の拡張について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第1の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第1の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第1の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第2の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第2の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第3の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第6の利用例について説明するための図である。 本開示の第一の実施形態における、会話の検出によって得られた情報の第6の利用例について説明するための図である。 本開示の第二の実施形態において、GNSS測位権の授受について概念的に説明するための図である。 本開示の第二の実施形態における、GNSS測位権の利用例について説明する図である。 本開示の第二の実施形態におけるシステム構成を示すブロック図である。 本開示の第二の実施形態における他のシステム構成を示すブロック図である。 本開示の第二の実施形態における他のシステム構成を示すブロック図である。 本開示の第二の実施形態の応用例の動作を示すフロー図である。 本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.第一の実施形態
  1-1.概要およびシステム構成
  1-2.会話検出のための処理の例
  1-3.応用的な情報の生成例
  1-4.第一の実施形態に係る補足
 2.第二の実施形態
  2-1.概要およびシステム構成
  2-2.応用例
  2-3.第二の実施形態に係る補足
 3.ハードウェア構成
 <1.第1の実施形態>
 (1-1.概要およびシステム構成)
 図1は、本開示の一実施形態における会話の検出について概念的に説明するための図である。図1には、(a)~(c)として、本実施形態において複数のユーザの中から会話が発生しているユーザが特定される過程が示されている。まず、(a)に示すように、対象ユーザとの間で会話が発生しているか否かを判定するために、対象ユーザ以外のユーザが、候補ユーザと他のユーザとに分けられる。候補ユーザは、例えば、GNSSやWi-Fi測位などによって対象ユーザに近い位置にいることが示されるユーザである。他のユーザ、すなわち物理的な制約から会話が発生している可能性が低いと推定されるユーザを以降の検出処理の対象から除外することによって、処理量を削減し、かつ検出の精度を向上させることができる。
 次に、(b)に示すように、対象ユーザと候補ユーザとのそれぞれについて、センサデータが取得される。センサデータは、より具体的には、例えばマイクロフォン(音センサ)によって取得された音声データや、ユーザのモーションを示す加速度などのセンサデータを含む。これらのセンサデータから抽出される、ユーザ間のインタラクションを示す特徴量に基づいて、(c)に示すように、対象ユーザと候補ユーザとの間で会話が発生しているか否かが判定される。対象ユーザは、会話が発生していると判定された候補ユーザとともに、共通の会話グループに分類されうる。
 図2は、本開示の一実施形態に係るシステムの構成例を示す図である。図2を参照すると、システム10は、ウェアラブル端末100(アイウェア100aおよびリストウェア100b)と、モバイル端末200と、サーバ300とを含む。システム10を構成する装置は、例えば後述する情報処理装置のハードウェア構成によって実現されうる。
 ウェアラブル端末100は、各ユーザによって装着される。ウェアラブル端末100は、例えばマイクロフォン(音センサ)を有し、ユーザの発話音声を含む音声データを取得する。また、ウェアラブル端末100は、加速度センサやジャイロセンサなどの他のセンサを有し、例えばユーザのモーションを示す加速度などのセンサデータを取得してもよい。例えば、アイウェア100aでは、ユーザのうなずきに対応する加速度または角速度を示すセンサデータが取得可能でありうる。また、例えば、リストウェア100bでは、ユーザの手の動きに対応する加速度または角速度や、脈拍などの生体指標を示すセンサデータが取得可能でありうる。また、ウェアラブル端末100は、後述するような本実施形態に係る情報処理によって生成された情報を、ユーザに提示するために用いられてもよい。より具体的には、ウェアラブル端末100は、ディスプレイやスピーカなどの出力装置を有し、これらの出力装置から画像や音声などによってユーザに情報を提示してもよい。なお、図示された例では、ウェアラブル端末100とモバイル端末200とが別個に示されているが、他の例では、ウェアラブル端末100の機能はモバイル端末200に包摂されてもよい。この場合、モバイル端末200が、マイクロフォンや加速度センサ、ジャイロセンサなどによってセンサデータを取得し、情報処理によって生成された情報をユーザに提示する。
 モバイル端末200は、各ユーザによって携帯される。図示された例において、モバイル端末200は、ウェアラブル端末100とサーバ300との間の通信を中継している。より具体的には、例えばウェアラブル端末100とモバイル端末200との間の通信はBluetooth(登録商標)などの無線通信によって、モバイル端末200とサーバ300との間の通信はインターネットなどのネットワーク通信によって、それぞれ実行される。ここで、モバイル端末200は、ウェアラブル端末100から受信した情報を必要に応じて処理した上で、サーバ300に送信してもよい。例えば、モバイル端末200は、ウェアラブル端末100から受信した音声データを含むセンサデータを解析して中間的な特徴量を抽出してもよい。あるいは、モバイル端末200は、ウェアラブル端末100から受信したセンサデータを、そのままサーバ300に転送してもよい。このような場合において、例えばウェアラブル端末100とサーバ300との間でネットワーク通信が可能であれば、システム10は必ずしもモバイル端末200を含まなくてもよい。また、モバイル端末200は、ウェアラブル端末100に代えて、またはこれとともに、後述するような本実施形態に係る情報処理によって生成された情報を、ユーザに提示するために用いられてもよい。
 サーバ300は、ネットワーク上の1または複数の情報処理装置によって実現され、各ユーザにサービスを提供する。例えば、サーバ300は、各ユーザのウェアラブル端末100からモバイル端末200を経由して収集されたセンサデータから特徴量を抽出し、当該特徴量に基づいてユーザ間の会話が発生しているか否かを判定する。サーバ300は、例えば、上記の判定の結果に基づいて、ユーザ間での会話の発生状況を表現する情報を生成しでもよい。この情報は、例えば、ユーザ(会話に参加していないユーザや、会話の検出対象にはなっていないユーザでありうる)がリアルタイムで発生状況を把握するための画面表示に利用されてもよいし、ログとして蓄積されてもよい。ログとして蓄積された情報は、例えば、事後的に上記のようなユーザによって参照してもよいし、ログとして蓄積された情報に基づいて、複数のユーザの関係性を表現するグラフ構造が特定されてもよい。なお、これらの処理は、例えば、各ユーザのウェアラブル端末100およびモバイル端末200の間でホストとしてふるまうモバイル端末200によって実行されてもよい。この場合、システム10は必ずしもサーバ300を含まなくてもよい。
 図3は、本開示の一実施形態に係るシステムの機能構成例を示す図である。図3を参照すると、システム10は、機能構成として、センシング部11と、アクション検出部12と、候補選出部13と、特徴量抽出部14と、会話判定部15と、スコア算出部16と、グルーピング部17とを含む。なお、センシング部11は、上記で図2を参照して説明したウェアラブル端末100が有するマイクロフォン(音センサ)、加速度センサ、および/またはジャイロセンサなどのセンサによって実装される。アクション検出部12、候補選出部13、特徴量抽出部14、会話判定部15、スコア算出部16、およびグルーピング部17は、サーバ300、モバイル端末200、および/またはサーバ300においてCPUなどのプロセッサがプログラムに従って動作することによって実装される。つまり、上記のプロセッサによって実装される機能構成は、システム10に含まれるいずれかの情報処理装置に集約して実装されてもよいし、複数の情報処理装置に分散して実装されてもよい。以下、各機能構成についてさらに説明する。
 センシング部11は、システム10の入力として、例えば音声データを取得するマイクロフォン(音センサ)、ユーザのモーションを示す加速度などのセンサデータを取得する加速度センサまたはジャイロセンサなどのセンサを含む。さらに、センシング部11は、ユーザの位置情報を取得するGNSS受信機やWi-Fiなどの無線通信装置を含む。センシング部11は、例えば図2に示したアイウェア100aやリストウェア100bのようなウェアラブル端末100において実装されるが、上述のように、ウェアラブル端末100の機能がモバイル端末200に包摂されるような場合には、モバイル端末200においてセンシング部11が実装される。
 アクション検出部12は、センシング部11が取得したセンサデータ(音声データを含みうる)から、センサデータを提供したそれぞれのユーザのアクションを検出する。より具体的には、例えば、アクション検出部12は、音声データから、ユーザの発話のアクションを検出する。ここで、本実施形態において、アクション検出部12は、必ずしも発話における声の特徴や発話の内容を検出しなくてもよい。つまり、アクション検出部12は、単純に、ある時刻においてユーザの発話があったか否かを検出してもよい。付加的に、アクション検出部12は、声の特徴や発話の内容などが検出可能である場合には、これらを検出してもよい。また、例えば、アクション検出部12は、加速度や角速度のセンサデータから、ユーザのうなずきや手の動き(ジェスチャ)などのアクションを検出する。さらに、例えば、アクション検出部12は、ユーザの脈拍などの生体指標のセンサデータから、ユーザの心理的なアクションを検出してもよい。
 候補選出部13は、センシング部11が取得したセンサデータから、センサデータを提供したそれぞれのユーザの位置関係を検出し、位置関係が所定の条件を満たすユーザを、会話グループを形成するユーザの候補として選出する。より具体的には、候補選出部13は、GNSSやWi-Fi測位などによって対象ユーザに近接した位置にいることが示される他のユーザを、候補ユーザに選出する。なお、候補選出部13が候補ユーザを選出するにあたっては、必ずしも各ユーザの位置情報が利用可能でなくてもよい。例えば、候補選出部13は、それぞれのユーザの端末装置(例えば、ウェアラブル端末100またはモバイル端末200)が、Bluetooth(登録商標)などの無線通信によって直接的に通信可能であることによって、これらのユーザが近接したことを認識してもよい。あるいは、候補選出部13は、それぞれのユーザの行動情報に基づいて候補ユーザを選出してもよい。より具体的には、例えば、候補選出部13は、位置に関連付けられたユーザの行動認識結果(例えばオフィスで仕事、会議、など)を取得し、対象ユーザに共通する行動認識結果が取得されている他のユーザを候補ユーザに選出してもよい。また、例えば、候補選出部13は、位置に関連付けられたユーザのスケジュール(行動認識結果と同様に、例えばオフィスで仕事、会議、など)を取得し、対象ユーザに共通するスケジュールが取得されている他のユーザを候補ユーザに選出してもよい。
 特徴量抽出部14は、候補選出部13が抽出した候補ユーザのそれぞれについて、対象ユーザとの間で、アクション検出部12によって検出されたアクションの相互関係、すなわちインタラクションを示す特徴量を抽出する。本実施形態において、このような特徴量は、アクション同士の時間的な関係に基づいて抽出される。
 例えば、特徴量抽出部14は、ユーザの発話音声を含む音声データから、当該ユーザを含む複数のユーザの間のインタラクションを示す特徴量を抽出する。より具体的には、複数のユーザは第1のユーザおよび第2のユーザを含み、特徴量抽出部14は、第1のユーザ(対象ユーザでありうる)の発話音声と第2のユーザ(候補ユーザでありうる)の発話音声との時間的な関係性に基づいて特徴量を抽出する。この特徴は、第1のユーザと第2のユーザとの間で発話の交換が発生したことを示しうる。例えば、第1のユーザと第2のユーザとが会話している場合、第1のユーザと第2のユーザとの発話区間が大きく重複することは考えにくく、それぞれのユーザの発話区間は概ね交互に発生しているはずである。
 なお、上記の例において、センシング部11が取得する音声データは、第1のユーザの発話音声を含む第1の音声データと、第2のユーザの発話音声を含む第2の音声データとをそれぞれ別個に含んでもよい。あるいは、センシング部11が取得する音声データは、第1のユーザの発話音声と第2のユーザの発話音声とを含む単一の音声データを含んでもよい(さらに他のユーザの発話音声は、当該単一の音声データに含まれてもよいし、別個の音声データに含まれてもよい)。なお、単一の音声データに複数のユーザの発話音声が含まれる場合、例えば話者認識の結果などに基づいて、それぞれのユーザの発話音声を分離する処理が実行されうる。
 また、例えば、特徴量抽出部14は、第1のユーザと第2のユーザとの間で、それぞれのユーザから提供された音声データに含まれる当該ユーザの発話音声と、同じくそれぞれのユーザから提供されたセンサデータによって示されるモーションまたは生体指標との時間的な関係に基づいて特徴量を抽出してもよい。つまり、例えば、特徴量抽出部14は、第1のユーザから提供された音声データに含まれる第1のユーザの発話音声と、第2のユーザから提供されたセンサデータによって示されるモーションまたは生体指標との関係に基づいて特徴量を抽出してもよい。また、特徴量抽出部14は、対象ユーザと候補ユーザとの間で特徴量を抽出するだけでなく、候補ユーザ同士の間で特徴量を抽出してもよい。
 会話判定部15は、特徴量抽出部14が抽出した特徴量に基づいて、複数のユーザの間で会話が発生しているか否かを判定する。本実施形態では、候補選出部13が設けられるため、会話判定部15は、複数のユーザ(処理対象になるすべてのユーザ)から各ユーザの位置関係に基づいて選出されたユーザの間で、会話が発生しているか否かを判定することになる。候補選出部13について既に説明したように、判定の対象になるユーザは、各ユーザの行動情報に基づいて選出されてもよい。より具体的には、例えば、会話判定部15は、第1のユーザと第2のユーザとの間で抽出された特徴量に基づいて算出される会話の発生確率が所定の閾値を超えた場合に、第1のユーザと第2のユーザとの間で会話が発生していると判定する。会話判定部15は、特徴量抽出部14が対象ユーザと候補ユーザとの間で抽出した特徴量に基づいて発生確率を算出することによって、対象ユーザとの間で会話が発生していた候補ユーザを特定することができる。さらに、会話判定部15は、特徴量抽出部14が候補ユーザ同士の間で抽出した特徴量に基づいて発生確率を算出することによって、候補ユーザ同士の間で発生した会話を特定することができる。対象ユーザと候補ユーザとの間だけでなく、候補ユーザ同士の間で発生した会話を特定することで、対象ユーザの周りで発生していた会話の状況を把握することができる。
 スコア算出部16は、会話判定部15の判定に基づく会話の発生履歴に基づいて、複数のユーザのそれぞれの間でスコアを算出する。例えば、スコア算出部16は、所定の期間において各ユーザの間で会話が発生していた時間を積算することによってスコアを算出してもよい。あるいは、スコア算出部16は、所定の期間において各ユーザの間で所定の時間以上の会話が発生した頻度に基づいてスコアを算出してもよい。また、例えば、スコア算出部16は、ユーザ間で会話が発生したと判定された場合に会話判定部15によって算出された会話の発生確率を参照し、より高い発生確率で会話が発生したと判定されていたユーザの間でより高いスコアを算出してもよい。さらに、例えば、スコア算出部16は、アクション検出部12がユーザの声の特徴や発話の内容などを検出可能である場合に、これらに基づいて会話の盛り上がりの程度を推定し、より盛り上がりの大きい会話が発生したユーザの間でより高いスコアを算出してもよい。
 グルーピング部17は、スコア算出部16によって算出されたスコアに基づいて、ユーザをグルーピングする。グルーピングの表現はさまざまでありうる。例えば、グルーピング部17は、相互のスコアが閾値を超える複数のユーザを、共通のグループに分類する。また、グルーピング部17は、ユーザ間の関係性を表現するグラフ構造を特定してもよい。グラフ構造は、グループとは別に定義されていてもよいし、グラフ構造のリンクの有無や強さに応じてグループが定義されてもよい。なお、本実施形態における会話判定部15の判定結果に基づく情報の生成は、グルーピング部17に限らずさまざまな形で実施されうる。そのような他の例については後述する。
 (1-2.会話検出のための処理の例)
 図4は、本開示の一実施形態におけるアクションの検出について説明するための図である。図4に示された例では、ウェアラブル端末100cに、ヘッドセット110と、ユーザのうなずきを検出するためのモーションセンサ120とが含まれている。ヘッドセット110は、マイクロフォン112を含み、音声データを取得する。モーションセンサ120は、ジャイロセンサ122および加速度センサ124を含み、角速度および加速度のセンサデータを取得する。ここで、上述したシステム10におけるアクション検出部12は、音声データ抽出されるエネルギーが閾値を超えることを開始条件、エネルギーが閾値を下回った状態が所定の時間以上継続することを終了条件として、ユーザの発話区間を検出することができる。一方、アクション検出部12は、角速度の所定の周波数が大きい区間から加速度の分散の大きい区間を除去することによって、ユーザのうなずきが発生した区間を検出することができる。
 続いて、本開示の一実施形態における特徴量の抽出について説明する。本実施形態において、システム10における特徴量抽出部14は、第1のユーザと第2のユーザとの間のインタラクションを示す特徴量を算出する。特徴量抽出部14は、例えば以下のような事象に基づいて、ユーザ間のインタラクションに対するポジティブな特徴量を抽出する。つまり、以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は高くなりうる。
・発話の交換(第1のユーザの発話と第2のユーザの発話とが交互に発生)
・発話中の非発話者のうなずき
・発話の短い間における非発話者のうなずき
・両者同時のうなずき
・相手の発話の間における発話+うなずきの応答
 一方、特徴量抽出部14は、例えば以下のような事象に基づいて、ユーザ間のインタラクションに対するネガティブな特徴量を算出する。つまり、以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は低くなりうる。
・発話区間の一致(第1のユーザの発話と第2のユーザの発話とが同時に発生)
・発話に対する非発話者のリアクションがない
 例えば、特徴量抽出部14は、上記のような事象に基づく特徴量の算出を所定の周期(一例として100Hz)で実行する。会話判定部15は、算出された特徴量を所定の周期(特徴量算出の周期よりも長くてもよい。一例として0.2Hz。この場合、特徴量は30sごとの平均値として扱われてもよい)で判定器に入力する。判定器は、例えば二値判定器であり、第1のユーザと第2のユーザとが会話していそうか、会話していなさそうかを判別する。このような判定器は、例えば機械学習によって生成される。機械学習の手法としては、例えばSVM(Support Vector Machine)を利用することができるが、この例に限らず公知の様々な手法が利用可能である。また、本実施形態における判定器は、その出力によって次に説明するような判定が可能になる判定器であればよい。より具体的には、判定器は、二値判定器であってもよいし、確率を出力する判定器であってもよい。また、判定器は、必ずしも機械学習によって生成されるものには限られない。
 図5は、本開示の一実施形態における会話の発生判定について説明するための図である。図5に示す例では、システム10の会話判定部15において、判定器の出力に応じて発生確率が算出され、発生確率に基づいて会話が発生しているか否かが判定されている。より具体的には、会話判定部15は、上述した判定器が二値判定器である場合、判定器の出力がポジティブである(会話が発生しているらしい)場合には発生確率を上げ、出力がネガティブである(会話が発生していないらしい)場合には発生確率を下げる。また、会話判定部15は、上述した判定器が確率を出力する場合には、判定器から出力された確率の大きさに応じて発生確率のスコアを変動させてもよい。図示された例では、0.2Hzで判定器の出力が実施され、5sごとに発生確率が更新されている。このようにして逐次加算/減算される発生確率が所定の閾値を超えている区間について、会話判定部15は、ユーザ間で会話が発生していると判定する。
 図6~図8は、本開示の一実施形態において、ユーザ間で発生している会話の状態を時系列で表現した場合の例を示す図である。本実施形態では、上述したスコア算出部16やグルーピング部17による統計的な処理とは別に、例えば図5に示したような会話判定部15による会話の発生判定に基づいてユーザ間の会話の状態が時系列で出力されてもよい。このような出力は、例えば図1の例に示されたウェアラブル端末100やモバイル端末200によって会話に関係しているユーザ自身に提示されてもよいし、会話には関係していないシステム10のユーザ、またはシステム10を利用していないが閲覧権限を有する他のユーザに提示されてもよい。この場合、ウェアラブル端末100、モバイル端末200、またはサーバ300のプロセッサによって、検出された会話を時系列で提示する画面を表示させる表示制御部が実装されうる。
 図6は、2人のユーザの間で発生している会話の状態を表現する例である。図示された例では、ユーザU1とユーザU2との間の会話の発生状態が、リンクL1およびリンクL2によって示されている。リンクL1およびリンクL2の幅は、例えば図5に示す例のようにして算出された、ユーザU1とユーザU2との間の会話の発生確率に対応して変化している。つまり、図示された例において、リンクL1は、ユーザU1とユーザU2との間の会話の発生確率が低いことを示す。例えば、会話の発生確率が0より大きいものの所定の閾値に達していない場合、リンクL1が最も狭い幅で表示されうる。一方、会話の発生確率が閾値を超えて上昇するほど、より広い幅のリンクL2が表示されうる。
 既に説明した通り、本実施形態において、会話の発生確率は、例えば図5に示したような閾値を用いた判定によって会話が発生しているか否かを判定するために用いられる。また、上記で例示したような特徴量に基づいて会話の発生確率が算出される場合、会話の発生確率が高いことは、発話の交換や非発話者のうなずきなどが高い頻度で発生していることを表しうる。従って、会話の発生確率を、例えば会話の活発さを示す連続値として解釈し、上記のような表示形態の変化に利用することも可能である。
 図7は、3人のユーザの間で発生している会話の状態を表現する例である。これまでに説明してきたように、本実施形態では、対象になる複数のユーザに含まれるユーザのペア(第1のユーザおよび第2のユーザ)について特徴量が抽出され、さらに特徴量に基づいて算出される会話の発生確率に従って会話が発生しているか否かが判定される。ユーザが3人の場合、3つ(=)のペアについて、それぞれ特徴量の抽出および会話の判定が実施される。図7に示す例では、そのような抽出および判定の結果、ユーザU1とユーザU2との間、およびユーザU2とユーザU3との間に幅の広いリンクL2が表示されている。リンクL2は、図6に示された例と同様に、これらのユーザの間で活発に会話が発生していることを表現する。一方、ユーザU3とユーザU1との間には、幅が中程度のリンクL3が表示されている。リンクL3は、ユーザU3とユーザU1との間でも会話が発生しているが、さほど活発ではないことを表現する。このような表示から、ユーザU1~U3の3人の会話が、ユーザU2をハブとして進行していることが推測される。
 一方、会話とは無関係なユーザU4がユーザU1~U3の近くを通りかかった場合、ユーザU4の位置はユーザU1~U3に近接することから、ユーザU4が候補ユーザとして扱われることがありうるが、上述のように特徴量抽出部14によって抽出されるユーザ間のインタラクションを示す特徴量は会話の発生に対してポジティブなものにはならず、従って会話判定部15において算出される会話の発生確率も高くならない。それゆえ、例えば図示されているようにユーザU1とユーザU4との間やユーザU3とユーザU4との間に幅の狭いリンクL1が表示されることはありうるものの、会話の発生確率が閾値を超えないため、表示されるリンクの幅がさらに広がることはなく、ユーザU4が遠ざかるとリンクL1も消滅する。
 図8は、4人のユーザの間で発生している会話の状態を表現する例である。この例でも、対象になる複数のユーザに含まれるユーザのペアについて特徴量が抽出され、さらに特徴量に基づいて算出される会話の発生確率に従って会話が発生しているか否かが判定される。図8に示す例では、そのような抽出および判定の結果、ユーザU1とユーザU2との間、およびユーザU3とユーザU4との間に幅の広いリンクL2が表示されている。リンクL2は、既に説明された例と同様に、これらのユーザの間で活発に会話が発生していることを表現する。一方、4人のユーザの残りの組み合わせの間には、幅の狭いリンクL1が表示されている。リンクL1も既に説明された例と同様に、これらのユーザの間でほとんど会話が発生していないことを表現する。このような表示から、ユーザU1~U4は同じ場所に集まって会話をしているものの、実際にはユーザU1およびユーザU2のペア(サブグループ)と、ユーザU3およびユーザU4のペア(サブグループ)とに分かれて会話が進行していることが推測される。
 例えば、ユーザU1~U4のそれぞれのウェアラブル端末100で取得された音声データの周波数成分のような特徴量に基づいて会話を検出しようとした場合、上記で図8に示したような例では、ユーザU1~U4のそれぞれから提供される音声データが相似した特徴量を示しうるために、ユーザU1~U4を単一の会話グループに分類することはできるものの、その中でどのような組み合わせで会話が発生しているかを推測することは困難である。これに対して、本実施形態では、特徴量抽出部14がユーザ間のインタラクションを示す特徴量を抽出するために、実際に会話が発生しているユーザの組み合わせを正確に特定することが可能である。
 図9は、本開示の一実施形態における会話のグラフ構造の最適化について説明するための図である。図9に示す例では、システム10の会話判定部15が、会話が発生していると推定されるユーザを共通の会話グループに分類するにあたり、ユーザ間の会話の発生状況を示すグラフ構造を、グラフ構造について予め設定されたルールに従って最適化している。より具体的には、図示された例では、ユーザU1~U7を含む元のグラフ構造において、ユーザU2とユーザU5との間のリンクが最適化によって切断され、ユーザU1~U4を含む会話グループと、ユーザU5~U7を含む会話グループとが分離されている。
 例えば、会話判定部15は、生成されたグラフ構造のエネルギーを最小化することによって、上記のような最適化を実行する(エネルギーを最小化するというルール)。また、会話判定部15は、例えば図7の例におけるユーザU2のように会話のハブになるユーザは会話グループの中に1人である、といったような常識に基づくルールに従ってグラフ構造を最適化してもよい。また、例えば、会話判定部15は、グラフ構造の最適化にあたり、あるユーザの発話に対する他のユーザのリアクションの早さを、リンクを維持するか否かの判定に利用してもよい(発話者と、発話に対するリアクションが早かった非発話者との間のリンクは維持されやすくなる)。また、例えばウェアラブル端末100によって各ユーザの顔の向きが検出可能であるような場合、会話判定部15は、各ユーザの顔の向きを、リンクを維持するか否かの判定に利用してもよい(発話者と、顔が発話者の方を向いている被発話者との間のリンクは維持されやすくなる)。
 図10は、本開示の一実施形態における特徴量の拡張について説明するための図である。例えば上記で図4を参照して説明した例では、ユーザ間の会話を検出するための特徴量を抽出するためのアクションとして、ユーザの発話とうなずきとが利用されたが、他の例では、図10に示されるように、さらに多様なアクションに基づいて特徴量が抽出されてもよい。図10には、そのような特徴量を抽出するために利用可能なセンサとして、マイクロフォン112、モーションセンサ120(図4に例示したジャイロセンサ122および加速度センサ124を含みうる)、地磁気センサ126、および生体センサ128が例示されている。これらのセンサは、例えばウェアラブル端末100またはモバイル端末200に含まれる。以下、図示されているアクション130~140について、それぞれ説明する。
 うなずき130は、図4に示した例でも説明されたように、例えばユーザの頭部に装着されたアイウェア100aのような端末装置に搭載されたモーションセンサ120が取得するセンサデータに基づいて検出される。さらに、うなずき130は、同様に端末装置に搭載される地磁気センサ126のセンサデータを利用して検出されてもよい。
 発話区間132は、図4に示した例でも説明されたように、マイクロフォン112が取得するユーザの発話音声を含む音声データに基づいて検出される。音声データからは、さらに、発話内容134が検出可能であってもよい。この場合、例えば、発話区間132の時間的な関係性によって示されるユーザ間のインタラクションの状態に加えて、会話の話題の共通性にも基づいて、ユーザ間で発生している会話を検出することができる。
 身体方向136は、例えば地磁気センサ126が取得するセンサデータを利用して検出される。上記で図9を参照して説明したように、例えば非発話者が発話者の方を向いていたり、発話者が非発話者の方を向いていたりすることは、そこに会話の発生を検出するためのポジティブな要素になりうる。
 ジェスチャ138は、例えばモーションセンサ120や地磁気センサ126が取得するセンサデータを利用して検出される。ジェスチャ138は、例えば図4を参照して説明した例におけるうなずきと同様に、発話区間との時間的な関係性を特定することによって、ユーザ間のインタラクションを示す要素として利用可能でありうる。
 脈拍140は、例えば生体センサ128を利用して検出される。例えば、ユーザが活発に会話しているときには脈拍140にも上昇傾向が見られるような場合、脈拍の状態とユーザの会話の状態との整合性、ユーザが会話しているか否かを推定することが可能でありうる(例えば、他のアクションまたは特徴量によって活発に会話していることが示されているにもかかわらず、脈拍140が上昇していなければ、実際にはユーザが会話していない可能性がある)。
 以上のようなアクションの検出結果を利用する場合、例えば以下のような事象の発生頻度が高い場合、ユーザ間のインタラクションを示す特徴量は高くなりうる。
・発話者の発話終了時における非発話者のジェスチャによる反応
・発話に含まれる単語に共通性がある
・発話内容に共通性があり、受け答えが整合している
・発話者と非発話者との身体方向が交差している
・歩行や食事などの動作が共通している
・両者の脈拍の変化に相関性がある
 また、会話判定部15は、ユーザを会話グループに分類するにあたり、ユーザの行動のコンテキストや、特定された会話グループの利用方法を考慮してもよい。例えば、特定された会話グループの間でユーザのプライベートな画像を共有しようとする場合、ユーザ間で会話が発生していると判定するための閾値を高く設定することで、不適切なユーザとの間で画像が共有されることを防ぐことができる。また、例えば、参加者同士が広い範囲で会話している可能性が高いパーティー会場などでは閾値を低く設定することで、ユーザが会話した相手を漏らさず会話グループに分類することができる。さらに、例えば、ユーザが街中などの人混みの中にいることが多い昼間の時間帯には閾値を高く設定して誤検出を防止する一方で、ユーザが家などの人の少ない場所にいることが多い夜の時間帯には閾値を低く設定してもよい。
 (1-3.応用的な情報の生成例)
 図11は、本開示の一実施形態における、会話の検出によって得られた情報の利用例について説明するための図である。例えば、上記で図3を参照して説明した例では、会話判定部15による会話発生の判定結果が、スコア算出部16およびグルーピング部17によって利用されたが、本実施形態における情報の利用例はこのような例には限られず、他にも様々な利用が可能である。図11には、そのような利用のための機能構成として、UI生成部171~話題推薦部183を示した。これらの機能構成は、端末装置またはサーバにおいて、例えばプロセッサおよびメモリまたはストレージを用いてソフトウェア的に実装される。以下、これらの機能構成によって提供される情報について、さらに説明する。
 (第1の例)
 UI生成部171は、例えば、上記で図6~図8を参照して説明したような、ユーザ間の会話の状態を時系列でグラフ表示するユーザインターフェースを提供してもよい。また、例えば、UI生成部171は、上記のようなリアルタイムの会話の状態をリストで表示するユーザインターフェースを提供してもよい。また、UI生成部171は、そのようにして表示されたリアルタイムの会話の状態を、他のアプリケーションに連携することを可能にしてもよい。例えば、UI生成部171は、ソーシャルメディアへのリンク機能172とも協働して、共通の会話グループに属するユーザの間で画像などのデータの共有を可能にしたり、ゲームを同時にプレイしたりすることをサポートしてもよい。
 例えば、上記のように検出されたユーザ間の会話の状態を様々な用途で利用する場合、図12に示すような端末装置間のアドホックな会話グループ認識によって、実際の会話の発生状況に近い会話グループが認識されうる。
 図12に示された例では、端末装置100x,100y(各ユーザが使用する端末装置であればよく、例えば図2の例におけるウェアラブル端末100でもよいし、モバイル端末200でもよい。以下の例において同様)のそれぞれが、センシング部11、アクション検出部12、候補選出部13、特徴量抽出部14、会話判定部15、通信部31、表示部32、およびUI生成部171を有する。なお、通信部31は、端末装置100x,100yがそれぞれ備えるBluetooth(登録商標)などの通信装置によって実装される。表示部32は、端末装置100x,100yがそれぞれ備えるLCDなどのディスプレイによって実装される。図示された例では、端末装置100xおよび端末装置100yのそれぞれの対応する機能構成が協働することによって、互いのユーザが共通の会話グループに属することが特定される。
 より具体的には、図示された例において、候補選出部13は、センシング部11によって取得される位置情報と、相手のセンシング部11によって取得される位置情報とに基づいて候補ユーザを選出する。このとき、端末装置100x,100yのユーザは、それぞれ互いの候補ユーザとして選出される。次に、アクション検出部12が、センシング部11によって取得されたセンサデータに基づいて、例えば発話やうなずきなどのアクションが発生した区間を特定する。さらに、特徴量抽出部14が、それぞれの端末装置のアクション検出部12によって特定された区間などの情報を通信部31を介して共有し、端末装置100x,100yのユーザ間のインタラクションを示す特徴量を抽出する。会話判定部15は、抽出された特徴量に基づいて、端末装置100x,100yのユーザの間に会話が発生しているか否かを判定する。UI生成部171は、判定の結果に従って上述のようなグラフやリストのユーザインターフェースを生成し、表示部32を介してそれぞれのユーザに提示する。
 図13および図14は、上述した第1の例において提供されるユーザインターフェースの例を示す図である。これらの例では、ユーザインターフェースとして、モバイル端末200のディスプレイ210に画面が表示されている(例えばウェアラブル端末100において同様の画面が表示されてもよい)。図13に示した例では、画面2100a,2100bにおいてユーザ間の会話グループがグラフによって表示されている。例えば、ユーザは、ズームイン/アウトの操作によって、画面2100aと画面2100bとを相互に遷移させることができる。画面2100aでは、例えば比較的高い発生確率の閾値によって、より確実に同じ会話グループに属すると推定される他のユーザだけが表示されている。一方、画面2100bでは、例えば比較的低い発生確率の閾値によって、同じ会話グループに属すると推定される他のユーザが、より幅広く表示されている。ユーザは、例えば画面2100a,2100bに表示された他のユーザのアイコンに対してタッチパネルなどを介した操作を加えることによって、会話グループの認識結果を修正することができる。例えば、ユーザは、他のユーザのアイコンをスワイプ操作によって画面2100a,2100bの外に移動させることで、当該アイコンによって示される他のユーザを会話グループから除外することができる。
 図14に示した例では、画面2100cにおいてユーザ間の会話グループがリストによって表示されている。例えば、リストの表示順は、会話判定部15によって算出された会話の発生確率が高い順であってもよい。従って、リストの表示順は動的に変化しうる。リストの表示数を予め設定することで、会話グループに含まれるユーザの最大数が制限可能であってもよい。また、画面2100cでも、リストに表示された他のユーザを例えばスワイプ操作によって画面2100cの外に移動させることで、当該他のユーザを会話グループから除外することができる。
 (第2の例)
 第2の例では、ログ出力部175、およびソーシャルメディアへのリンク機能172によって、会話した相手の履歴がタイムライン上に出力される。図15には、そのような出力のための機能構成が示されている(なお、図示された例では会話の推定は端末装置で実行されているが、サーバで実行されてもよい)。図15に示された例では、端末装置100zが、センシング部11、アクション検出部12、候補選出部13、特徴量抽出部14、会話判定部15、通信部31、ログ出力部175、およびソーシャルメディアとリンクする機能172を有する。ログ出力部175は、会話判定部15の判定に基づく会話の発生履歴に基づいて、複数のユーザ(処理対象になるすべてのユーザ)に含まれる少なくとも1のユーザが会話した相手の情報、または会話した相手との会話情報の少なくともいずれかを含むログを出力する。ログ出力部175によって生成されたログは、ソーシャルメディアとリンクする機能172を介して、上記少なくとも1のユーザに提示されるソーシャルメディアのタイムライン(他の例では、ソーシャルメディアとは関係のないタイムラインであってもよい)上に出力される。また、サーバ300zでは、音声認識部34およびトピック認識部35がソフトウェア的に実装される。
 上記のような機能構成によって、例えば、ある程度の会話(会話時間、または会話確率の高さによって判定されうる)を交わした他のユーザが、ソーシャルメディアにおいて友人として推薦されうる。これによって、会話した他のユーザとわざわざソーシャルメディアの友人登録をする必要がなくなる。また、ソーシャルメディアなどのアプリケーションにおいて、会話の発生履歴に基づくログを参照可能であってもよい。このとき、ログには、音声認識部34およびトピック認識部35の処理によって認識された会話のトピックなどの情報や、会話が発生した場所の情報、画像などが付加されてもよい。例えば、会話のログをトピックや会話の相手でフィルタして表示すれば、ユーザの記憶の補助ツールや思い出の記録手段として有用である。
 図16は、上述した第2の例において提供されるユーザインターフェースの例を示す図である。この例では、ユーザインターフェースとして、モバイル端末200のディスプレイ210に画面が表示されている(例えばウェアラブル端末100において同様の画面が表示されてもよい)。図16に示した例では、画面2100dにおいて、日付2101と、その日にユーザが会話した他のユーザを示すタイムライン上のリストとが表示されている。リストは、例えば、他のユーザの名称2103と、会話時間2105とを含みうる。ユーザは、例えば、画面2100d上でリスト表示されたいずれかのユーザを選択することで、当該ユーザの会話履歴画面2100eを表示させることができる。画面2100eは、他のユーザの名称2103および会話時間2105と、当該ユーザとソーシャルメディアで友人になるためのアイコン2107と、当該ユーザとの過去の会話履歴2109とを含む。過去の会話履歴には、会話が発生した日付および会話時間に加えて、会話のトピック2111が表示されてもよい。
 (第3の例)
 第3の例では、上記の第2の例において、必ずしも会話を交換していない相手について、例えばソーシャルメディア上でのアクションが可能になる。上述のように、本実施形態において、特徴量抽出部14は、複数のユーザのそれぞれの発話音声同士に関係に基づいて特徴量を抽出するだけではなく、一方のユーザの発話音声と、他方のユーザの発話以外のアクション(例えばモーションまたは生体指標)との時間的な関係に基づいて特徴量を抽出することが可能である。これを利用して、例えば、単発的に会話した人認識部173は、ユーザが発話を交換して会話した他のユーザだけではなく、ユーザの発話に対して何らかのアクションをした他のユーザ、または、ユーザのアクションが向けられた発話をした他のユーザを認識して、ログ出力部175によって提供されるタイムライン上に表示することが可能である。これに基づいて、ユーザは、上記の他のユーザ(多くの場合、知り合いではない)に対して、クラウド上でのアクション174を実施することが可能である。このとき、クラウド上のアクションでは、プライバシーの保護のため、例えば相手のアバターが見える程度で、必ずしも個人情報はやりとりされなくてもよい。
 図17は、上記のような出力のための機能構成を示す図である。図16に示された例では、端末装置100wが、センシング部11、アクション検出部12、候補選出部13、特徴量抽出部14、会話判定部15、通信部31、ログ出力部175、ポストプロセス部36を有する。なお、ポストプロセス部36は、上述した単発的に会話した人認識部173および、クラウド上でのアクション174に対応し、例えば端末装置100wが備えるプロセッサがプログラムに従って動作することによってソフトウェア的に実装される。
 図示された例において、ログ出力部175は、会話グループの生成結果をログとして出力する。ポストプロセス部36は、ログの中で、所定の時間以下の会話、または一方のユーザだけの発話を含むコミュニケーションが検出された他のユーザを特定する。さらに、ポストプロセス部36は、特定された他のユーザの中から、既にソーシャルメディア上の友人であるようなユーザを除外することによって、一過性の出会いをした他のユーザを抽出し、そのようなユーザに対してクラウド上でのアクションを実行することができる。
 (第4の例)
 第4の例では、図11に示された話題推薦部183が、話題を提供することによってユーザのコミュニケーションをサポートする。例えば、話題推薦部183は、特徴量抽出部14によって抽出された特徴量によって示される会話のテンポから、会話の盛り上がりの程度を推定し、それに応じて話題を推薦する。より具体的には、話題推薦部183は、会話判定部15によって算出される会話の発生確率が低下傾向であったり、別途推定される会話の盛り上がり度合い(例えばユーザの発話のテンポや、声の大きさによって推定される)が低下傾向であったりする場合に、ユーザが新たな話題を必要としていると判断して、それまでとは異なる話題を推薦してもよい。また、例えば、話題推薦部183は、会話の発生確率が上昇傾向であったり、会話の盛り上がり度合いが上昇傾向で合ったりする場合には、現在の話題が継続されると判断して、現在の話題に関する情報をユーザに提供してもよい。
 また、別の例として、話題推薦部183は、ログ出力部175によって出力されるログや、後述する親密度グラフ生成部177によって算出される親密度に応じて、ユーザに話題を提供してもよい。より具体的には、例えば、話題推薦部183は、ユーザが普段から会話することが多い相手(会話のログが多く残っている相手)、または親密度が高い相手と会話している場合、本来会話が盛り上がるはずなので、上記のように会話が不活発であることが推定される場合には新たな話題を提供する判断をしてもよい。一方、話題推薦部183は、ユーザが普段あまり会話しない相手(会話のログがあまり残っていない相手)、または親密度が低い相手と会話している場合、会話が特に必要とされていない場合もあるため、上記のように会話が不活発であると推定される場合でも新たな話題の提供を抑制してもよい。
 (第5の例)
 第5の例では、図11に示された親密度グラフ生成部177が、ログ出力部175によって出力されたログに基づいてユーザ間の親密度を示すグラフを生成する。ここで生成される親密度グラフは、会話の発生履歴に基づいて、複数のユーザの関係性を表現するグラフ構造ともいえる。従って、親密度グラフ生成部177は、そのようなグラフ構造を特定する関係性グラフ特定部ともいえる。親密度グラフ生成部177は、例えば、ログ出力部175のログによって会話の頻度が高かったり、会話の累計時間が長かったりするユーザ同士の間で、親密度グラフにおける強いリンクを生成する。また、親密度グラフ生成部177は、アクション検出部12や特徴量抽出部14によって抽出されたリアクションの多さや種類に基づいて親密度を推定し、親密度が高いユーザ同士の間に強いリンクを生成してもよい。より具体的には、親密度グラフ生成部177は、あるユーザが他のユーザとの会話の中で、よく発話するのか、うなずいているだけなのかによって、親密度グラフにおけるユーザ間のリンクの強さを変えてもよい。また、親密度グラフ生成部177は、例えば外部(ユーザのプロフィールなど)から取得される情報に基づいて、ユーザ間のリンクにラベル(例えば、親、兄弟、上司、同僚、友人、恋人など)を与えてもよい。同様に、親密度グラフ生成部177は、親密度グラフ上で形成されたグループにラベル(例えば、家族、会社、同期、サークル)などを与えてもよい。
 一例として、親密度グラフ生成部177は、以下の式1のような数式を用いて、他のユーザとの親密度Cを算出してもよい。なお、他のユーザとの間で発生した会話にはそれぞれインデックスiが与えられているものとし、tnowは現在時刻、tpast_iはi番目の他のユーザとの会話が発生した時刻(従って、式1では、過去に発生した会話ほど、親密度への影響が小さくなる)、durationはi番目の会話の累計時間、speakはi番目の会話において発話していた時間、nodはi番目の会話においてうなずいていた時間(従って、式1では、うなずいていた時間に比べて発話していた時間が長いほど、親密度が高くなる)、positiveおよびnegativeは生体情報などに基づいて推定されるi番目の会話時の相手のユーザに対する感情(ポジティブおよびネガティブ。式1では、ポジティブな感情の方が強ければ親密度がプラスになり、ネガティブな感情の方が強ければ親密度がマイナスになる)を示す。
Figure JPOXMLDOC01-appb-M000001
 (第6の例)
 第6の例では、図11に示した共有欲求グラフ生成部179が、親密度グラフ生成部177によって生成された親密度グラフに適応グラフ生成部181によって生成されたフィルタを適用することによって、ユーザがコンテンツを共有する範囲を設定する。共有欲求グラフ生成部179は、複数のユーザ(処理対象になるすべてのユーザ)に含まれる少なくとも1のユーザが情報を共有する局面において、ユーザ同士の関係性を表現するグラフ構造に、共有される情報に関連するフィルタを適用することによって情報を共有する他のユーザを特定する共有ユーザ特定部の一例である。近年、ユーザ個人の生活に密着した画像や音声、資料、ライフログなどのコンテンツが大量に取得されているため、そのようなコンテンツの共有範囲を自動的に設定できる、または共有範囲の候補を自動的に絞り込むことができることは有用でありうる。
 図18は、本実施形態における共有欲求グラフの生成について模式的に説明するための図である。図18には、グループ親密度グラフG1に、フィルタFを適用することによって、共有欲求グラフG2が得られることが示されている。ここで、グループ親密度グラフG1は、例えば図11に示したグループ親密度グラフ生成部178によって生成される。グループ親密度グラフG1は、例えば、親密度グラフ生成部177によって生成されたユーザ個人ごとの親密度グラフを、任意のユーザグループ(複数のユーザを含む)について統合することによって生成される。
 また、フィルタFは、適応グラフ生成部181によって生成される適応グラフに対応し、共有される情報に関連したものが選択される。図示された例では、場所、興味、所属、などのグラフの中から、興味のグラフが選択され、それに応じたフィルタFが適用されている。図11に示されるように、適応グラフ生成部181は、コンテキスト認識部180によって認識されたコンテンツ共有時のコンテキスト(どのような状況で、どのような種類のコンテンツが共有されるか)や、ユーザのプロフィール182に基づいて、適切なフィルタFを提供する適応グラフを生成する。
 結果として、共有欲求グラフG2では、グループ親密度グラフG1に比べて、グラフを構成する他のユーザの位置関係が変化している。あるユーザは、フィルタFの適用によってリンクが強められ、別のユーザはフィルタFの適用によってリンクが弱められる(図示された例において、リンクの強さはグラフの中心からの距離によって表現されている)。その結果、リンクの強さが所定の閾値を上回る他のユーザとの間でコンテンツを共有する(または、そのようなユーザをコンテンツの共有先の候補にする)場合に、単にグループ親密度グラフG1によって共有先やその候補を決定する場合よりも、コンテンツの種類や共有が発生したコンテキストに応じた適切な共有先またはその候補の設定が可能になる。
 ここで、フィルタFの元になる適応グラフの動的な選択の例について、より具体的な例を挙げて説明する。例えば、ユーザが旅行中である場合には、場所の属性に対応する適応グラフが選択され、ユーザの現在地(旅先)にいる他のユーザとのリンクが強められてもよい(グラフ構造に含まれるユーザの位置関係に基づいて構成されるフィルタ)。また、例えば、ユーザが仕事中である場合には、仕事に対応する適応グラフが選択され、仕事上の関係がある他のユーザ(例えば同僚)とのリンクが強められてもよい(グラフ構造に含まれるユーザの所属先に基づいて構成されるフィルタ)。また、例えば、ユーザがスポーツのプレイ中や観戦中である場合には、興味に対応する適応グラフが選択され、そのスポーツに関心がある他のユーザとのリンクが強められてもよい(グラフ構造に含まれるユーザの興味の対象に基づいて構成されるフィルタ)。また、例えば、ユーザが自由参加のパーティー(懇親会)に参加している場合には、その時間に暇な他のユーザとのリンクが強められるように適応グラフが選択されてもよい(グラフ構造に含まれるユーザの行動情報に基づいて構成されるフィルタ)。また、例えば、ユーザが何か知らないことに直面して困っているような場合には、知識を有している他のユーザとのリンクが強められるように適応グラフが選択されてもよい(グラフ構造に含まれるユーザの有するナレッジに基づいて構成されるフィルタ)。
 なお、適応グラフは、複数が組み合わされてフィルタFを構成してもよい。また、適応グラフを使用しない(フィルタFを実質的に適用しない)ことが選択可能であってもよい。上述の通り、適応グラフ生成部181は、認識されたコンテキストやユーザのプロフィールなどに基づいて自動的に(例えばルールベースで)適応グラフを選択するが、選択可能な適応グラフをリストやタブなどによってユーザに提示した上で、ユーザの選択に従って適応グラフを選択することが可能であってもよい。この場合、初期段階ではユーザの選択に従って適応グラフを選択し、ユーザの選択結果に基づいて適応グラフの選択基準(ユーザの状況のコンテキストや、共有されるコンテンツの種類などに基づく)を学習し、やがては適応グラフを自動的に選択するように適応グラフ生成部181が構成されていてもよい。
 図19は、本実施形態における親密度グラフの動的な修正について説明するための図である。図示された例では、ユーザAおよびユーザBについてのグループ親密度グラフG3が、ユーザAとユーザBとの会話におけるユーザAの「Cくんも来ればよかったのに」という発言によって位置的に補正され、ユーザCとユーザA,Bとのリンクが強められた(ユーザCの位置がグラフの中心に近づけられた)親密度グラフG4が生成されている。このとき、例えば親密度グラフにおけるリンクの強さの総和を一定に保つというようなルールがある場合には、ユーザCとのリンクが強められた分、それ以外のユーザ(ユーザD~F)とのリンクが弱められる(位置がグラフの中心から遠ざかる)。
 図示された例では、ユーザAの実際の発話においてユーザCの名称に言及したためにユーザCとのリンクが強められているが、同様の処理は、例えばユーザAとユーザBとがオンラインでチャットをしているときに、ユーザA(またはユーザB)が入力した文章にユーザCの名称が含まれた場合にも可能である。上記の例は、グループ親密度グラフ生成部178が、ある期間(第1の期間)におけるユーザAと他のユーザ(ユーザCを含む)との会話の発生履歴に基づいて特定された親密度グラフ(ユーザの関係性を表現するグラフ構造)を、第1の期間よりも短い直近の第2の期間においてユーザAと他のユーザ(上記の例ではユーザB)との間で発生した会話(実際の会話でもよいし、オンラインのチャットのような仮想的な会話でもよい)においてユーザAが発信した内容にユーザCの名称が含まれる場合に一時的に補正する例ともいえる。この例において、より具体的には、グループ親密度グラフ生成部178は、グループ親密度グラフにおいて、ユーザAとユーザCとの関係性を一時的に強化する。同様の例として、グループ親密度グラフ生成部178は、ユーザが視線を向けた他のユーザについて、一時的に親密度グラフでのリンクを強めてもよい。
 上記のような第6の例におけるコンテンツの共有では、例えば、ユーザに、共有欲求グラフ(図18に示すG3)が画像として提示される。共有欲求グラフには、共有範囲(図18のG3に示される範囲R)が重畳表示されてもよい。さらに、共有欲求グラフだけではなく、グループ親密度グラフや適応グラフがあわせて表示されてもよい。ある例において、共有範囲Rは、まず自動的に生成された候補がユーザに提示され、ユーザが候補を修正した上で、最終的に確定される。ユーザは、例えば、共有範囲Rを示す円などの図形を拡大/縮小したり、アイコンとして表示されている他のユーザを共有範囲Rに包含させたり、共有範囲Rから排除したりすることによって、共有範囲Rを修正することができる。付加的に、共有欲求グラフ生成部179がユーザによる共有範囲Rの修正結果から、ユーザの共有範囲に関する意向を学習し、やがては共有欲求グラフ生成部179が自動的に適切な共有範囲Rを設定してもよい。
 上記のような構成によってコンテンツが共有されることによって、例えば、コンテンツの共有を受ける側のユーザは、本当に親密な他のユーザのコンテンツや、興味のもてるコンテンツが選択的に共有されることによって、コンテンツの共有においてより高い満足度を得ることができる。また、あるユーザがリアルタイムで体験しているコンテンツ(ライブでのスポーツ観戦など)を、遠隔地にいる他のユーザとの間でリアルタイムに共有することで、体験の共有ができる。
 (1-4.第一の実施形態に係る補足)
 本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。
 なお、上記の実施形態の説明では、システムにおいて複数のユーザの間での会話が検出されることとした。しかしながら、既に説明された通り、上記の実施形態では、必ずしも関係するユーザのすべてが発話する会話には限らず、例えば一部のユーザだけが発話し、他のユーザはその発話に合わせてうなずきなどのアクションをするような場合についても検出が可能である。従って、他の実施形態でそのような場合を会話とは別に検出する場合も含めて、本開示の実施形態で検出されうるのは、ユーザ間のコミュニケーションの発生であるといえる(会話はコミュニケーションの一種である)。従って、会話判定部は、コミュニケーション判定部の一例であるといえる。
 <2.第二の実施形態>
 (2-1.概要およびシステム構成)
 以上では、ユーザ間のインタラクションを示す特徴量に基づいて、対象ユーザと候補ユーザとの間で会話が発生しているか否かが判定される実施形態について説明された。以下では、上述された第一の実施形態の応用例である第二の実施形態について説明される。第二の実施形態では、複数のユーザ間において測位情報が授受されるシステムについて説明される。
 GNSS測位は消費電力が大きく、モバイル端末100またはウェアラブル端末200のような小さなバッテリを備える端末において、小電力でGNSS測位が行えることが望ましい。そこで、以下では複数のユーザ間において測位情報が授受される実施形態について説明される。
 図20は、第二の実施形態におけるGNSS測位方法の概要を示す図である。第二の実施形態において、図20のAに示されるように、ペンダント型または眼鏡型またはリストウォッチ型などのウェアラブル端末100が用いられることによって、複数のユーザの間でグループが形成される。図20では、U1からU3の3人のユーザでグループが形成される場合が説明される。なお、当該複数のユーザには、特定のユーザと行動を共にする少なくとも一人の同伴者が含まれる。ただし、特定のユーザと同伴者の関係は重要ではなく、一人のユーザから見た他方(複数の場合はその他)のユーザが同伴者として扱われる。また、グループを形成する複数の同伴者の認識方法については、後述される。
 次に図20のBに示されるように、形成されたグループの複数のユーザ間でGNSS測位を行うためのGNSS測位権(図20のBで鍵の図形で概念的に示される)を授受する。次に図3のCに示すように、GNSS測位権を有するユーザU1のウェアラブル端末100はGNSS測位を行い、GNSS測位権を有さない他のユーザ(U2およびU3)のウェアラブル端末100はGNSS測位を行うユーザU1のウェアラブル端末100から測位情報を受け取り、測位情報を共有する。そして受け取った測位情報をグループの代表値(緯度、経度の情報など)として使用する。
 なお、上述したGNSS測位権は所定の時間間隔で授受されてもよい。また、各ウェアラブル端末100の電池残量が認識される場合、電池残量の多いウェアラブル端末100にGNSS測位権が渡されてもよい。このように電池残量が多いウェアラブル端末100によってGNSS測位が行われることによって、グループ内の端末の電池残量を平滑化できる。また、GNSS測位権は、図21に示すようにユーザのモバイル端末200に表示される操作画面を介してGNSS測位権の授受がなされてもよい。
 図21では、グループ内に3人のユーザが認識されている。そして現在「BBBさん」がGNSS測位権を有することが示されている。つまり、表示画面において、BBBさんの名前の横のチェックボックスにGNSS測位権を有することを示す印が表示されている。ユーザがGNSS測位権を他のユーザに渡したいときは、ユーザがGNSS測位権を渡したいユーザの名前の隣に表示されるチェックボックスに印をつけることによってGNSS測位権が他のユーザに渡される。
 図22は、上述した動作を行うシステムのシステム構成を示す図である。本実施形態のシステムは、サーバ300mと、ウェアラブル端末100m、100nを含む。なお、ウェアラブル端末100の数は2つに限定されない。
 サーバ300mは、通信部37、同伴者認識部38およびGNSS測位決定部39を有する。通信部37は、各ウェアラブル端末100m、100nと通信を行う。また、同伴者認識部38は、各ウェアラブル端末100m、100nから送られてくる情報に基づいて複数の同伴者をグループ化する。また、GNSS測位決定部39は、同伴者認識部38によって認識されたグループのうちのどのユーザにGNSS測位権を与えるかを決定する。
 また、ウェアラブル端末100m、100nは、通信部31、表示部32、センシング部11、同伴者認識部40、GNSS測位部41、GNSS制御部42および仮想GNSS測位部43を有する。ここで通信部31は、サーバ300mと通信を行う。また、表示部32は、例えばグループに所属する複数のユーザに関する情報などの情報を表示する。なお、通信部31は、上述したようにウェアラブル端末100m、100nがそれぞれ備えるBluetooth(登録商標)またはWi-Fiなどの通信装置によって実装される。
 また、センシング部11は、上述したようにマイクロフォン、加速度センサ、および/またはジャイロセンサを含み、さらにカメラなどの撮像部を含んでもよい。また、同伴者認識部40は、センシング部11および通信部31からの情報を受け取り、受け取った情報を通信部31を介してサーバ300mの同伴者識別部38に送信する。また、同伴者認識部40は、サーバ300mの同伴者認識部38で認識された同伴者の情報を受け取る。なお、この同伴者の情報は表示部32に表示されてもよく、また表示された同伴者の情報は、ユーザによって修正されてもよい。
 GNSS測位部41は、GNSS信号をGNSS衛星から受信し、測位を行う。仮想GNSS測位部43は、他端末から受け取った測位情報を利用して自端末の位置を判定する。次に、GNSS制御部42は、サーバ300mのGNSS測位決定部39によって生成されるGNSS測位権に基づいて、GNSS測位部41をONにするか仮想GNSS測位部43をONにするかを切り替える。また図21を用いて上述されたように、手動でGNSS測位権が変更された場合、GNSS制御部42は、手動によるGNSS測位権の変更を認識してGNSS測位部41をONにするか仮想GNSS測位部43をONにするかを切り替える。
 上記の構成の動作が以下に具体的に説明される。ウェアラブル端末100m、100nの同伴者認識部40は、センシング部11またはGNSS制御部42または通信部31から以下の情報を受け取る。
(1)GNSS測位部41または仮想GNSS測位部43が生成した測位情報
(2)受信される他の端末のBluetooth(登録商標)またはWi-Fiの端末識別情報(ID)
(3)マイクロフォンが受音する音声
(4)カメラが撮像する撮像画像の情報
 ウェアラブル端末100m、100nの同伴者認識部40は、上述した(1)~(4)の情報をサーバ300mの同伴者認識部38に送信する。そして当該情報を受け取ったサーバ300mの同伴者認識部38は、例えば(1)の測位情報から各ウェアラブル端末100間の距離を判定し、所定の距離以下であれば当該ウェアラブル端末100を有するユーザを同伴者として認識してもよい。
 また、サーバ300mの同伴者認識部38は、(2)の端末識別情報に関して、長期的に観測される端末識別情報のウェアラブル端末100を有するユーザを同伴者として認識してもよい。つまり端末識別情報Aを有するウェアラブル端末100が端末識別情報Bのウェアラブル端末100を長期間観測している場合、端末識別情報Bを有するウェアラブル端末100を有するユーザを同伴者と識別する。
 また、サーバ300mの同伴者認識部38は、(3)の音声情報に基づいて環境音マッチングを行い、類似する音声情報を有するウェアラブル端末のユーザを同伴者として認識してもよい。また、サーバ300mの同伴者認識部38は、(4)の画像情報に基づいて、所定期間撮像画像で認識される人物を同伴者として認識してもよい。このとき、画像認識に用いられる人物のデータ(例えば顔の画像データなど)は、各ウェアラブル端末100m、100nに記憶されていてもよく、ウェアラブル端末100m、100nの同伴者認識部40は当該人物データをサーバ300mに送信してもよい。
 また上述したサーバ300mの同伴者認識部38は、第一の実施形態で説明されたユーザのうなずきや手の動き(ジェスチャ)などのアクションまたはユーザ間の発話音声に基づく複数のユーザ(つまり同伴者)の間のインタラクションを示す特徴量に基づいて、同伴者を認識してもよい。また、(1)~(4)およびユーザ間のインタラクションの各情報を統合して同伴者が認識されてもよい。上述したような様々な情報に基づいて同伴者が認識されることにより、ウェアラブル端末100m、100nの状況に応じた認識方法が選択される。例えば、カメラが起動されているときはカメラの撮像画像の情報が同伴者の認識のために用いられてもよい。また、マイクロフォンが起動されているときは、音声情報が同伴者の認識のために使用されてもよい。またいくつかの情報が統合されて使用されることにより、より高精度に同伴者が識別される。以上説明したように、(1)~(4)およびユーザ間のインタラクションの各情報は、同伴者を認識するために用いられる同伴者認識情報の一例と考えられる。
 以上では、サーバ300mを介してサーバ300mの同伴者認識部40において同伴者が認識される例が説明された。しかし、同伴者は各ウェアラブル端末100m、100n間で通信されることによって認識されてもよい。図23は、各ウェアラブル端末100m、100nにおいて同伴者が認識される例の構成が示された図である。図23における同伴者識別部40は、図22におけるサーバ300mの同伴者認識部38の機能を有する。また図23におけるGNSS制御部42は、図22におけるサーバのGNSS測位決定部39の機能を有する。また、同様の構成を有するモバイル端末200によって同様のシステムが形成されてもよい。
 以上では、グルーピングされた複数のユーザ間でGNSS測位権を授受する例が説明された。以下では、例えば車両などの十分大きな電源を有するGNSS測位を行うことが可能な装置の測位情報を利用する例について説明される。
 図24は、GNSS測位部45を有する車両400と当該車両400が測位する測位情報を用いるウェアラブル端末100を示すブロック図である。図24で示されるウェアラブル端末100と車両400は、通信部31、44による通信によって関連付けられる。これは例えば、Bluetooth(登録商標)などのペアリングによってなされてもよい。
 車両400と関連付けられたウェアラブル端末100のGNSS制御部42はGNSS測位部41の電源をOFFにする。そしてGNSS制御部42は、車両400のGNSS測位部45が測位した測位情報を通信部31を介して取得する。GNSS制御部42は、仮想GNSS測位部43をONにし、取得した制御情報を利用して自端末の位置を認識する。そして、ウェアラブル端末100と車両400との関連付けが解除されると、ウェアラブル端末100は、ウェアラブル端末100のGNSS測位部41をONにし、自身で測位を行う。
 このように車両400のような十分な電源を有する装置とウェアラブル端末100が関連付けられる場合、ウェアラブル端末100は十分な電源を有する装置が測位する測位情報を利用する。これによって、ウェアラブル端末100の電源消費が抑制される。
 (2-2.応用例)
 以上では他の装置が測位した測位情報を用いるシステムの例が説明された。以下では、当該システムの応用例が説明される。当該応用例では、近接に位置する複数の端末間で測位情報が共有される。この応用例は、例えばショッピングモールなどの限られた範囲に多数の端末が密集するような状況で有効である。
 図25は、当該応用例の動作を示すフローチャートである。最初にS100においてウェアラブル端末100はBluetooth(登録商標)などの通信部31を用いて近接端末をスキャンする。このとき、例えばBluetooth Low Energyなどの近距離無線通信では、半径数m以内の端末がウェアラブル端末100の通信部31で検知される。
 次にS102においてウェアラブル端末100は、S100でスキャンされた近接端末の数を判定する。次にS106においてウェアラブル端末100は、S102で判定された近接端末の数に基づいて後に詳述される間欠測位を行う。
 次にウェアラブル端末100は、S108において測位情報を他の端末から受信するか否かを判定する。ここで他の端末から測位情報が得られない場合、処理はS112に進み、ウェアラブル端末100は自身でGNSS測位を行う。S108においてウェアラブル端末が他端末から測位情報を受信すると、処理はS110に進み、ウェアラブル端末は他端末から受信した測位情報を利用して自端末の位置を認識する。そして処理はS100に戻り、上述した処理が繰り返される。
 以上では、第二の実施形態の応用例の動作が説明された。以下では図25のS106で示された間欠測位についてより詳細に説明される。上述したようにウェアラブル端末100が他端末から測位情報を受け取る場合、測位情報を受け取るウェアラブル端末は自身で測位を行わなくてもよい。よって、上述したシステムにおいて、ウェアラブル端末100は測位を間欠的に行うことができる。
 また、上述したようにウェアラブル端末100が間欠的に測位を行う場合、間欠率はS102で判定された近接端末の数に応じて変更されてもよい。例えば、S102で判定された近接端末の数が10個であり、それぞれが間欠率90%で測位を行っていると仮定する。ここで間欠率90%は、例えば10秒間に1秒だけGNSS測位部41をONにすることを意味する。
 上述したような状況において、自端末以外の他の9個の端末において測位を行っていない確率は、0.9^10≒0.35(35%)である。ここで3秒連続で自端末以外の端末が測位を行っていない確率は、0.35^3≒0.039(3.9%)となる。この確率は非常に低い確率である。つまり、ウェアラブル端末100は、少なくとも3秒程度の間隔で他端末から測位情報を受け取れる確率が非常に高い。よって、上述したシステムにおいては、ウェアラブル端末100は間欠率90%を保ちながら十分な精度で測位情報を得ることができる。
 以上の説明から理解されるように、検知される近接端末の数が多ければウェアラブル端末199は間欠率を上げることができ、検知される近接端末の数が少なければウェアラブル端末100は間欠率を下げなければならない。このように間欠的にGNSS測位部41が動作されることによって、ウェアラブル端末100において省電力化が達成される。また間欠測位を行うGNSS測位方法において、GNSS測位は、過去の測位情報を用いて補完して実行されてもよい。このとき、過去の測位情報が古すぎると補完ができない可能性がある。一方、上述したシステムを用いることによって、間欠率を上げても測位情報を他端末から得られるので、測位情報の補完が適切になされる。
 (2-3.第二の実施形態の補足)
 本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。
 なお、上述した実施形態では、ウェアラブル端末100が検知する各情報から同伴者が認識される例が説明された。しかし、同伴者の認識は、事前にユーザを同伴者として登録する専用のアプリケーションを用いて行われてもよい。また、同伴者の認識は、既存のSNS(ソーシャルネットワークサービス)におけるグループ機能を用いて行われてもよい。
 <3.ハードウェア構成>
 次に、図26を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図26は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
 情報処理装置900は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置900は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置900は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などの処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりする。
 出力装置917は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置917は、情報処理装置900の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
 ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置919は、例えばCPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置900に接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換されうる。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
 撮像装置933は、例えば、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ(マイクロフォン)などの各種のセンサである。センサ935は、例えば情報処理装置900の筐体の姿勢など、情報処理装置900自体の状態に関する情報や、情報処理装置900の周辺の明るさや騒音など、情報処理装置900の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPS受信機を含んでもよい。
 以上、情報処理装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える、情報処理装置。
(2)前記複数のユーザは、第1のユーザおよび第2のユーザを含み、
 前記特徴量は、前記音声データに含まれる前記第1のユーザの発話音声と前記第2のユーザの発話音声との時間的な関係性に基づいて抽出される、前記(1)に記載の情報処理装置。
(3)前記音声データは、前記第1のユーザの発話音声を含む第1の音声データと、前記第2のユーザの発話音声を含む第2の音声データとを含む、前記(2)に記載の情報処理装置。
(4)前記音声データは、前記第1のユーザの発話音声と前記第2のユーザの発話音声とを含む単一の音声データを含む、前記(2)に記載の情報処理装置。
(5)前記音声データから前記特徴量を抽出する特徴量抽出部をさらに備える、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)前記コミュニケーション判定部は、前記複数のユーザから各ユーザの位置関係に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)前記コミュニケーション判定部は、前記複数のユーザから各ユーザの行動情報に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)前記特徴量は、さらに、前記複数のユーザのモーションまたは生体指標を示すセンサデータから抽出される、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)前記複数のユーザは、第3のユーザおよび第4のユーザを含み、
 前記特徴量は、前記音声データに含まれる前記第3のユーザの発話音声と、前記センサデータによって示される前記第4のユーザのモーションまたは生体指標との関係に基づいて抽出される、前記(8)に記載の情報処理装置。
(10)前記コミュニケーションを時系列で提示する画面を表示させる表示制御部をさらに備える、前記(1)~(9)のいずれか1項に記載の情報処理装置。
(11)前記画面において、前記コミュニケーションは、前記特徴量に基づいて算出される前記コミュニケーションの発生確率に対応した形態で提示される、前記(10)に記載の情報処理装置。
(12)前記コミュニケーションの発生履歴に基づいて、前記複数のユーザに含まれる少なくとも1のユーザがコミュニケートした相手の情報、または前記コミュニケートした相手との会話情報の少なくともいずれかを含むログを出力するログ出力部をさらに備える、前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)前記ログ出力部は、前記ログを前記少なくとも1のユーザに提示されるタイムライン上に出力する、前記(12)に記載の情報処理装置。
(14)前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定する関係性グラフ特定部をさらに備える、前記(1)~(13)のいずれか1項に記載の情報処理装置。
(15)前記複数のユーザに含まれる少なくとも1のユーザが情報を共有する局面において、前記グラフ構造に、前記共有される情報に関連するフィルタを適用することによって前記情報を共有する他のユーザを特定する共有ユーザ特定部をさらに備える、前記(14)に記載の情報処理装置。
(16)前記フィルタは、前記グラフ構造に含まれるユーザの位置関係、前記グラフ構造に含まれるユーザの所属先、前記グラフ構造に含まれるユーザの興味の対象、前記グラフ構造に含まれるユーザの行動情報、または前記グラフ構造に含まれるユーザの有するナレッジに基づいて構成される、前記(15)に記載の情報処理装置。
(17)前記関係性グラフ特定部は、第1の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第1の期間よりも短い直近の第2の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する、前記(14)~(16)のいずれか1項に記載の情報処理装置。
(18)前記複数のユーザは、第5のユーザおよび第6のユーザを含み、
 前記関係性グラフ特定部は、前記第2の期間において発生した前記コミュニケーションにおいて前記第5のユーザが発信した内容に前記第6のユーザの名称が含まれる場合に、前記グラフ構造において前記第5のユーザと前記第6のユーザとの関係性を一時的に強化する、前記(17)に記載の情報処理装置。
(19)プロセッサが、少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定することを含む、情報処理方法。
(20)少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定する機能をコンピュータに実現させるためのプログラム。
(21)
 前記ユーザの同伴者を認識するための同伴者認識情報に基づいて前記同伴者を認識する同伴者認識部と、
 GNSS測位を行うためのGNSS測位権を前記ユーザが有する第1の情報処理装置に与えるか前記同伴者が有する第2の情報処理装置に与えるかを判定するGNSS測位決定部と、を備える、前記(1)に記載の情報処理装置。
(22)
 前記同伴者認識情報は、前記ユーザと前記同伴者との間のインタラクションを示す特徴量、または前記ユーザが有する第1の情報処理装置が撮像する画像情報、または前記第1の情報処理装置と前記第2の情報処理装置との間の距離に関する情報、または前記第1の情報処理装置または前記第2の情報処理装置が発する端末識別情報のいずれか1つまたはこれらの組み合わせを含む、前記(21)に記載の情報処理装置。
(23)
 前記第1の情報処理装置および前記第2の情報処理装置の電池残量を認識し、前記電池残量に基づいて前記GNSS測位権を与える情報処理装置を決定する、前記(21)または前記(22)に記載の情報処理装置。
(24)
 前記第1の情報処理装置に近接するGNSS測位を行うことが可能な車両が認識された場合、前記車両から測位情報を取得する、前記(21)から前記(23)のいずれか1項に記載の情報処理装置。
(25)
 通信部をさらに備え、前記通信部が認識する近接端末の数に応じて、間欠的にGNSS測位を行う頻度を変更する、前記(21)から前記(24)のいずれか1項に記載の情報処理装置。
 10  システム
 11  センシング部
 12  アクション検出部
 13  候補選出部
 14  特徴量抽出部
 15  会話判定部
 16  スコア算出部
 17  グルーピング部
 38、40 同伴者認識部
 39  GNSS測位決定部
 100a  アイウェア
 100b  リストウェア
 200  モバイル端末
 300  サーバ

Claims (25)

  1.  少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定するコミュニケーション判定部を備える、情報処理装置。
  2.  前記複数のユーザは、第1のユーザおよび第2のユーザを含み、
     前記特徴量は、前記音声データに含まれる前記第1のユーザの発話音声と前記第2のユーザの発話音声との時間的な関係性に基づいて抽出される、請求項1に記載の情報処理装置。
  3.  前記音声データは、前記第1のユーザの発話音声を含む第1の音声データと、前記第2のユーザの発話音声を含む第2の音声データとを含む、請求項2に記載の情報処理装置。
  4.  前記音声データは、前記第1のユーザの発話音声と前記第2のユーザの発話音声とを含む単一の音声データを含む、請求項2に記載の情報処理装置。
  5.  前記音声データから前記特徴量を抽出する特徴量抽出部をさらに備える、請求項1に記載の情報処理装置。
  6.  前記コミュニケーション判定部は、前記複数のユーザから各ユーザの位置関係に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、請求項1に記載の情報処理装置。
  7.  前記コミュニケーション判定部は、前記複数のユーザから各ユーザの行動情報に基づいて選出されたユーザの間で前記コミュニケーションが発生しているか否かを判定する、請求項1に記載の情報処理装置。
  8.  前記特徴量は、さらに、前記複数のユーザのモーションまたは生体指標を示すセンサデータから抽出される、請求項1に記載の情報処理装置。
  9.  前記複数のユーザは、第3のユーザおよび第4のユーザを含み、
     前記特徴量は、前記音声データに含まれる前記第3のユーザの発話音声と、前記センサデータによって示される前記第4のユーザのモーションまたは生体指標との関係に基づいて抽出される、請求項8に記載の情報処理装置。
  10.  前記コミュニケーションを時系列で提示する画面を表示させる表示制御部をさらに備える、請求項1に記載の情報処理装置。
  11.  前記画面において、前記コミュニケーションは、前記特徴量に基づいて算出される前記コミュニケーションの発生確率に対応した形態で提示される、請求項10に記載の情報処理装置。
  12.  前記コミュニケーションの発生履歴に基づいて、前記複数のユーザに含まれる少なくとも1のユーザがコミュニケートした相手の情報、または前記コミュニケートした相手との会話情報の少なくともいずれかを含むログを出力するログ出力部をさらに備える、請求項1に記載の情報処理装置。
  13.  前記ログ出力部は、前記ログを前記少なくとも1のユーザに提示されるタイムライン上に出力する、請求項12に記載の情報処理装置。
  14.  前記コミュニケーションの発生履歴に基づいて、前記複数のユーザの関係性を表現するグラフ構造を特定する関係性グラフ特定部をさらに備える、請求項1に記載の情報処理装置。
  15.  前記複数のユーザに含まれる少なくとも1のユーザが情報を共有する局面において、前記グラフ構造に、前記共有される情報に関連するフィルタを適用することによって前記情報を共有する他のユーザを特定する共有ユーザ特定部をさらに備える、請求項14に記載の情報処理装置。
  16.  前記フィルタは、前記グラフ構造に含まれるユーザの位置関係、前記グラフ構造に含まれるユーザの所属先、前記グラフ構造に含まれるユーザの興味の対象、前記グラフ構造に含まれるユーザの行動情報、または前記グラフ構造に含まれるユーザの有するナレッジに基づいて構成される、請求項15に記載の情報処理装置。
  17.  前記関係性グラフ特定部は、第1の期間における前記コミュニケーションの発生履歴に基づいて特定された前記グラフ構造を、前記第1の期間よりも短い直近の第2の期間において発生した前記コミュニケーションの内容に応じて一時的に補正する、請求項14に記載の情報処理装置。
  18.  前記複数のユーザは、第5のユーザおよび第6のユーザを含み、
     前記関係性グラフ特定部は、前記第2の期間において発生した前記コミュニケーションにおいて前記第5のユーザが発信した内容に前記第6のユーザの名称が含まれる場合に、前記グラフ構造において前記第5のユーザと前記第6のユーザとの関係性を一時的に強化する、請求項17に記載の情報処理装置。
  19.  プロセッサが、少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定することを含む、情報処理方法。
  20.  少なくともユーザの発話音声を含む音声データから抽出される、前記ユーザを含む複数のユーザの間のインタラクションを示す特徴量に基づいて、前記複数のユーザの間でコミュニケーションが発生しているか否かを判定する機能をコンピュータに実現させるためのプログラム。
  21.  前記ユーザの同伴者を認識するための同伴者認識情報に基づいて前記同伴者を認識する同伴者認識部と、
     GNSS測位を行うためのGNSS測位権を前記ユーザが有する第1の情報処理装置に与えるか前記同伴者が有する第2の情報処理装置に与えるかを判定するGNSS測位決定部と、を備える、請求項1に記載の情報処理装置。
  22.  前記同伴者認識情報は、前記ユーザと前記同伴者との間のインタラクションを示す特徴量、または前記ユーザが有する第1の情報処理装置が撮像する画像情報、または前記第1の情報処理装置と前記第2の情報処理装置との間の距離に関する情報、または前記第1の情報処理装置または前記第2の情報処理装置が発する端末識別情報のいずれか1つまたはこれらの組み合わせを含む、請求項21に記載の情報処理装置。
  23.  前記第1の情報処理装置および前記第2の情報処理装置の電池残量を認識し、前記電池残量に基づいて前記GNSS測位権を与える情報処理装置を決定する、請求項21に記載の情報処理装置。
  24.  前記第1の情報処理装置に近接するGNSS測位を行うことが可能な車両が認識された場合、前記車両から測位情報を取得する、請求項21に記載の情報処理装置。
  25.  通信部をさらに備え、前記通信部が認識する近接端末の数に応じて、間欠的にGNSS測位を行う頻度を変更する、請求項21に記載の情報処理装置。
PCT/JP2016/057392 2015-03-27 2016-03-09 情報処理装置、情報処理方法、およびプログラム WO2016158267A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201680016943.0A CN107408396A (zh) 2015-03-27 2016-03-09 信息处理装置、信息处理方法和程序
US15/554,328 US20180040317A1 (en) 2015-03-27 2016-03-09 Information processing device, information processing method, and program
EP16772151.3A EP3276622A4 (en) 2015-03-27 2016-03-09 Information processing device, information processing method, and program
JP2017509478A JP6756328B2 (ja) 2015-03-27 2016-03-09 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015066901 2015-03-27
JP2015-066901 2015-03-27
PCT/JP2015/085187 WO2016157642A1 (ja) 2015-03-27 2015-12-16 情報処理装置、情報処理方法、およびプログラム
JPPCT/JP2015/085187 2015-12-16

Publications (1)

Publication Number Publication Date
WO2016158267A1 true WO2016158267A1 (ja) 2016-10-06

Family

ID=57004909

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2015/085187 WO2016157642A1 (ja) 2015-03-27 2015-12-16 情報処理装置、情報処理方法、およびプログラム
PCT/JP2016/057392 WO2016158267A1 (ja) 2015-03-27 2016-03-09 情報処理装置、情報処理方法、およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/085187 WO2016157642A1 (ja) 2015-03-27 2015-12-16 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US20180040317A1 (ja)
EP (1) EP3276622A4 (ja)
JP (1) JP6756328B2 (ja)
CN (1) CN107408396A (ja)
WO (2) WO2016157642A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095609A (ja) * 2017-11-22 2019-06-20 株式会社ぐるなび 情報処理装置、情報処理方法及びプログラム
JP2019138937A (ja) * 2018-02-06 2019-08-22 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020095714A1 (ja) * 2018-11-09 2020-05-14 ソニー株式会社 情報処理装置および方法、並びに、プログラム
JP2020086656A (ja) * 2018-11-19 2020-06-04 トヨタ自動車株式会社 情報処理システム、プログラム、及び情報処理方法
JP2020091622A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 グループ推定装置及びグループ推定方法
JP2020166360A (ja) * 2019-03-28 2020-10-08 株式会社日本総合研究所 プログラム及び情報処理装置
JP2021064011A (ja) * 2016-12-30 2021-04-22 グーグル エルエルシーGoogle LLC 選択的センサポーリング
JP2022116607A (ja) * 2021-01-29 2022-08-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7434451B2 (ja) 2022-07-28 2024-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7465040B1 (ja) 2022-12-27 2024-04-10 株式会社I’mbesideyou コミュニケーション可視化システム
WO2024100703A1 (ja) * 2022-11-07 2024-05-16 マクセル株式会社 映像表示装置、映像表示システム及び映像表示装置の制御方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10337962B2 (en) * 2013-03-15 2019-07-02 Fluke Corporation Visible audiovisual annotation of infrared images using a separate wireless mobile device
JP6468258B2 (ja) * 2016-08-01 2019-02-13 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
EP3859568A4 (en) * 2018-09-28 2021-09-29 Fujitsu Limited DIALOGUE DEVICE, DIALOGUE PROCESS AND DIALOGUE PROGRAM
JP7528638B2 (ja) 2020-08-26 2024-08-06 トヨタ自動車株式会社 コミュニケーションシステム
US20220189503A1 (en) * 2020-12-14 2022-06-16 Liine, LLC Methods, systems, and computer program products for determining when two people are talking in an audio recording
WO2022137507A1 (en) 2020-12-25 2022-06-30 Nec Corporation Speaker identificantion apparatus, method, and program
JP6924912B1 (ja) * 2021-01-29 2021-08-25 Kddi株式会社 情報処理装置及び情報処理方法
KR102616058B1 (ko) * 2022-04-06 2023-12-21 네이버 주식회사 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228449A (ja) * 2002-02-01 2003-08-15 Sharp Corp 対話装置及び対話処理プログラムを記録した記録媒体
WO2007105436A1 (ja) * 2006-02-28 2007-09-20 Matsushita Electric Industrial Co., Ltd. ウェアラブル端末
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
JP2012133735A (ja) * 2010-12-24 2012-07-12 Kddi Corp ソーシャルグラフ更新システム、ソーシャルグラフ更新方法、およびプログラム
JP2012530321A (ja) * 2009-06-16 2012-11-29 フェイスブック,インク. ソーシャルネットワークにおける選択的コンテンツアクセス性
JP2013058221A (ja) * 2012-10-18 2013-03-28 Hitachi Ltd 会議分析システム
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013164468A (ja) * 2012-02-09 2013-08-22 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP2002108396A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声通信方法
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US20030158735A1 (en) * 2002-02-15 2003-08-21 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
WO2004021601A1 (en) * 2002-08-27 2004-03-11 Closer Communications Llc Wireless information retrieval and content dissemination system and method
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US7933226B2 (en) * 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
WO2005114576A1 (ja) * 2004-05-21 2005-12-01 Asahi Kasei Kabushiki Kaisha 動作内容判定装置
US7730411B2 (en) * 2007-02-01 2010-06-01 Cisco Technology, Inc. Re-creating meeting context
JP2008262046A (ja) * 2007-04-12 2008-10-30 Hitachi Ltd 会議可視化システム、会議可視化方法、及び集計処理サーバ
US9491573B2 (en) * 2008-11-06 2016-11-08 Texas Instruments Incorporated Communication device for providing value-added information based upon content and/or context information
JP5949550B2 (ja) * 2010-09-17 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
JP2012155374A (ja) * 2011-01-21 2012-08-16 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8990416B2 (en) * 2011-05-06 2015-03-24 Oracle International Corporation Support for a new insert stream (ISTREAM) operation in complex event processing (CEP)
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
JP2013135325A (ja) * 2011-12-26 2013-07-08 Fuji Xerox Co Ltd 音声解析装置
CN103888423B (zh) * 2012-12-20 2019-01-15 联想(北京)有限公司 信息处理方法和信息处理设备
US20130290427A1 (en) * 2013-03-04 2013-10-31 Hello Inc. Wearable device with unique user ID and telemetry system in communication with one or more social networks
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US10120907B2 (en) * 2014-09-24 2018-11-06 Oracle International Corporation Scaling event processing using distributed flows and map-reduce operations

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228449A (ja) * 2002-02-01 2003-08-15 Sharp Corp 対話装置及び対話処理プログラムを記録した記録媒体
WO2007105436A1 (ja) * 2006-02-28 2007-09-20 Matsushita Electric Industrial Co., Ltd. ウェアラブル端末
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
JP2012530321A (ja) * 2009-06-16 2012-11-29 フェイスブック,インク. ソーシャルネットワークにおける選択的コンテンツアクセス性
JP2012133735A (ja) * 2010-12-24 2012-07-12 Kddi Corp ソーシャルグラフ更新システム、ソーシャルグラフ更新方法、およびプログラム
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013164468A (ja) * 2012-02-09 2013-08-22 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013058221A (ja) * 2012-10-18 2013-03-28 Hitachi Ltd 会議分析システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASAYUKI OKAMOTO ET AL.: "Adhoc-Meeting Detection by Cross Correlation of Terminal Voice", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS DAI 19 KAI PROCEEDINGS OF DATA ENGINEERING WORKSHOP, 7 April 2008 (2008-04-07), pages 1 - 8, XP009506481 *
See also references of EP3276622A4 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7136941B2 (ja) 2016-12-30 2022-09-13 グーグル エルエルシー 選択的センサポーリング
JP2021064011A (ja) * 2016-12-30 2021-04-22 グーグル エルエルシーGoogle LLC 選択的センサポーリング
JP2019095609A (ja) * 2017-11-22 2019-06-20 株式会社ぐるなび 情報処理装置、情報処理方法及びプログラム
JP7006176B2 (ja) 2017-11-22 2022-01-24 株式会社ぐるなび 情報処理装置、情報処理方法及びプログラム
JP2019138937A (ja) * 2018-02-06 2019-08-22 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
WO2020095714A1 (ja) * 2018-11-09 2020-05-14 ソニー株式会社 情報処理装置および方法、並びに、プログラム
US11553158B2 (en) 2018-11-09 2023-01-10 Sony Group Corporation Information processing apparatus, information processing method, and program
JP7415940B2 (ja) 2018-11-09 2024-01-17 ソニーグループ株式会社 情報処理装置および方法、並びに、プログラム
JPWO2020095714A1 (ja) * 2018-11-09 2021-10-07 ソニーグループ株式会社 情報処理装置および方法、並びに、プログラム
JP2020086656A (ja) * 2018-11-19 2020-06-04 トヨタ自動車株式会社 情報処理システム、プログラム、及び情報処理方法
JP7155927B2 (ja) 2018-11-19 2022-10-19 トヨタ自動車株式会社 情報処理システム、プログラム、及び情報処理方法
JP7041046B2 (ja) 2018-12-05 2022-03-23 Kddi株式会社 グループ推定装置及びグループ推定方法
JP2020091622A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 グループ推定装置及びグループ推定方法
JP7290977B2 (ja) 2019-03-28 2023-06-14 株式会社日本総合研究所 プログラム及び情報処理装置
JP2020166360A (ja) * 2019-03-28 2020-10-08 株式会社日本総合研究所 プログラム及び情報処理装置
JP7225276B2 (ja) 2021-01-29 2023-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP2022116607A (ja) * 2021-01-29 2022-08-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7434451B2 (ja) 2022-07-28 2024-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2024100703A1 (ja) * 2022-11-07 2024-05-16 マクセル株式会社 映像表示装置、映像表示システム及び映像表示装置の制御方法
JP7465040B1 (ja) 2022-12-27 2024-04-10 株式会社I’mbesideyou コミュニケーション可視化システム
WO2024142291A1 (ja) * 2022-12-27 2024-07-04 株式会社I’mbesideyou コミュニケーション可視化システム

Also Published As

Publication number Publication date
US20180040317A1 (en) 2018-02-08
CN107408396A (zh) 2017-11-28
JP6756328B2 (ja) 2020-09-16
EP3276622A1 (en) 2018-01-31
JPWO2016158267A1 (ja) 2018-01-25
EP3276622A4 (en) 2018-10-03
WO2016157642A1 (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
WO2016158267A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220377467A1 (en) Hearing aid systems and mehods
US10853650B2 (en) Information processing apparatus, information processing method, and program
CN107850443B (zh) 信息处理装置、信息处理方法以及程序
JP6729571B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP2727104B1 (en) Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
EP3418967A1 (en) Method relating to presence granularity with augmented reality
CN111433766B (zh) 用于对时间序列数据进行分类的方法和系统
JP6311478B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016006611A (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2019116658A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US9977510B1 (en) Gesture-driven introduction system
WO2016136104A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2015190141A1 (ja) 情報処理装置、情報処理方法、およびプログラム
EP4080388A1 (en) Multimodal, dynamic, privacy preserving age and attribute estimation and learning methods and systems
JP6733662B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US11217253B2 (en) Information processing apparatus, information processing method, and information processing system
WO2016189909A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2015194270A1 (ja) 情報処理装置、情報処理方法およびプログラム
Yu et al. Group Behavior Recognition
WO2016147693A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2015198672A1 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16772151

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017509478

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15554328

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2016772151

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE