KR102441456B1 - Method and system for mimicking tone and style of real person - Google Patents
Method and system for mimicking tone and style of real person Download PDFInfo
- Publication number
- KR102441456B1 KR102441456B1 KR1020200012367A KR20200012367A KR102441456B1 KR 102441456 B1 KR102441456 B1 KR 102441456B1 KR 1020200012367 A KR1020200012367 A KR 1020200012367A KR 20200012367 A KR20200012367 A KR 20200012367A KR 102441456 B1 KR102441456 B1 KR 102441456B1
- Authority
- KR
- South Korea
- Prior art keywords
- conversation
- answer
- target person
- providing
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013473 artificial intelligence Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000036651 mood Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 13
- 230000002085 persistent effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G06Q50/30—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
실제 사람의 말투와 문체를 흉내 내는 대화 방법 및 시스템이 개시된다. 대화 방법은, 대상 인물과 관련된 데이터를 바탕으로 상기 대상 인물의 말투와 문체로 이루어진 대화 모델을 생성하는 단계; 및 클라이언트의 요청에 따라 상기 대화 모델을 이용하여 상기 요청에 대응되는 답변을 제공하는 단계를 포함하는 인공지능 대화 방법을 제공한다.Disclosed are a dialogue method and system that mimics the tone and style of a real person. The conversation method includes the steps of: generating a dialogue model composed of a tone and style of the target person based on data related to the target person; and providing an answer corresponding to the request by using the conversation model according to the request of the client.
Description
아래의 설명은 인공지능(AI)을 이용한 대화 기술에 관한 것이다.The description below relates to conversational technology using artificial intelligence (AI).
같은 메시지라 하더라도 유명인사가 하는 말이 더 파급효과가 크다.Even with the same message, the words of celebrities have a greater ripple effect.
한편, 이미 사망한 유명인사에 대한 향수를 가진 사람들이 늘어나고 있다.Meanwhile, an increasing number of people have nostalgia for celebrities who have already died.
최근 인공지능의 발달로 로봇이 사람과 유사하게 글을 쓸 수 있는 수준까지 이르렀다.With the recent development of artificial intelligence, robots have reached a level where they can write similarly to humans.
아울러, 고독사 예방이나 심리 치료를 목적으로 하는 인공지능 대화 시스템이 연구되고 있다.In addition, artificial intelligence conversation systems for the purpose of preventing loneliness or psychological treatment are being studied.
예컨대, 한국공개특허 제10-2016-0074954호(공개일 2016년 06월 29일)에는 사용자의 기분이나 상황 등의 상태 변수를 수집하고 수집한 정보에 따라 전문가 시스템 기법을 통한 추론을 통하여 상담을 제공하는 인공지능 대화 시스템이 개시되어 있다.For example, in Korea Patent Publication No. 10-2016-0074954 (published on June 29, 2016), state variables such as the user's mood or situation are collected and counseling is provided through inference through an expert system technique according to the collected information. An artificial intelligence conversation system that provides is disclosed.
대상 인물의 목소리가 포함된 컨텐츠를 기초로 해당 인물의 말투와 문체를 가진 대화 모델을 생성하여 대상 인물과의 대화를 제공할 수 있는 방법 및 시스템을 제공한다.A method and system capable of providing a conversation with a target person by generating a dialogue model having the tone and style of the person on the basis of the contents including the voice of the target person are provided.
컴퓨터 시스템에서 실행되는 인공지능 대화 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 인공지능 대화 방법은, 상기 적어도 하나의 프로세서에 의해, 대상 인물과 관련된 데이터를 바탕으로 상기 대상 인물의 말투와 문체로 이루어진 대화 모델을 생성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 클라이언트의 요청에 따라 상기 대화 모델을 이용하여 상기 요청에 대응되는 답변을 제공하는 단계를 포함하는 인공지능 대화 방법을 제공한다.An artificial intelligence conversation method executed in a computer system, the computer system comprising at least one processor configured to execute computer readable instructions contained in a memory, the artificial intelligence conversation method comprising: , generating a dialogue model comprising the tone and style of the target person based on data related to the target person; and providing, by the at least one processor, an answer corresponding to the request by using the conversation model according to the request of the client.
일 측면에 따르면, 상기 생성하는 단계는, 상기 대상 인물의 목소리와 문체가 포함된 컨텐츠를 이용하여 상기 대화 모델을 학습하기 위한 데이터를 수집하는 단계; 및 상기 수집된 데이터를 바탕으로 신경망을 통해 텍스트 정보와 음성 정보를 매칭시켜 학습하는 단계를 포함할 수 있다.According to one aspect, the generating may include: collecting data for learning the dialogue model using content including the voice and style of the target person; and learning by matching text information and voice information through a neural network based on the collected data.
다른 측면에 따르면, 상기 생성하는 단계는, 상기 클라이언트로부터 업로드된 상기 대상 인물의 목소리나 문체가 포함된 파일을 학습하여 상기 대화 모델을 생성하는 단계를 포함할 수 있다.According to another aspect, the generating may include generating the dialogue model by learning a file including the voice or style of the target person uploaded from the client.
또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 클라이언트로부터 선택된 기분에 대해 상기 클라이언트로부터 업로드된 상기 대상 인물의 목소리나 문체가 포함된 파일을 학습하여 상기 기분에 해당되는 버전의 대화 모델을 생성하는 단계를 포함할 수 있다.According to another aspect, in the generating step, a file containing the voice or style of the target person uploaded from the client with respect to the mood selected by the client is learned to generate a dialogue model of a version corresponding to the mood may include steps.
또 다른 측면에 따르면, 상기 생성하는 단계는, 상기 클라이언트에 설정된 공개 여부에 따라 상기 대화 모델을 구매를 통해 거래 가능한 플랫폼에 노출하는 단계를 포함할 수 있다.According to another aspect, the generating may include exposing the conversation model to a tradable platform through purchase according to whether or not disclosure is set in the client.
또 다른 측면에 따르면, 상기 인공지능 대화 방법은, 상기 적어도 하나의 프로세서에 의해, 상기 클라이언트로부터 상기 답변에 대한 평가 정보를 수신하여 상기 평가 정보를 바탕으로 상기 대화 모델을 재학습하는 단계를 더 포함할 수 있다.According to another aspect, the artificial intelligence conversation method further includes, by the at least one processor, receiving evaluation information for the answer from the client and re-learning the conversation model based on the evaluation information can do.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 대상 인물과의 대화 기능으로 음성 통화를 이용한 대화 또는 대화방을 이용한 대화를 제공하는 단계를 포함할 수 있다.According to another aspect, the providing may include providing a conversation using a voice call or a conversation using a chat room as a conversation function with the target person.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 음성 통화를 이용한 대화를 제공하는 경우 상기 음성 통화가 종료되면 상기 클라이언트를 통해 상기 대상 인물과의 대화에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하는 단계를 포함할 수 있다.According to another aspect, the providing may include providing an interface for feeding back a user evaluation of the conversation with the target person through the client when the voice call is terminated when the conversation using the voice call is provided. may include steps.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 대화방을 이용한 대화를 제공하는 경우 상기 대상 인물의 답변으로 제공된 메시지가 선택되면 상기 클라이언트를 통해 상기 메시지에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하는 단계를 포함할 수 있다.According to another aspect, in the providing step, when a message provided as an answer of the target person is selected when a conversation using the chat room is provided, an interface for feeding back a user evaluation of the message through the client is provided. may include steps.
또 다른 측면에 따르면, 상기 인터페이스에는 상기 메시지와 다른 답변으로 이루어진 추천 답변, 및 상기 메시지와 다른 답변을 직접 작성하기 위한 인터페이스 중 적어도 하나가 포함될 수 있다.According to another aspect, the interface may include at least one of a recommended answer including an answer different from the message, and an interface for directly writing an answer different from the message.
컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 대상 인물과 관련된 데이터를 바탕으로 상기 대상 인물의 말투와 문체로 이루어진 대화 모델을 생성하는 과정; 및 클라이언트의 요청에 따라 상기 대화 모델을 이용하여 상기 요청에 대응되는 답변을 제공하는 과정을 처리하는 컴퓨터 시스템을 제공한다.A computer system comprising: at least one processor implemented to execute computer readable instructions contained in a memory, wherein the at least one processor is configured with a tone and style of the target person based on data related to the target person the process of creating a dialogue model; and a computer system that processes a process of providing an answer corresponding to the request by using the conversation model according to the request of the client.
본 발명의 실시예들에 따르면, 대상 인물의 목소리가 포함된 컨텐츠를 이용하여 해당 인물의 말투와 문체를 가진 대화 모델을 생성함으로써 대상 인물과의 대화를 제공할 수 있다.According to embodiments of the present invention, a conversation with the target person may be provided by generating a dialogue model having the tone and style of the target person by using the content including the target person's voice.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2 내지 도 9는 본 발명의 일실시예에 있어서 대상 인물의 말투와 문체를 가진 대화 모델을 생성하는 과정을 설명하기 위한 예시 도면들이다.
도 10은 본 발명의 일실시예에 있어서 인공지능 대화를 지원하는 클라이언트(client)-서버(server) 환경의 예를 도시한 도면이다.
도 11 내지 도 16은 본 발명의 일실시예에 있어서 대상 인물과의 대화를 위한 어플리케이션 화면의 예를 도시한 것이다.1 is a block diagram for explaining an example of an internal configuration of a computer system according to an embodiment of the present invention.
2 to 9 are exemplary views for explaining a process of generating a dialogue model having the tone and style of the target person according to an embodiment of the present invention.
10 is a diagram illustrating an example of a client-server environment supporting an artificial intelligence conversation according to an embodiment of the present invention.
11 to 16 are diagrams illustrating an example of an application screen for a conversation with a target person according to an embodiment of the present invention.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 발명의 실시예들은 인공지능(AI)을 이용한 대화 기술에 관한 것이다.Embodiments of the present invention relate to conversation technology using artificial intelligence (AI).
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 인공지능 기술을 활용하여 실제 사람의 말투와 문체로 대화하는 환경을 제공할 수 있다.Embodiments including those specifically disclosed in this specification may provide an environment in which conversations are made with a voice and style of a real person by utilizing artificial intelligence technology.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 인공지능 대화 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 인공지능 대화 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150), 및 네트워크 인터페이스(160)를 포함할 수 있다.1 is a block diagram for explaining an example of an internal configuration of a computer system according to an embodiment of the present invention. For example, an artificial intelligence dialog system according to embodiments of the present invention may be implemented through the
프로세서(110)는 인공지능 대화를 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.
메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 인공지능 대화를 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.
버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.
영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.
입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 인공지능 대화를 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.The input/
네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 인공지능 대화를 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.
또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.Also, in other embodiments,
이하에서는 실제 사람의 말투와 문체를 흉내 내는 대화 방법 및 시스템의 구체적인 실시예를 설명하기로 한다.Hereinafter, a specific embodiment of a conversation method and system that mimics the tone and style of a real person will be described.
도 2를 참조하면, 본 발명의 실시예들은 데이터의 수집과 보관이 매우 용이해짐에 따라 대상 인물의 목소리와 문체가 담긴 컨텐츠(도서나 인터넷 게시물, 동영상 등)를 통해 방대한 양의 데이터를 축적할 수 있고, 인공지능을 처리하기 위한 컴퓨팅 기술이 크게 향상됨에 따라 축적된 데이터의 기계 학습(machine learning)과 인공지능을 활용한 학습을 거쳐 학습된 데이터를 바탕으로 대상 인물의 말투와 문체를 흉내 내는 대화 모델을 구현할 수 있다.Referring to FIG. 2 , in the embodiments of the present invention, as the collection and storage of data becomes very easy, a large amount of data can be accumulated through contents (books, Internet posts, videos, etc.) containing the voice and style of the target person. As computing technology for processing artificial intelligence is greatly improved, it is possible to imitate the tone and style of the target person based on the learned data through machine learning of accumulated data and learning using artificial intelligence. Conversational model can be implemented.
도 3을 참조하면, 본 발명에 따른 인공지능 대화 시스템은 위인 등 유명인사의 음성 모델과 대화 모델을 학습 및 구축할 수 있고, 서비스를 이용하는 사용자 별로 각 사용자의 음성 모델과 대화 모델을 학습 및 구축할 수 있다. 일례로, 도 4에 도시한 바와 같이 프로세서(110)는 사용자로부터 입력된 음성에 대해 형태소 분석 등 자연어 처리를 통해 입력 음성으로부터 대화 의도와 객체를 분석할 수 있다. 이어, 프로세서(110)는 대화 의도와 객체에 대한 분석 결과에 기초하여 스토리를 분석한 후 해당 스토리에 대응되는 대화를 생성하여 출력할 수 있다.Referring to FIG. 3 , the artificial intelligence dialog system according to the present invention can learn and build a voice model and a dialog model of a famous person such as a great person, and learn and build a voice model and a dialog model of each user for each user who uses the service can do. For example, as shown in FIG. 4 , the
예를 들어, 도 5를 참조하면 프로세서(110)는 대상 인물 '이순신'의 경우 관련 컨텐츠로 난중일기를 선정하여 데이터 전처리, 형태소 분석, 단어 사전 생성 등을 거쳐 텍스트 기반의 문자 생성 모델과 질문 답변 모델을 생성할 수 있다. 데이터 전처리 과정은 특수문자나 기호 등의 삭제, 목적 언어로의 변환 등이 포함될 수 있고, 형태소 분석 과정은 전치사, 접속사 등 불필요한 단어 제거 등이 포함될 수 있다. 단어 사전 생성 과정은 형태소 분석 과정을 거친 후 남은 단어들을 대상 인물과 관련된 단어 사전으로 생성할 수 있고(word2vec) 워드 임베딩을 거쳐 벡터화할 수 있다. 모델 생성 과정은 대상 인물과 관련된 전체 문장 학습과 질의 응답 쌍으로 학습함으로써 문자 생성 모델과 질문 답변 모델을 생성할 수 있다. 아울러, 프로세서(110)는 대상 인물 '이순신'의 말투 생성 모델로서 형태소 분석 과정을 거친 후 명사와 전체 문장을 학습시켜 문장 기반의 말투 생성 모델을 생성할 수 있다.For example, referring to FIG. 5 , in the case of the target person 'Sun-Shin Lee', the
프로세서(110)는 자연어 처리를 위한 자연어 언어모델인BERT(Bi-directional Encoder Representations form Transformers)를 이용할 수 있다. BERT모델은 위키나 북 데이터(book data)와 같은 대용량 데이터(unlabeled data)로 모델을 미리 학습시킨 후 특정 태스크(task)를 가지고 있는 데이터(labeled data)로 전이 학습(transfer data)을 하는 모델로서, 범용 솔루션을 설계하고 스케일러블한 형태로 구현하여 많은 머신 리소스로 훈련함으로써 성능을 높이는 방법론이다.The
프로세서(110)는 음성 모델을 생성하기 위해 웨이브넷(waveNet)과 픽셀 CNN(convolution neural network)을 활용할 수 있다. 따라서, 본래의 자연스러움을 가진 음성 모델을 생성할 수 있고, 하나의 모델로 다양한 목소리를 내는 대화 모델에 사용할 수 있다. 픽셀 CNN을 이용한 음성 모델의 경우 많은 화자들(speakers) 사이에서 발화자의 특성을 파악할 수 있으며, 다른 음성합성 기술보다 성능이 뛰어나고 자연스러운 음성 합성이 가능하다.The
대상 인물 '이순신' 관련 컨텐츠로서 '난중일기' 원문을 처리하는 과정은 도 6과 같다. 프로세서(110)는 한문과 괄호 등 불필요한 단어를 제거하는 전처리 과정을 거친 후, 제목(밑줄로 표기됨)을 제목과 관련된 질의가 있을 때 답변할 수 있는 템플릿(template)으로 구성하고, 제목 이하의 내용(점선 박스로 표시됨)에 해당되는 전체 문장을 신경망(예컨대, RNN, BERT 등)을 활용하여 학습할 수 있다.The process of processing the original text of 'Nanjung Diary' as a content related to the target person 'Lee Soon-shin' is shown in FIG. 6 . After the
대상 인물 '이순신' 목소리를 구현하는 과정은 도 7과 같다. 프로세서(110)는 대상 인물 '이순신'의 목소리를 구현한 소스(예컨대, 드라마 이순신)를 기반으로 데이터를 수집하여 '이순신'의 목소리에 해당되는 음성(speech)을 '이순신'의 문체를 가진 텍스트와 매칭시켜 학습할 수 있다. 다시 말해, 음성 데이터를 바탕으로 대상 인물과 관련된 데이터를 구축한 후 신경망을 활용하여 텍스트 정보와 음성 정보를 매칭할 수 있다.The process of realizing the target character 'Sun-Shin Lee' is shown in FIG. 7 . The
대상 인물의 말투와 문체를 흉내 내는 대화 기능을 구현하기 위한 정보는 도 8과 같이 구성될 수 있으며, 대화 모델을 구조적으로 유연하게 가져갈 수 있도록 도 9와 같이 서비스 환경을 구성할 수 있다. 프로세서(110)는 인공지능 모델에 대한 실시간 학습을 끊임없이 진행하여 딥러닝 모델을 고도화할 수 있으며, 고도화된 인공지능 모델을 기반으로 사용자가 원하는 대상 인물의 말투와 문체를 흉내 내는 대화 기능을 제공할 수 있다.Information for implementing a dialogue function that mimics the tone and style of the target person may be configured as shown in FIG. 8, and a service environment may be configured as shown in FIG. 9 so that the dialogue model can be structurally and flexibly taken. The
본 발명에 따른 인공지능 대화 시스템은 도 10에 도시한 바와 같이 클라이언트(client)-서버(server) 환경에서 클라이언트와 서버 간의 연동을 통해 플랫폼에서 API 호출방식으로 인공지능 대화 기능을 제공할 수 있다.As shown in FIG. 10, the artificial intelligence dialog system according to the present invention can provide an artificial intelligence dialog function through an API call method in a platform through interworking between a client and a server in a client-server environment.
이하에서는 클라이언트 측 서비스 화면을 통해 구체적인 실시예를 설명하기로 한다.Hereinafter, a specific embodiment will be described through the client-side service screen.
도 11을 참조하면, 클라이언트는 사용자가 이용하는 스마트폰(smart phone), 휴대폰, 태블릿 PC 등의 전자 기기에 설치된 전용 어플리케이션으로, 사용자가 현재 대화할 수 있는, 즉 미리 학습된 인물 목록을 제공할 수 있다. 이때, 인물 목록은 대화 상대 목록으로서 서비스 플랫폼에서 위인이나 유명 인사 등 미리 학습하여 대화 가능한 가상 인물을 포함할 수 있다. 대화 상대 목록에는 서비스 플랫폼에서 제공하는 인물이 아닌, 사용자 로그인 환경에서 사용자 본인 음성으로 학습한 대상(또 다른 나)과 타인 음성으로 학습한 대상(나만의 친구) 등이 포함될 수 있다.Referring to FIG. 11 , the client is a dedicated application installed in an electronic device such as a smart phone, a mobile phone, or a tablet PC used by the user. have. In this case, the person list is a list of conversation partners, and may include virtual people that can be communicated with by learning in advance such as a great person or a famous person on the service platform. The contact list may include a subject learned from the user's own voice (another me) and a subject learned from another person's voice (my own friend) in a user login environment, rather than a person provided by the service platform.
도 12를 참조하면, 클라이언트는 직접 대화할 수 있는 사용자를 만드는 '새로 만들기' 인터페이스 화면을 제공한다. '새로 만들기' 인터페이스 화면은 새로 추가하려는 사용자에 대한 정보를 입력하기 위한 인터페이스와, 공개 여부 선택, 파일 업로드 등을 위한 인터페이스를 포함할 수 있다. 클라이언트에 설정된 공개 여부에 따라 추가된 사용자의 대화 모델을 외부(타인)에 공개할지 여부를 결정한다. 비공개로 처리할 경우 사용자 본인의 대화 상대에만 노출되고 공개로 처리할 경우 구매를 통해 거래 가능한 상점 플랫폼에 노출될 수 있다. 추가된 사용자를 공개하는 경우 사용자에게 수익 분배가 이루어진다. 그리고, '새로 만들기' 인터페이스 화면을 통해 추가하고자 하는 인물의 목소리나 문체가 포함된 파일, 예컨대 음성 파일, 동영상 파일, 텍스트 파일 등을 학습에 필요한 데이터로서 업로드할 수 있고, 플랫폼에서는 클라이언트로부터 업로드된 파일을 학습하여 대화 가능한 대화 모델을 생성할 수 있다.Referring to FIG. 12 , the client provides a 'create new' interface screen for creating a user who can directly communicate with each other. The 'New' interface screen may include an interface for inputting information about a user to be newly added, and an interface for selecting whether to disclose, uploading a file, and the like. It is decided whether or not to disclose the added user's conversation model to the outside (other people) according to the disclosure set in the client. If it is treated as private, it will be exposed only to the user's own contacts, and if it is treated as public, it may be exposed to the store platform that can be traded through purchase. When additional users are disclosed, revenue is distributed among users. In addition, through the 'New' interface screen, files containing the voice or style of the person to be added, such as voice files, video files, text files, etc., can be uploaded as data required for learning, and the platform By learning the file, you can create an interactive conversational model.
도 13을 참조하면, 클라이언트는 기분 별로 대화할 수 있는 사용자를 만드는 '또 다른 나 만들기' 인터페이스 화면을 제공한다. '또 다른 나 만들기' 인터페이스 화면은 기분 별 사용자(예컨대, 즐거운 나, 우울한 나 등)를 선택하고 선택된 기분의 목소리나 문체가 포함된 파일을 업로드할 수 있는 인터페이스를 포함한다. 다시 말해, 사용자가 특정 기분을 선택하고 해당 기분을 느낄 수 있는 분위기의 대화나 글을 업로드하면 플랫폼에서는 사용자에 의해 선택된 기분과 업로드된 파일을 바탕으로 학습하여 해당 버전의 대화 모델을 만들 수 있다.Referring to FIG. 13 , the client provides a 'make another me' interface screen for creating a user who can communicate with each mood. The 'Make Another Me' interface screen includes an interface for selecting a user by mood (eg, happy me, depressed me, etc.) and uploading a file containing a voice or style of the selected mood. In other words, when a user selects a specific mood and uploads a conversation or article with an atmosphere that can feel that mood, the platform can learn based on the mood selected by the user and the uploaded file to create a corresponding version of the conversation model.
도 14를 참조하면, 클라이언트는 사용자가 대화할 수 있는, 학습된 대화 상대 목록을 제공함에 있어 대화 상대와의 대화 방법을 선택할 수 있는 인터페이스를 제공할 수 있다. 학습된 대화 상대와의 대화 방법은 대화방을 통해 텍스트 기반의 메시지를 주고 받는 형태로 대화하는 방법, 음성 통화를 통해 대화하는 방법 등이 포함될 수 있다. 대화 방법 선택을 위한 인터페이스는 목소리나 필체 등의 대화 모델에서 지원 가능한 데이터에 따라 활성화 여부가 결정되며 불가능한 옵션은 비활성 상태(disabled)로 표시할 수 있다.Referring to FIG. 14 , the client may provide an interface for selecting a conversation method with a conversation partner in providing a list of learned conversation partners with which the user can talk. The learned conversation method with the conversation partner may include a method of communicating in the form of sending and receiving text-based messages through a chat room, a method of communicating through a voice call, and the like. Whether the interface for selecting a conversation method is activated or not is determined according to data that can be supported by a conversation model such as voice or handwriting, and an impossible option can be displayed as disabled.
도 15를 참조하면, 클라이언트는 대화 상대와 음성 통화를 통해 대화하는 경우 음성 통화 인터페이스를 제공할 수 있으며, 통화 시에는 일반적인 통화 화면과 유사한 통화 화면을 표시하여 실제 전화 통화와 유사한 느낌을 전달할 수 있다. 이때, 대화 상대는 실제 사람이 아닌, 학습된 가상의 인물이므로 이를 구별할 수 있도록 음성 통화 인터페이스 상에 대화 상대를 대표하는 이미지나 아이콘을 표시할 수 있다. 클라이언트는 음성 통화가 종료되는 경우 대화 상대와의 대화에 대한 사용자 평가를 피드백할 수 있는 인터페이스를 추가로 제공할 수 있다. 플랫폼에서는 사용자 평가를 수신하여 대화 상대의 대화 모델을 재학습하기 위한 데이터로 활용할 수 있다.Referring to FIG. 15 , the client may provide a voice call interface when talking with the interlocutor through a voice call, and during a call, a call screen similar to a general call screen may be displayed to convey a feeling similar to an actual phone call. . In this case, since the conversation partner is a learned virtual person, not a real person, an image or icon representing the conversation partner may be displayed on the voice call interface to distinguish them. The client may additionally provide an interface capable of feeding back a user evaluation of the conversation with the interlocutor when the voice call is terminated. The platform can receive user evaluation and use it as data for retraining the conversational model of the interlocutor.
도 16을 참조하면, 클라이언트는 대화방에서 메시지를 주고 받는 형태로 대화할 수 있는 채팅 대화 인터페이스를 제공할 수 있으며, 기존 메신저 어플리케이션과 유사한 채팅 환경을 제공할 수 있다. 플랫폼에서는 사용자의 메시지를 수신하여 수신된 메시지를 분석한 후 학습된 대화 상대의 데이터를 바탕으로 대화가 끊기지 않는 수준의 응답을 제공할 수 있다. 클라이언트는 대화 상대와 대화한 내용을 평가할 수 있는 인터페이스를 제공할 수 있다. 각 대화 메시지에 대해 사용자가 직접 평가할 수 있는 인터페이스로서, 예를 들어 대화 상대의 답변 메시지를 길게 누르면 '좋아요' 버튼과 신고 버튼이 활성화되고 특정 버튼을 눌러 해당 답변에 대한 피드백을 전달할 수 있다. 플랫폼에서는 사용자 피드백을 바탕으로 대화 상대의 대화 모델을 재학습하여 강화시킬 수 있으며, 사용자가 대화 상대의 답변에 대해 '좋아요' 버튼을 누른 경우 포지티브 데이터로 간주하고 신고 버튼을 누른 경우 네가티브 데이터로 간주하거나 추가의 다른 옵션을 제공할 수 있다.Referring to FIG. 16 , the client may provide a chatting conversation interface capable of communicating in the form of sending and receiving messages in a chat room, and may provide a chatting environment similar to that of an existing messenger application. The platform can receive a user's message, analyze the received message, and provide a response that does not interrupt the conversation based on the learned conversation partner's data. The client may provide an interface for evaluating the content of the conversation with the interlocutor. It is an interface that the user can directly evaluate for each chat message. For example, if you long press the contact's reply message, the 'Like' button and Report button are activated, and you can send feedback on the answer by pressing a specific button. Based on user feedback, the platform can retrain and enhance the conversational model of a contact. If the user clicks the 'Like' button on a contact's answer, it is considered positive data, and if the user clicks the report button, it is considered negative data. or provide additional other options.
클라이언트는 사용자가 대화 상대의 답변에 대해 신고 버튼을 누른 경우 구체적인 평가가 가능한 상세 화면을 제공할 수 있으며, 일례로 사용자가 직접 올바른 추천 답변을 작성하여 전달할 수 있는 인터페이스를 제공할 수 있다. 다른 예로, 클라이언트는 사용자가 대화 상대의 답변에 대해 신고 버튼을 누른 경우 해당 답변과 다른 답변으로 이루어진 추천 답변을 제공할 수 있다. 이때, 추천 답변에 적절한 답변이 없다고 판단될 때 사용자가 사용자가 직접 올바른 답변을 작성하여 전달할 수 있는 인터페이스를 제공할 수 있다. 플랫폼에서는 사용자에 의해 추천 답변에서 선택된 답변이나 혹은 직접 작성된 답변을 바탕으로 대화 상대의 대화 모델을 재학습하여 강화시킬 수 있다.When the user presses the report button on the answer of the interlocutor, the client may provide a detailed screen in which a specific evaluation is possible, for example, the user may provide an interface through which the user can directly write and deliver a correct recommended answer. As another example, when the user presses the report button on the answer of the conversation partner, the client may provide a suggested answer composed of an answer different from the corresponding answer. In this case, when it is determined that there is no appropriate answer in the recommended answer, an interface through which the user can directly write and deliver a correct answer may be provided. On the platform, the conversation model of the interlocutor can be re-learned and strengthened based on the answer selected from the suggested answers by the user or the answer written directly.
클라이언트는 사용자가 대화 상대와 대화/통화한 내역을 요약하여 보여주는 대화 내역 인터페이스를 제공할 수 있으며, 예를 들어 대화 내역 인터페이스에는 사용자와 대화를 나는 대화 상대의 목록이 최근 순으로 정렬되어 노출될 수 있다. 이때, 대화 내역 인터페이스에는 대화 상대 별로 마지막에 사용자와 대화한 내역 또는 통화 내역이 노출될 수 있다.The client may provide a conversation history interface that summarizes the history of conversations/calls with the user and the conversation history interface. have. In this case, the conversation history interface may expose the last conversation history or call history with the user for each conversation partner.
클라이언트는 사용자가 대화 가능한 대화 상대를 구매할 수 있는 상점 인터페이스를 제공할 수 있다. 상점 인터페이스에는 미리 학습되어 바로 사용 가능한 대화 목록이 포함될 수 있고, 사용자가 선택하여 결제할 수 있는 인터페이스를 포함할 수 있다.The client may provide a store interface through which the user may purchase chat contacts. The store interface may include a pre-trained and ready-to-use conversation list, and may include an interface through which a user can select and pay.
본 발명의 실시예들에 따르면, 가상의 대화 상대를 통해 실제 사람과 대화하는 듯한 커뮤니케이션을 제공할 수 있으며, 실제 사람과는 달리 언제 어디서든 대화할 수 있고 사회적인 비용 또한 절감할 수 있다. 본 발명에 따른 인공지능 대화 시스템은 고독사를 방지하기 위한 해결책이 될 수 있으며 고인이 된 유명인사와의 대화를 통해 상실감을 극복할 수 있다.According to embodiments of the present invention, it is possible to provide communication as if talking with a real person through a virtual conversation partner, and unlike a real person, it is possible to communicate anytime and anywhere, and social costs can also be reduced. The artificial intelligence conversation system according to the present invention can be a solution to prevent loneliness and overcome the sense of loss through conversation with a deceased celebrity.
본 발명의 실시예들에 따르면, 같은 메시지라 하더라도 유명인사가 전달하는 것이 보다 파급력이 있고, 특히 특정 분야의 유명 인사의 목소리나 말투로 교육이 진행되는 경우 사람들에게 더 큰 호응과 집중력을 불러올 수 있어 학습 효과를 증진시킬 수 있다.According to embodiments of the present invention, even if the same message is delivered by a celebrity, it has more ripple effect. It can enhance the learning effect.
본 발명의 실시예들을 적용함으로써 유명 인사의 목소리 추출을 통한 더빙이 가능하다. 실제 더빙이나 목소리 녹음을 위해서는 상당히 많은 시간과 노력이 소요되나, 본 발명을 통해 사전에 준비된 인물의 목소리가 포함된 녹음 파일만 있다면 실제 인물의 참여 없이 목소리를 추출할 수 있고, 더 나아가 대사도 특정 인물에 맞춰 바꿀 수 있다. 또한, 별도의 준비된 애드립(ad-lip) 없이도 특정 인물이 과거에 해온 말투를 바탕으로 삽입할 수 있고, 녹음 파일에서 추출된 목소리를 영화, 게임, 드라마 등에 활용 가능하다.By applying the embodiments of the present invention, it is possible to dub through the extraction of the voice of a celebrity. Although it takes a lot of time and effort to actually dub or record a voice, if there is a recording file containing the voice of a person prepared in advance through the present invention, the voice can be extracted without the participation of the real person, and furthermore, the dialogue is of a specific person can be changed according to In addition, it is possible to insert a voice based on the tone of a specific person in the past without a separate ad-lip, and the voice extracted from the recording file can be used in movies, games, and dramas.
본 발명의 실시예들을 적용함으로써 유명 인사의 말투와 문체를 가진 교육용 컨텐츠를 제작할 수 있다. 같은 교육 내용이라 할지라도 누가 가르치냐에 따라 학습 효과에서 차이가 발생한다. 공익 캠페인 등은 유명 인사가 참여할 경우 더욱 큰 효과를 가져오지만, 실제 유명 인사가 참여하는 것은 시간이나 비용 측면에서 제한이 존재한다. 따라서, 전달하고자 하는 메시지나 학습 내용을 인공지능으로 학습된 가상의 인물의 목소리로 제작할 수 있다.By applying the embodiments of the present invention, it is possible to produce educational content having the tone and style of a famous person. Even with the same educational content, there is a difference in the learning effect depending on who teaches. Public interest campaigns are more effective when celebrities participate, but there are limitations in terms of time and cost when celebrities actually participate. Therefore, a message or learning content to be delivered can be produced with the voice of a virtual person learned by artificial intelligence.
본 발명의 실시예들을 인공지능 스피커와 연계할 수 있다. 인공지능 스피커의 발화자가 다양해지고 있는 가운데, 사용자가 원하는 사람의 목소리를 인공지능 스피커에 추가하여 인공지능 스피커의 사용을 확대할 수 있다.Embodiments of the present invention may be linked with an artificial intelligence speaker. As the number of speakers of artificial intelligence speakers is becoming more diverse, the use of artificial intelligence speakers can be expanded by adding the voice of a person desired by the user to the artificial intelligence speaker.
이외에도, 본 발명의 실시예들을 기업 업무에 적용할 수 있다. 예를 들어, 사용자 본인 목소리를 가진 대화 상대와의 대화를 통해 개인 비서 역할을 수행하는 모델, 각종 업무 전문가와의 대화를 통해 업무 지원을 수행하는 모델 등을 지원할 수 있다.In addition, embodiments of the present invention can be applied to corporate work. For example, it is possible to support a model in which the user performs the role of a personal assistant through conversation with a conversation partner having his or her own voice, a model in which business support is performed through conversation with various business experts, and the like.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component. For example, the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU). It may be implemented using one or more general purpose or special purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be embodied in any type of machine, component, physical device, computer storage medium or device for interpretation by or providing instructions or data to the processing device. have. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. In this case, the medium may be to continuously store the program executable by the computer, or to temporarily store the program for execution or download. In addition, the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like. In addition, examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute other various software, and servers.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in a different order than the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.
Claims (15)
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 인공지능 대화 방법은,
상기 적어도 하나의 프로세서에 의해, 대상 인물과 관련된 데이터를 바탕으로 상기 대상 인물의 말투와 문체로 이루어진 대화 모델을 생성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 클라이언트의 요청에 따라 상기 대화 모델을 이용하여 상기 요청에 대응되는 답변을 제공하는 단계
를 포함하고,
상기 요청에 대응되는 답변을 제공하는 단계는,
상기 대상 인물과의 대화 기능으로 대화방을 이용한 대화를 제공하는 단계
를 포함하고,
상기 대화방을 이용한 대화를 제공하는 단계는,
상기 대상 인물의 답변으로 제공된 메시지가 선택되면 상기 클라이언트를 통해 상기 메시지에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하는 단계
를 포함하고,
상기 인터페이스에는 상기 메시지에 대한 포지티브 데이터로 간주되는 사용자 평가를 입력하기 위한 인터페이스, 상기 메시지와 다른 답변으로 이루어진 추천 답변, 및 상기 메시지와 다른 답변을 직접 작성하기 위한 인터페이스가 포함되고,
상기 인공지능 대화 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 추천 답변에서 선택된 답변이나 상기 직접 작성된 답변을 바탕으로 상기 대화 모델을 재학습하는 단계
를 더 포함하는 인공지능 대화 방법.In an artificial intelligence conversation method executed in a computer system,
the computer system comprising at least one processor configured to execute computer readable instructions contained in a memory;
The artificial intelligence conversation method is
generating, by the at least one processor, a dialogue model comprising the tone and style of the target person based on data related to the target person; and
providing, by the at least one processor, an answer corresponding to the request by using the conversation model according to the request of the client;
including,
The step of providing an answer corresponding to the request comprises:
Providing a conversation using a chat room as a conversation function with the target person
including,
The step of providing a conversation using the chat room includes:
providing an interface for feeding back a user evaluation of the message through the client when a message provided as an answer of the target person is selected
including,
The interface includes an interface for inputting a user evaluation regarded as positive data for the message, a recommended answer composed of an answer different from the message, and an interface for directly writing an answer different from the message,
The artificial intelligence conversation method is
re-learning, by the at least one processor, the dialog model based on the answer selected from the recommended answer or the directly written answer
Artificial intelligence conversation method further comprising.
상기 생성하는 단계는,
상기 대상 인물의 목소리와 문체가 포함된 컨텐츠를 이용하여 상기 대화 모델을 학습하기 위한 데이터를 수집하는 단계; 및
상기 수집된 데이터를 바탕으로 신경망을 통해 텍스트 정보와 음성 정보를 매칭시켜 학습하는 단계
를 포함하는 인공지능 대화 방법.According to claim 1,
The generating step is
collecting data for learning the dialogue model by using the content including the voice and style of the target person; and
Learning by matching text information and voice information through a neural network based on the collected data
An artificial intelligence conversation method that includes.
상기 생성하는 단계는,
상기 클라이언트로부터 업로드된 상기 대상 인물의 목소리나 문체가 포함된 파일을 학습하여 상기 대화 모델을 생성하는 단계
를 포함하는 인공지능 대화 방법.According to claim 1,
The generating step is
generating the dialogue model by learning a file including the voice or style of the target person uploaded from the client
An artificial intelligence conversation method that includes.
상기 생성하는 단계는,
상기 클라이언트로부터 선택된 기분에 대해 상기 클라이언트로부터 업로드된 상기 대상 인물의 목소리나 문체가 포함된 파일을 학습하여 상기 기분에 해당되는 버전의 대화 모델을 생성하는 단계
를 포함하는 인공지능 대화 방법.According to claim 1,
The generating step is
generating a dialogue model of a version corresponding to the mood by learning a file including the voice or style of the target person uploaded from the client with respect to the mood selected by the client
An artificial intelligence conversation method that includes.
상기 생성하는 단계는,
상기 클라이언트에 설정된 공개 여부에 따라 상기 대화 모델을 구매를 통해 거래 가능한 플랫폼에 노출하는 단계
를 포함하는 인공지능 대화 방법.4. The method of claim 3,
The generating step is
Exposing the conversation model to a tradable platform through purchase according to the disclosure set in the client
An artificial intelligence conversation method that includes.
상기 요청에 대응되는 답변을 제공하는 단계는,
상기 대상 인물과의 대화 기능으로 음성 통화를 이용한 대화를 제공하는 단계
를 더 포함하는 인공지능 대화 방법.According to claim 1,
The step of providing an answer corresponding to the request comprises:
Providing a conversation using a voice call as a conversation function with the target person
Artificial intelligence conversation method further comprising.
상기 음성 통화를 이용한 대화를 제공하는 단계는,
상기 음성 통화가 종료되면 상기 클라이언트를 통해 상기 대상 인물과의 대화에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하는 단계
를 포함하는 인공지능 대화 방법.8. The method of claim 7,
The step of providing a conversation using the voice call comprises:
When the voice call is terminated, providing an interface for feeding back a user evaluation of the conversation with the target person through the client
An artificial intelligence conversation method that includes.
메모리에 포함된 컴퓨터 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
대상 인물과 관련된 데이터를 바탕으로 상기 대상 인물의 말투와 문체로 이루어진 대화 모델을 생성하는 과정; 및
클라이언트의 요청에 따라 상기 대화 모델을 이용하여 상기 요청에 대응되는 답변을 제공하는 과정
을 처리하고,
상기 요청에 대응되는 답변을 제공하는 과정은,
상기 대상 인물과의 대화 기능으로 대화방을 이용한 대화를 제공하고,
상기 대화방을 이용한 대화를 제공하는 경우 상기 대상 인물의 답변으로 제공된 메시지가 선택되면 상기 클라이언트를 통해 상기 메시지에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하고,
상기 인터페이스에는 상기 메시지에 대한 포지티브 데이터로 간주되는 사용자 평가를 입력하기 위한 인터페이스, 상기 메시지와 다른 답변으로 이루어진 추천 답변, 및 상기 메시지와 다른 답변을 직접 작성하기 위한 인터페이스가 포함되고,
상기 적어도 하나의 프로세서는,
상기 추천 답변에서 선택된 답변이나 상기 직접 작성된 답변을 바탕으로 상기 대화 모델을 재학습하는 것
을 특징으로 하는 컴퓨터 시스템.In a computer system,
at least one processor implemented to execute computer readable instructions contained in a memory
including,
the at least one processor,
generating a dialogue model consisting of a tone and style of the target person based on data related to the target person; and
A process of providing an answer corresponding to the request using the conversation model according to the request of the client
process the
The process of providing an answer corresponding to the request is,
Provides a conversation using a chat room as a conversation function with the target person,
In the case of providing a conversation using the chat room, when a message provided as an answer of the target person is selected, an interface for feeding back a user evaluation of the message through the client is provided,
The interface includes an interface for inputting a user evaluation regarded as positive data for the message, a recommended answer composed of an answer different from the message, and an interface for directly writing an answer different from the message,
the at least one processor,
Re-learning the dialog model based on the answer selected from the recommended answer or the directly written answer
A computer system characterized by a.
상기 생성하는 과정은,
상기 대상 인물의 목소리와 문체가 포함된 컨텐츠를 이용하여 상기 대화 모델을 학습하기 위한 데이터를 수집한 후 상기 수집된 데이터를 바탕으로 신경망을 통해 텍스트 정보와 음성 정보를 매칭시켜 학습하는 것
을 특징으로 하는 컴퓨터 시스템.12. The method of claim 11,
The generating process is
Learning by matching text information and voice information through a neural network based on the collected data after collecting data for learning the dialogue model using the content including the voice and style of the target person
A computer system characterized by a.
상기 생성하는 과정은,
상기 클라이언트로부터 업로드된 상기 대상 인물의 목소리나 문체가 포함된 파일을 학습하여 상기 대화 모델을 생성하는 것
을 특징으로 하는 컴퓨터 시스템.12. The method of claim 11,
The generating process is
Generating the dialogue model by learning a file including the voice or style of the target person uploaded from the client
A computer system characterized by a.
상기 요청에 대응되는 답변을 제공하는 과정은,
상기 대상 인물과의 대화 기능으로 음성 통화를 이용한 대화를 제공하고,
상기 음성 통화를 이용한 대화를 제공하는 경우 상기 음성 통화가 종료되면 상기 클라이언트를 통해 상기 대상 인물과의 대화에 대한 사용자 평가를 피드백하기 위한 인터페이스를 제공하는 것
을 특징으로 하는 컴퓨터 시스템.12. The method of claim 11,
The process of providing an answer corresponding to the request is,
Provides a conversation using a voice call as a conversation function with the target person,
When providing a conversation using the voice call, when the voice call is ended, providing an interface for feeding back a user evaluation of the conversation with the target person through the client
A computer system characterized by a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200012367A KR102441456B1 (en) | 2020-02-03 | 2020-02-03 | Method and system for mimicking tone and style of real person |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200012367A KR102441456B1 (en) | 2020-02-03 | 2020-02-03 | Method and system for mimicking tone and style of real person |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210098623A KR20210098623A (en) | 2021-08-11 |
KR102441456B1 true KR102441456B1 (en) | 2022-09-07 |
Family
ID=77314072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200012367A Active KR102441456B1 (en) | 2020-02-03 | 2020-02-03 | Method and system for mimicking tone and style of real person |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102441456B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240068249A (en) | 2022-11-10 | 2024-05-17 | 주식회사 피넬로피 | Voice metaverse chatbot system using speech-to-speech based on ai |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461067B (en) * | 2021-12-29 | 2025-01-17 | 上海盛付通电子支付服务有限公司 | Method, device, medium and program product for remembering a deceased subject |
KR102806411B1 (en) * | 2023-06-16 | 2025-05-19 | 주식회사 오즈 | Artificial Intelligence Conversation Service Providing Method Based on Real Person |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101797856B1 (en) * | 2016-02-24 | 2017-11-15 | 라인 가부시키가이샤 | Method and system for artificial intelligence learning using messaging service and method and system for relaying answer using artificial intelligence |
KR102178330B1 (en) * | 2017-11-14 | 2020-11-12 | 안강석 | System and method for processing customized content realated object through network |
KR20190109651A (en) * | 2018-03-07 | 2019-09-26 | 이임긍 | Voice imitation conversation service providing method and sytem based on artificial intelligence |
KR102199423B1 (en) * | 2018-04-27 | 2021-01-06 | 아토머스 주식회사 | An apparatus for machine learning the psychological counseling data and a method thereof |
-
2020
- 2020-02-03 KR KR1020200012367A patent/KR102441456B1/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240068249A (en) | 2022-11-10 | 2024-05-17 | 주식회사 피넬로피 | Voice metaverse chatbot system using speech-to-speech based on ai |
Also Published As
Publication number | Publication date |
---|---|
KR20210098623A (en) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Savin-Baden et al. | Digital immortality and virtual humans | |
CN112328849B (en) | User portrait construction method, user portrait-based dialogue method and device | |
Paliwal et al. | Ai chatbots: Transforming the digital world | |
KR102441456B1 (en) | Method and system for mimicking tone and style of real person | |
CN110400251A (en) | Method for processing video frequency, device, terminal device and storage medium | |
CN113780217B (en) | Live broadcast auxiliary prompting method, live broadcast auxiliary prompting device, computer equipment and storage medium | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
CN112132075B (en) | Method and medium for processing image-text content | |
CN118113839B (en) | Intelligent government service customer service application system | |
CN110674398A (en) | Virtual character interaction method and device, terminal equipment and storage medium | |
CN117494761A (en) | Information processing and model training method, device, equipment, medium and program product | |
CN117520498A (en) | Virtual digital human interaction processing method, system, terminal, equipment and medium | |
CN113850898A (en) | Scene rendering method and device, storage medium and electronic equipment | |
CN117453885A (en) | Question information processing method, device, equipment, storage medium and product | |
CN111443973B (en) | Filling method, device, equipment and storage medium of remark information | |
CN117033587A (en) | Man-machine interaction method and device, electronic equipment and medium | |
CN112307166A (en) | Intelligent question and answer method and device, storage medium and computer equipment | |
CN114974253A (en) | Natural language interpretation method and device based on character image and storage medium | |
WO2025112948A1 (en) | Image generation method, automatic question answering method, and parameter generation model training method | |
KR102120936B1 (en) | System for providing customized character doll including smart phone | |
CN117632109A (en) | Virtual digital assistant construction method, device, electronic equipment and storage medium | |
CN117473059A (en) | Text processing method, device, electronic equipment and storage medium | |
US20220253717A1 (en) | System and method for bringing inanimate characters to life | |
Mutemwa et al. | A mobile Deaf-to-hearing communication aid for medical diagnosis | |
CN116414951A (en) | Intelligent dialogue method, model training method, device, storage medium and equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200203 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220226 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220830 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220902 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220905 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |