KR102591078B1 - 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 - Google Patents
인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 Download PDFInfo
- Publication number
- KR102591078B1 KR102591078B1 KR1020230057376A KR20230057376A KR102591078B1 KR 102591078 B1 KR102591078 B1 KR 102591078B1 KR 1020230057376 A KR1020230057376 A KR 1020230057376A KR 20230057376 A KR20230057376 A KR 20230057376A KR 102591078 B1 KR102591078 B1 KR 102591078B1
- Authority
- KR
- South Korea
- Prior art keywords
- user input
- point cloud
- point
- electronic device
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 73
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000011017 operating method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000002776 aggregation Effects 0.000 claims description 19
- 238000004220 aggregation Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2는 일 실시예에 따른 전자 장치의 구성을 보여주는 블록도이다.
도 3은 일 실시예에 따른 인공지능 모델을 이용한 추론 과정을 보여주는 블록도이다.
도 4는 일 실시예에 따른 공간 클릭 전파 모듈의 동작을 설명하기 위한 개념도이다.
도 5는 일 실시예에 따른 인공지능 모델의 학습 과정을 보여주는 블록도이다.
도 6은 일 실시예에 따른 네거티브 클릭 시뮬레이션 모듈의 동작을 설명하기 위한 개념도이다.
도 7a 및 7b는 일 실시예에 따른 2차원 변환 모듈의 동작을 예시적으로 보여주는 도면이다.
도 8a 및 8b는 일 실시예에 따른 인코딩 모듈의 동작을 예시적으로 보여주는 도면이다.
도 9a 내지 9d는 일 실시예에 따른 공간 클릭 전파 모듈의 동작을 예시적으로 보여주는 도면이다.
도 10은 일 실시예에 따른 전자 장치의 동작 방법을 보여주는 흐름도이다.
도 11은 일 실시예에 따른 전자 장치의 동작 방법을 보여주는 흐름도이다.
Claims (10)
- 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치에 있어서,
디스플레이;
하나 이상의 인스트럭션을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하되, 상기 적어도 하나의 프로세서는,
복수의 객체들을 포함하는 3차원 장면에 대응하는 포인트 클라우드(point cloud)를 획득하고,
상기 포인트 클라우드를 2차원 좌표계로 변환하고,
상기 변환된 포인트 클라우드를 상기 디스플레이에 표시하고,
상기 변환된 포인트 클라우드 중 상기 복수의 객체들에 대응하는 적어도 하나의 포인트를 포함하는 제1 사용자 입력을 획득하고,
상기 포인트 클라우드에 기초하여 상기 제1 사용자 입력을 인코딩하고,
상기 포인트 클라우드 및 상기 인코딩된 제1 사용자 입력을 입력으로 하는, 인공지능 모델을 이용하여, 상기 포인트 클라우드에서 상기 복수의 객체들에 대응하는 3차원 바운딩 박스(bounding box)를 추론하는, 상기 하나 이상의 인스트럭션을 실행하는, 전자 장치.
- 제1항에 있어서, 상기 적어도 하나의 프로세서는,
상기 변환된 포인트 클라우드 및 상기 추론된 3차원 바운딩 박스를 상기 디스플레이에 표시하고,
상기 추론된 3차원 바운딩 박스에 대응하되 상기 복수의 객체들에 대응하지 않는 포인트, 및 상기 추론된 3차원 바운딩 박스에 대응하지 않되 상기 복수의 객체들에 대응하는 포인트 중 적어도 하나를 포함하는 제2 사용자 입력을 획득하고,
상기 포인트 클라우드에 기초하여 제2 사용자 입력을 인코딩하고,
상기 포인트 클라우드, 및 상기 인코딩된 제1 사용자 입력 및 상기 인코딩된 제2 사용자 입력을 입력으로 하는, 인공지능 모델을 이용하여, 상기 포인트 클라우드에서 상기 복수의 객체들에 대응하는 3차원 바운딩 박스를 추론하는, 상기 하나 이상의 인스트럭션을 더 실행하는, 전자 장치.
- 제1항에 있어서, 상기 인공지능 모델은,
상기 포인트 클라우드 및 상기 인코딩된 제1 사용자 입력에 기초하여 특징을 추출하는 포인트 인코더(point encoder);
상기 추출된 특징에 기초하여 상기 복수의 객체들에 대응하는 중심점을 예측하고, 상기 예측된 중심점에 기초하여 상기 복수의 객체들에 대응하는 포인트들을 그룹화하는 센트로이드 어그리게이션(centroid aggregation) 모듈;
상기 추출된 특징 및 상기 인코딩된 제1 사용자 입력에 기초하여 상기 제1 사용자 입력에 대응하는 객체와 동일한 클래스의 객체의 정보를 계산하는 공간 클릭 전파(spatial click propagation) 모듈; 및
상기 센트로이드 어그리게이션 모듈의 출력 및 상기 공간 클릭 전파 모듈의 출력에 기초하여 상기 복수의 객체들에 대응하는 상기 3차원 바운딩 박스를 출력하는 검출 헤드(detection head) 모듈을 포함하는, 전자 장치.
- 제3항에 있어서,
상기 포인트 인코더는 적어도 하나의 완전 연결 레이어 및 적어도 하나의 다운샘플링(downsampling) 레이어를 포함하고,
상기 적어도 하나의 프로세서는,
상기 적어도 하나의 다운샘플링 레이어의 출력에 상기 인코딩된 제1 사용자 입력을 연결(concatenating)하는, 상기 하나 이상의 인스트럭션을 더 실행하는, 전자 장치.
- 제3항에 있어서,
상기 공간 클릭 전파 모듈은,
상기 인코딩된 제1 사용자 입력에 대응하는 정보와 상기 추출된 특징 간의 유사도를 계산하고,
상기 검출 헤드 모듈은,
상기 센트로이드 어그리게이션 모듈의 출력에 상기 유사도가 연결된 데이터를 획득하고,
상기 획득된 값에 기초하여 상기 제1 사용자 입력에 대응하는 객체와 동일한 클래스의 객체를 검출하는, 전자 장치.
- 제3항에 있어서,
상기 인공지능 모델은, 포인트 클라우드 데이터셋, 상기 포인트 클라우드 데이터셋 중 객체에 대응하는 적어도 하나의 포지티브(positive) 포인트, 및 상기 포인트 클라우드 데이터셋 중 배경에 대응하는 적어도 하나의 네거티브(negative) 포인트에 기초하여, 객체에 대응하는 3차원 바운딩 박스를 출력하도록 학습된, 전자 장치.
- 제6항에 있어서,
상기 인공지능 모델은:
상기 인공지능 모델의 학습 과정에서, 그라운드 트루스 값 및 상기 추출된 특징에 기초하여 상기 복수의 객체들에 대응하지 않는 배경부 포인트들 중 전경부 점수가 임계 값을 초과하는 포인트들을 상기 적어도 하나의 네거티브 포인트로 할당하는, 네거티브 클릭 시뮬레이션 모듈을 더 포함하는, 전자 장치.
- 제1항에 있어서,
상기 제1 사용자 입력은 객체 위치 정보 및 객체 클래스 정보를 포함하는, 전자 장치.
- 제8항에 있어서,
상기 제1 사용자 입력을 인코딩하는, 상기 하나 이상의 인스트럭션은,
상기 포인트 클라우드의 (x, y) 위치 정보와 상기 제1 사용자 입력의 상기 객체 위치 정보 간의 거리에 기초하여 상기 제1 사용자 입력을 인코딩하는, 상기 하나 이상의 인스트럭션을 포함하는, 전자 장치.
- 제1항에 있어서,
상기 인공지능 모델은, 상기 포인트 클라우드에 상기 인코딩된 제1 사용자 입력을 연결한 값을 입력으로 하는, 전자 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230057376A KR102591078B1 (ko) | 2023-05-02 | 2023-05-02 | 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230057376A KR102591078B1 (ko) | 2023-05-02 | 2023-05-02 | 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102591078B1 true KR102591078B1 (ko) | 2023-10-19 |
Family
ID=88507515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230057376A Active KR102591078B1 (ko) | 2023-05-02 | 2023-05-02 | 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102591078B1 (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200096726A (ko) * | 2019-01-30 | 2020-08-13 | 바이두닷컴 타임즈 테크놀로지(베이징) 컴퍼니 리미티드 | 자율 주행 차량을 위한 맵 파티셔닝 시스템 |
KR20210057943A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 라이드플럭스 | 자율 주행 데이터의 데이터 레이블링 방법, 장치 및 컴퓨터프로그램 |
KR20220034210A (ko) * | 2019-07-15 | 2022-03-17 | 프로메이톤 홀딩 비.브이. | 딥 러닝 기반 3d 포인트 클라우드의 객체 감지 및 인스턴스 분할 |
-
2023
- 2023-05-02 KR KR1020230057376A patent/KR102591078B1/ko active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200096726A (ko) * | 2019-01-30 | 2020-08-13 | 바이두닷컴 타임즈 테크놀로지(베이징) 컴퍼니 리미티드 | 자율 주행 차량을 위한 맵 파티셔닝 시스템 |
KR20220034210A (ko) * | 2019-07-15 | 2022-03-17 | 프로메이톤 홀딩 비.브이. | 딥 러닝 기반 3d 포인트 클라우드의 객체 감지 및 인스턴스 분할 |
KR20210057943A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 라이드플럭스 | 자율 주행 데이터의 데이터 레이블링 방법, 장치 및 컴퓨터프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11928866B2 (en) | Neural networks for object detection and characterization | |
US12154188B2 (en) | Training neural networks for vehicle re-identification | |
US20210142491A1 (en) | Scene embedding for visual navigation | |
CN110363058B (zh) | 使用单触发卷积神经网络的用于避障的三维对象定位 | |
US11062461B2 (en) | Pose determination from contact points | |
US11328182B2 (en) | Three-dimensional map inconsistency detection using neural network | |
CN115273002A (zh) | 一种图像处理方法、装置、存储介质及计算机程序产品 | |
CN114556375A (zh) | 跨批次归一化 | |
CN112085041A (zh) | 神经网络的训练方法、训练装置和电子设备 | |
US20220292765A1 (en) | Fitting 3d primitives to a high-resolution point cloud | |
US20250178615A1 (en) | Robot navigation using a high-level policy model and a trained low-level policy model | |
EP4172861A1 (en) | Semi-supervised keypoint based models | |
KR102636586B1 (ko) | 자율 주행 차량의 주행 테스트 제어 장치 및 방법 | |
KR20210022935A (ko) | Slam을 구현하는 방법 및 전자 장치 | |
US11950166B2 (en) | Predicting occupancy probabilities of surrounding agents | |
KR102591078B1 (ko) | 인공지능 모델을 이용하여 3차원 객체 탐지를 수행하는 전자 장치 및 이의 동작 방법 | |
US20240257374A1 (en) | Learning reliable keypoints in situ with introspective self-supervision | |
US12280796B1 (en) | Vehicle control using auto-regressive control distibution generation based on world state embeddings | |
KR102829082B1 (ko) | 구조식 이미지를 인식하는 인공 지능 장치 및 그 방법 | |
US20240302530A1 (en) | Lidar memory based segmentation | |
KR20230142164A (ko) | 구조식 이미지를 인식하는 인공 지능 장치 및 그 방법 | |
CN119399626A (zh) | 一种基于多特征协同作用的跨模态建筑物图像提取方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20230502 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20230503 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20230502 Patent event code: PA03021R01I Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230919 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20231013 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20231013 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |