KR102767109B1

KR102767109B1 - 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법 및 시스템

Info

Publication number: KR102767109B1
Application number: KR1020220062878A
Authority: KR
Inventors: 정용화; 박대희; 유승현; 손승욱; 안한세; 이세준; 백화평
Original assignee: 고려대학교 세종산학협력단
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2025-02-13
Anticipated expiration: 2042-05-23
Also published as: KR20230163148A

Abstract

임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법 및 시스템이 제시된다. 본 발명에서 제안하는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 시스템은 카메라를 통해 객체 탐지를 위한 영상을 획득하고, 상기 영상에 대한 객체 탐지 박스들을 획득하며, 전처리부에서 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 학습하는 객체 탐지기, 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하고, 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 전처리부 및 객체 탐지 정확도를 개선하기 위해 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 후처리부를 포함한다.

Description

임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법 및 시스템{Method and Apparatus for Accuracy Improvement of Pig Detection using Image Processing and Deep Learning Techniques on an Embedded Board}

본 발명은 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법 및 시스템에 관한 것이다.

최근 양돈 업계에서는 돼지의 생산성을 증대시키기 위하여 많은 노력을 기울이고 있으나, 관리인 1명당 약 1,000마리에 이르는 규모의 돼지들을 관리하기 때문에 모든 돼지에 대한 세밀한 관찰이 불가능하며 생산성 증대에 한계가 있는 상황이다. 이러한 문제를 컴퓨터를 이용하여 해결하기 위하여 돈사 천장에 카메라를 설치하고 카메라로부터 획득한 영상 정보로부터 돼지의 정보를 자동으로 추출하는 다양한 모니터링 방법들이 발표되고 있다. 그러나, 최근의 딥러닝 기술을 적용한 객체 탐지기[1]들의 정확도가 크게 개선되었음에도 불구하고, 돼지들의 신체 일부가 돈방내 시설물(facility)에 가려서 보이지 않는 등의 겹침(occlusion) 현상에 의한 정확도 하락 이슈가 남아있으며, 실제 농장에 적용하여 생산성 향상을 위한 다양한 돼지 모니터링 응용을 위해서는 우선적으로 개별 돼지를 보다 정확히 탐지할 수 있어야 한다. 또한, 실제 농가에서는 돈방내 암모니아 등 열악한 환경으로 주기적으로 고장난 CPU/GPU를 교체해야 한다. 유지관리비를 최소화하기 위해서는 엔비디아의 Jetson Nano[2] 정도의 저가 임베디드 보드에서 동작할 수 있어야 한다.

돈방내 돼지들의 집단적인 행동을 자동으로 모니터링하여 돼지들의 건강이나 이상 상황을 탐지하는 종래기술들이 발표되었다. 예를 들어, 돈방내 돼지들의 집단적인 행동 변화를 탐지하여 건강 상태 등의 문제를 신속히 탐지하는 연구가 발표되었고[5], 매일 돈방내 돼지들의 움직임 양을 비교하여 이상 상황 여부를 탐지하는 연구[6]와 돈방내 돼지들의 집단적인 공격 행동을 자동으로 탐지하는 연구[7] 등이 발표되었다.

또한, 돼지의 생산성에 영향을 주는 여러 요인 중 돼지의 무게는 돼지의 건강 및 성장 상태, 적정 무게 도달 여부를 통한 돼지의 출하 여부 및 사료 배급량을 결정하며, 특히 가성비 기준 적정 출하 시점과 저성장돈을 결정하는 중요한 요인이다. 따라서 관리인이 직접 돼지의 무게를 측정하는 방법 대신, 돈사 천장에 카메라를 설치하고 카메라로부터 획득한 영상 정보에 영상 처리 기법을 이용하여 돼지의 무게를 추정하는 방법이 제안되었고[8], 성장이 상대적으로 느린 저성장돈을 탐지하는 방법이 제안되었다[9].

또 다른 종래기술에서는 깊이 카메라와 영상 처리 기법을 활용하여 서있는 돼지를 탐지[10]하거나 근접한 돼지들을 분리[11], 또는 깊이 카메라와 RGB 카메라의 정보를 융합하여 조명 변화가 심한 입력 영상에서 전경인 돼지 픽셀들을 추출[12]하는 결과들이 발표되었다. 그러나 이러한 저가의 깊이 카메라는 깊이값의 정확도 한계에 따라 보다 넓은 면적을 모니터링하는데는 한계가 있어, 많은 종래기술들이 통상적인 RGB 카메라와 딥러닝 기법을 활용한 결과들을 최근 발표하고 있다. 예를 들어, 근접 돼지들을 분리하기 위해 딥러닝 객체 탐지기의 결과를 영상 처리 기법으로 후처리하는 결과[13], 딥러닝 기반 객체 탐지기의 계산양을 감소시켜 임베디드 보드에서 동작할 수 있는 결과[14], 딥러닝 기법을 활용하여 돼지들의 포즈를 탐지하는 결과[15] 등이 발표되었다. 또한, 딥러닝 기법을 활용하여 돼지를 탐지 및 분할하는 결과[16], 두 개의 딥러닝 모델을 앙상블하여 돼지 탐지의 정확도를 개선한 결과[17], 딥러닝 앙상블 기법의 수행시간 증가를 최소화하기 위하여 파이프라인 기법을 적용한 결과[18]들도 최근 발표되고 있다.

이렇게 다양한 종래기술의 결과에도 불구하고 실제 양돈 농가의 돈방에는 먹이통 등의 시설물(facility)이 있으며, 돈방내 시설물에 의한 겹침(occlusion) 현상과 같은 정확도 하락 이슈가 남아있다. 즉, 돈방내 돼지들의 신체 일부가 시설물에 가려서 보이지 않는 겹침 현상 등에 의하여 FN(False Negative), 다시 말해 돼지를 탐지하지 못하는 미탐지 에러 및 FP(False Positive), 다시 말해 거짓 돼지를 탐지하는 오탐지 에러들이 발생한다.

본 발명이 이루고자 하는 기술적 과제는 연속적으로 입력되는 비디오 데이터를 영상 처리 및 딥러닝으로 처리하면서 지속적으로 영상 처리 및 딥러닝의 정확도를 상호 보정할 수 있는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법 및 시스템을 제공하는데 있다. 비디오 데이터의 특성을 이용하여 돈사 비디오 모니터링 환경에서 딥러닝 기반 객체 탐지기의 돼지 탐지 문제, 다시 말해 비디오 처리를 위한 실시간 속도를 만족하면서 돼지 탐지 정확도를 개선하고자 한다. 딥러닝 기반 객체 탐지기의 결과를 입력 받아 영상 처리에 활용하고, 이러한 영상 처리 결과를 다시 딥러닝 객체 탐지 결과의 보정용으로 활용하여 객체 탐지의 정확도를 지속적으로 개선할 수 있는 순환 구조 방법을 제안한다.

일 측면에 있어서, 본 발명에서 제안하는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 시스템은 카메라를 통해 객체 탐지를 위한 영상을 획득하고, 상기 영상에 대한 객체 탐지 박스들을 획득하며, 전처리부에서 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 학습하는 객체 탐지기, 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하고, 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 전처리부 및 객체 탐지 정확도를 개선하기 위해 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 후처리부를 포함한다.

본 발명의 실시예에 따른 전처리부는 상기 객체 탐지 박스 단위의 객체 탐지 결과를 이용하여 프레임의 원본 영상에서 객체 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구하고, 원본 영상의 픽셀 중 현재까지의 배경 영상을 갱신하면서 계속해서 객체 탐지 박스 영역에 포함되었던 픽셀은 배경 영상의 해당 위치를 현재 영상의 픽셀 평균값으로 대체한다.

본 발명의 실시예에 따른 전처리부는 현재 프레임에서 객체 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 프레임에서 배경 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 증가시키고, 작으면 배경 영상의 픽셀값을 감소시키며, 같은 위치에 지속적으로 오탐지가 발생될 경우, 배경 영상에 노이즈가 생성되는 것을 방지하기 위해 미리 정해진 수의 이전 프레임의 배경 영상 동안 현재 프레임에서 배경 영상의 같은 위치의 픽셀값이 미리 정해진 퍼센트 미만으로 차이가 나면 배경의 영상의 해당 위치의 픽셀값을 배경 기준값으로 설정하고, 상기 미리 정해진 퍼센트 이상으로 차이가 나면 배경 영상을 갱신하지 않는다.

본 발명의 실시예에 따른 전처리부는 전경 영상의 전체 픽셀 평균값과 전경 영상에서 각각의 객체 탐지 박스 영역에 대한 픽셀 평균값을 구하고, 현재 프레임 영상의 픽셀값과 같은 위치에 있는 현재 배경 영상의 픽셀값 차의 결과를 이용하여 전경 영상으로 추출한다.

본 발명의 실시예에 따른 전처리부는 객체 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 객체 탐지 박스 영역은 오탐지로 판단하여 갱신에서 제외하고, 상기 갱신이 진행되는 전경 영상의 객체 탐지 박스 영역에 존재하는 픽셀 중 객체 탐지 박스 영역의 픽셀 평균값보다 높은 곳에 대해 시설물 영상에서 해당 위치의 픽셀값을 감소시키고, 시설물로 인한 겹침 문제를 해결하기 위해 시설물 정보가 포함되어있는 전경 영상에서 시설물의 영역으로 정의한 픽셀 값을 원본 영상에 같은 위치에 픽셀 값으로 적용시켜 새로운 시설물의 정보를 포함한 결과물을 생성하고, 시설물에 대한 위치를 파악하도록 원본 영상 대신 시설물 영역의 픽셀값으로 변경된 합성 영상을 생성하여 학습하도록 한다.

본 발명의 실시예에 따른 객체 탐지기는 객체 탐지 박스의 신뢰도 점수를 판단하기 위해 해당 객체 탐지 박스에 포함된 전경 픽셀을 계산하고, 상기 전처리부에서 획득한 해당 객체 탐지 박스의 전경 픽셀과 객체 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 미리 정해진 기준보다 낮을 경우 거짓 박스라고 정의한다.

본 발명의 실시예에 따른 후처리부는 현재 박스의 전경 픽셀과 배경 픽셀의 비율(Ratio), 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지 나타내는 값(Confidence_Box_Count), 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 비율(Total_Ratio)을 이용하여 객체 탐지 박스의 신뢰도 점수를 계산한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 돼지 탐지 정확도 개선 방법은 카메라를 통해 객체 탐지를 위한 영상을 획득하고, 객체 탐지기를 적용하여 상기 영상에 대한 객체 탐지 박스들을 획득하는 단계, 전처리부가 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하는 단계, 전처리부가 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 단계, 상기 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 객체 탐지기를 적용하여 학습하는 단계 및 객체 탐지 정확도를 개선하기 위해 후처리부가 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 단계를 포함한다.

본 발명의 실시예들에 따르면 연속적으로 입력되는 비디오 데이터를 영상 처리 및 딥러닝으로 처리하면서 지속적으로 영상 처리 및 딥러닝의 정확도를 상호 보정할 수 있다. 비디오 데이터의 특성을 이용하여 돈사 비디오 모니터링 환경에서 딥러닝 기반 객체 탐지기의 돼지 탐지 문제, 다시 말해 비디오 처리를 위한 실시간 속도를 만족하면서 돼지 탐지 정확도를 개선할 수 있다. 카메라에서 획득되는 비디오 데이터에 딥러닝 기반 객체 탐지기를 적용한 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 배경 추출용 파라미터를 갱신함으로써 개선된 픽셀 단위의 배경 영상을 획득할 수 있고, 이를 활용하여 돈방내 먹이통 등과 같은 시설물의 위치를 파악할 수 있다. 또한, 이러한 돈방내 시설물 정보를 이용하여 딥러닝 객체 탐지 결과를 검증하거나 보정함으로써 정지영상에 대한 객체 탐지 결과의 에러를 줄일 수 있다.

도 1은 본 발명의 일 실시예에 따른 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 배경 영상을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 전경 영상을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 탐지 박스 정보를 이용한 배경 생성 및 갱신과 전경 영상 추출 알고리즘을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 전경 영상을 이용한 시설물 생성 및 갱신 알고리즘을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 시설물 영상을 영상을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 원본 영상 및 시설물 영상을 이용한 합성 영상을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 영상 정보를 이용한 탐지 박스 신뢰도 검증 및 보정 알고리즘을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 업데이트된 신뢰도 점수 수정에 따른 영상을 나타내는 도면이다.

본 발명에서는 비디오 데이터의 특성을 이용하여 돈사 비디오 모니터링 환경에서 딥러닝 기반 객체 탐지기의 돼지 탐지 문제, 다시 말해 비디오 처리를 위한 실시간 속도를 만족하면서 돼지 탐지 정확도를 개선하고자 하며, 딥러닝 기반 객체 탐지기 중 처리속도 대비 정확도가 우수하다고 알려진 YOLOv4[3]의 경량화 버전인 TinyYOLOv4[3]에 제안 방법을 적용한다.

구체적으로는 돈방내 설치된 고정 카메라(static camera)에서 획득되는 비디오 데이터의 특성과 영상 처리 기법을 활용하여 딥러닝 기반 돼지 탐지기의 정확도를 개선하는 방법을 제안한다.

즉, 딥러닝 기반 객체 탐지기의 결과를 입력받아 영상 처리에 활용하고, 이러한 영상 처리 결과를 다시 딥러닝 객체 탐지 결과의 보정용으로 활용하여 객체 탐지의 정확도를 지속적으로 개선할 수 있는 순환 구조 방법을 제안한다. 특히, 고정 카메라에서 획득되는 비디오 데이터에 딥러닝 기반 객체 탐지기를 적용한 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 배경 추출용 파라미터[4]를 갱신함으로써 개선된 픽셀 단위의 배경 영상을 획득할 수 있고, 이를 활용하여 돈방내 먹이통 등과 같은 시설물의 위치를 파악할 수 있다. 또한, 이러한 돈방내 시설물 정보를 이용하여 딥러닝 객체 탐지 결과를 검증하거나 보정함으로써 정지영상에 대한 객체 탐지 결과의 에러를 줄일 수 있다. 마지막으로 TinyYOLOv4[3]에 프루닝 기법을 적용하여 엔비디아의 Jetson Nano[2] 보드에서 실시간 동작하도록 구현하였다.

제안하는 방법의 타당성을 검증하기 위해 실제 돈사에서 획득한 비디오 데이터로 실험한 결과, 제안하는 방법은 베이스라인인 TinyYOLOv4[3] 대비 정확도 및 처리속도가 모두 개선되었음을 확인하였다. 즉, 모니터링할 돈방의 시설물 등의 위치를 파악하고 이러한 시설물 정보를 활용하여 딥러닝 기반 객체 탐지기의 성능을 개선할 수 있다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 시스템의 구성을 나타내는 도면이다.

본 발명의 실시예에 따른 객체 탐지 정확도 개선 시스템의 설명을 위해 돈사 비디오 모니터링 환경에서 딥러닝 기반 객체 탐지기의 돼지 탐지를 예시로서 설명한다. 여기서 돼지는 일 실시예일뿐 이에 한정되지 않으며 비디오 모니터링 환경에서 탐지하기 위한 다양한 객체를 포함할 수 있다.

제안하는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 시스템은 카메라(110), 객체 탐지기(TinyYOLOv4)(120), 전처리부(130) 및 후처리부(140)를 포함한다.

본 발명의 실시예에서는 돼지가 있는 돈방에 카메라(예를 들어, tilted-down-view camera)(110)를 설치하여 영상을 획득하고, 이를 객체 탐지기(TinyYOLOv4)(120)에 적용하여 객체 탐지 박스들을 획득한다. 이후, 전처리부(130)는 고정 카메라(110)에서 획득되는 비디오 데이터에 객체 탐지기(TinyYOLOv4)(120)를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경(background) 영상을 획득한다(131). 이를 활용하여 더 정확한 전경(foreground) 및 시설물(facility) 추출 영상을 획득한 후(132), 획득한 시설물 정보를 반영한 합성(composite) 영상으로 객체 탐지기(TinyYOLOv4)(120)를 학습하고, 마지막으로 후처리부(140)는 전경 및 시설물 정보를 이용해서 객체 탐지기(TinyYOLOv4)(120)의 탐지 박스들의 신뢰도 점수(confidence score)를 수정하여 탐지 정확도를 향상시킨다.

도 1을 참조하면, 돼지들의 신체 일부가 시설물에 가려서 보이지 않는 겹침 현상 등에 의한 FN(False Negative) 및 FP(False Positive) 에러들을 해결하기 위하여, 연속적으로 입력되는 비디오 데이터를 영상 처리 및 딥러닝으로 처리하면서 지속적으로 영상 처리 및 딥러닝의 정확도를 상호 보정할 수 있는 본 발명의 제안 방법에 대한 전체 시스템 구성도이다.

본 발명의 실시예에 따른 객체 탐지기(TinyYOLOv4)(120)는 카메라(110)를 통해 객체 탐지를 위한 영상을 획득하고, 상기 영상에 대한 객체 탐지 박스들을 획득하며, 전처리부(130)에서 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 학습한다.

본 발명의 실시예에 따른 전처리부(130)는 카메라(110)를 통해 획득된 영상에 상기 객체 탐지기(TinyYOLOv4)(120)를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하고, 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득한다.

본 발명의 실시예에 따른 전처리부(130)는 상기 객체 탐지 박스 단위의 객체 탐지 결과를 이용하여 프레임의 원본 영상에서 객체 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구한다. 원본 영상의 픽셀 중 현재까지의 배경 영상을 갱신하면서 계속해서 객체 탐지 박스 영역에 포함되었던 픽셀은 배경 영상의 해당 위치를 현재 영상의 픽셀 평균값으로 대체한다.

본 발명의 실시예에 따른 전처리부(130)는 현재 프레임에서 객체 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 프레임에서 배경 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 증가시키고, 작으면 배경 영상의 픽셀값을 감소시킨다.

본 발명의 실시예에 따르면, 같은 위치에 지속적으로 오탐지가 발생될 경우, 배경 영상에 노이즈가 생성되는 것을 방지하기 위해 미리 정해진 수의 이전 프레임의 배경 영상 동안 현재 프레임에서 배경 영상의 같은 위치의 픽셀값이 미리 정해진 퍼센트 미만으로 차이가 나면 배경의 영상의 해당 위치의 픽셀값을 배경 기준값으로 설정하고, 상기 미리 정해진 퍼센트 이상으로 차이가 나면 배경 영상을 갱신하지 않는다.

본 발명의 실시예에 따른 전처리부(130)는 전경 영상의 전체 픽셀 평균값과 전경 영상에서 각각의 객체 탐지 박스 영역에 대한 픽셀 평균값을 구하고, 현재 프레임 영상의 픽셀값과 같은 위치에 있는 현재 배경 영상의 픽셀값 차의 결과를 이용하여 전경 영상으로 추출한다.

본 발명의 실시예에 따른 전처리부(130)는 객체 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 객체 탐지 박스 영역은 오탐지로 판단하여 갱신에서 제외한다.

상기 갱신이 진행되는 전경 영상의 객체 탐지 박스 영역에 존재하는 픽셀 중 객체 탐지 박스 영역의 픽셀 평균값보다 높은 곳에 대해 시설물 영상에서 해당 위치의 픽셀값을 감소시킨다.

본 발명의 실시예에 따르면, 시설물로 인한 겹침 문제를 해결하기 위해 시설물 정보가 포함되어있는 전경 영상에서 시설물의 영역으로 정의한 픽셀 값을 원본 영상에 같은 위치에 픽셀 값으로 적용시켜 새로운 시설물의 정보를 포함한 결과물을 생성하고, 시설물에 대한 위치를 파악하도록 원본 영상 대신 시설물 영역의 픽셀값으로 변경된 합성 영상을 생성하여 객체 탐지기(TinyYOLOv4)(120)를 통해 학습하도록 한다.

본 발명의 실시예에 따른 객체 탐지기(TinyYOLOv4)(120)는 객체 탐지 박스의 신뢰도 점수를 판단하기 위해 해당 객체 탐지 박스에 포함된 전경 픽셀을 계산한다. 상기 전처리부(130)에서 획득한 해당 객체 탐지 박스의 전경 픽셀과 객체 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 미리 정해진 기준보다 낮을 경우 거짓 박스라고 정의한다.

본 발명의 실시예에 따른 후처리부(140)는 객체 탐지 정확도를 개선하기 위해 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정한다.

본 발명의 실시예에 따른 후처리부(140)는 현재 박스의 전경 픽셀과 배경 픽셀의 비율(Ratio), 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지 나타내는 값(Confidence_Box_Count), 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 비율(Total_Ratio)을 이용하여 객체 탐지 박스의 신뢰도 점수를 계산한다.

도 2는 본 발명의 일 실시예에 따른 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 방법을 설명하기 위한 흐름도이다.

제안하는 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 방법은 카메라를 통해 객체 탐지를 위한 영상을 획득하고, 객체 탐지기를 적용하여 상기 영상에 대한 객체 탐지 박스들을 획득하는 단계(210), 전처리부가 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하는 단계(220), 전처리부가 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 단계(230), 상기 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 객체 탐지기를 적용하여 학습하는 단계(240) 및 객체 탐지 정확도를 개선하기 위해 후처리부가 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 단계(250)를 포함한다.

단계(210)에서, 카메라를 통해 객체 탐지를 위한 영상을 획득하고, 객체 탐지기를 적용하여 상기 영상에 대한 객체 탐지 박스들을 획득한다. 본 발명의 실시예에서는 돼지가 있는 돈방에 카메라(예를 들어, tilted-down-view camera)를 설치하여 영상을 획득할 수 있다.

단계(220)에서, 전처리부가 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득한다.

본 발명의 실시예에 따른 전처리부는 카메라를 통해 획득된 영상에 상기 객체 탐지기(TinyYOLOv4)를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하고, 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득한다.

본 발명의 실시예에 따른 전처리부는 상기 객체 탐지 박스 단위의 객체 탐지 결과를 이용하여 프레임의 원본 영상에서 객체 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구한다. 원본 영상의 픽셀 중 현재까지의 배경 영상을 갱신하면서 계속해서 객체 탐지 박스 영역에 포함되었던 픽셀은 배경 영상의 해당 위치를 현재 영상의 픽셀 평균값으로 대체한다.

본 발명의 실시예에 따른 전처리부는 현재 프레임에서 객체 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 프레임에서 배경 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 증가시키고, 작으면 배경 영상의 픽셀값을 감소시킨다.

단계(230)에서, 전처리부가 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득한다.

본 발명의 실시예에 따른 전처리부는 객체 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 객체 탐지 박스 영역은 오탐지로 판단하여 갱신에서 제외한다.

본 발명의 실시예에 따르면, 시설물로 인한 겹침 문제를 해결하기 위해 시설물 정보가 포함되어있는 전경 영상에서 시설물의 영역으로 정의한 픽셀 값을 원본 영상에 같은 위치에 픽셀 값으로 적용시켜 새로운 시설물의 정보를 포함한 결과물을 생성하고, 시설물에 대한 위치를 파악하도록 원본 영상 대신 시설물 영역의 픽셀값으로 변경된 합성 영상을 생성하여 객체 탐지기(TinyYOLOv4)를 통해 학습하도록 한다.

단계(240)에서, 상기 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 객체 탐지기를 적용하여 학습한다.

본 발명의 실시예에 따른 객체 탐지기(TinyYOLOv4)는 객체 탐지 박스의 신뢰도 점수를 판단하기 위해 해당 객체 탐지 박스에 포함된 전경 픽셀을 계산한다. 상기 전처리부에서 획득한 해당 객체 탐지 박스의 전경 픽셀과 객체 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 미리 정해진 기준보다 낮을 경우 거짓 박스라고 정의한다.

단계(250)에서, 객체 탐지 정확도를 개선하기 위해 후처리부가 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정한다.

본 발명의 실시예에 따른 후처리부는 현재 박스의 전경 픽셀과 배경 픽셀의 비율(Ratio), 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지 나타내는 값(Confidence_Box_Count), 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 비율(Total_Ratio)을 이용하여 객체 탐지 박스의 신뢰도 점수를 계산한다. 도 3 내지 도 10을 참조하여 본 발명의 일 실시예에 따른 임베디드 보드에서 영상 처리 및 딥러닝 기법을 혼용한 객체 탐지 정확도 개선 과정에 대하여 더욱 상세히 설명한다.

도 3은 본 발명의 일 실시예에 따른 배경 영상을 설명하기 위한 도면이다.

본 발명의 실시예에 따른 객체 탐지기(TinyYOLOv4)를 통한 탐지 결과로 획득한 탐지 박스 정보를 이용하여 현재 프레임의 원본 영상에서 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구한다. 그 후, 영상의 픽셀 중 현재까지 배경 영상을 갱신하면서 계속해서 탐지 박스 영역에 속했던 픽셀은 배경 영상에 한번도 영향을 주지 않은 것으로 취급하여, 배경 영상의 해당 위치는 현재 영상의 픽셀 평균값으로 대체한다. 또한, 실제 배경이 항상 동일하게 유지되지 않기 때문에 현재 실제 배경에 맞추어 배경 영상을 점차적으로 갱신할 필요가 있다.

본 발명의 실시예에 따르면, 현재 프레임에서 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 1 증가, 작으면 1 감소시킬 수 있다.

하지만, 같은 위치에 지속적으로 오탐지가 발생될 경우, 배경 영상에 노이즈가 생성될 수 있다. 본 발명의 실시예에 따르면, 이를 방지하기 위해서 일정 프레임 동안 배경과 현재 영상의 같은 위치의 픽셀값이 10 퍼센트 미만으로 차이가 나면 배경의 해당 픽셀값을 해당 위치 픽셀의 배경 기준값으로 설정한다. 즉, 배경과 현재 영상의 픽셀값이 10 퍼센트 이상 차이가 나게 되면 배경 영상을 갱신하지 않도록 한다.

본 발명에서는 배경 기준값을 위한 프레임 수를 100으로 설정하여 진행하였고, 도 3에서 확인할 수 있는 바와 같이 돼지들이 존재하는 비디오 데이터(도 3(a))로부터 TinyYOLOv4 탐지 결과를 활용하여 매우 정확히 배경 영상(도 3(b))을 추출할 수 있다. 마지막으로, 현재 프레임 영상의 픽셀값과 같은 위치에 있는 현재 배경 영상의 픽셀값 차의 결과인 배경 차를 통해 전경 영상을 추출한다.

도 4는 본 발명의 일 실시예에 따른 전경 영상을 설명하기 위한 도면이다.

도 4에서 확인할 수 있는 바와 같이 매우 정확한 배경 영상(도 4(a))으로부터 매우 정확히 전경 정보(도 4(b))를 추출할 수 있다. 본 발명의 실시예에 따른 TinyYOLOv4를 통해 탐지 박스 정보를 이용한 배경 생성 및 갱신과 전경 영상 추출 알고리즘을 슈도 코드로 정리하면 도 5에 도시된 Algorithm 1과 같다.

도 5는 본 발명의 일 실시예에 따른 탐지 박스 정보를 이용한 배경 생성 및 갱신과 전경 영상 추출 알고리즘을 나타내는 도면이다.

본 발명의 실시예에 따르면, TinyYOLOv4를 사용한 객체 탐지에서 시설물 뒤에 가려진 객체들에서 오탐지가 발생할 수 있다. 따라서, 본 발명에서는 앞서 제안한 전경 및 배경 추출 방법을 이용하여 시설물의 위치를 확인하는데 도움을 주는 시설물 영상 추출 방법을 제안한다. 구체적으로는 객체의 전체적인 모습이 시각적으로 보이는 영역은 객체를 가리는 시설물이 있다고 판단하기 힘들기에, 배경 차로 구한 전경 영상에서 객체가 존재하는 영역의 정보를 이용한다.

먼저, 전경 영상의 전체 픽셀 평균값과 전경 영상에서 각각의 탐지 박스 영역에 대한 픽셀 평균값을 구한다. 대부분의 전경 영상에서 객체 영역의 픽셀값이 배경 영역보다 높기에 전체 영상과 탐지 박스 영역을 비교했을 때 탐지 박스 영역의 픽셀 평균값이 더 높게 측정된다. 따라서, 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 탐지 박스 영역은 객체가 없는데 있다고 판단하는 오탐지(False Positive; FP)로 간주하여 갱신에서 제외한다. 갱신이 진행되는 전경 영상의 탐지 박스 영역에 존재하는 픽셀 중 탐지 박스 영역의 픽셀 평균값보다 높은 곳(다시 말해, 객체가 존재하는 곳)에 대해 시설물 영상에서 같은 위치의 픽셀값을 1 감소한다. 이때, 모든 영역이 겹친 시설물 영역이 될 가능성이 있기에 겹친 시설물 영상의 초기값은 모두 255로 설정할 수 있다. 또한, 획득한 배경 영상이 현재 영상의 배경과 완벽히 일치할 수 없고 전경 영상과 시설물 영상에 노이즈를 발생시키기 때문에, 일정 프레임마다 보정 작업을 한다. 본 발명에서는 1만 프레임으로 설정하여 진행하였다. 너무 작은 값의 픽셀 변화가 이루어지면 노이즈로 인한 일시적인 결과라고 판단할 수 있기 때문에, 만약 픽셀값이 245 이상(다시 말해, 일정 프레임 동안 10 미만 감소)이면 초기값인 255으로 변경한다. 또한, 시설물 내 노이즈로 생긴 구멍이나 외곽선 깎임을 보정하기 위하여, 픽셀값이 255인 영역의 좌우와 위아래의 픽셀들 값을 255로 변경한다. 본 발명의 전경 영상을 이용한 시설물 생성 및 갱신 알고리즘을 슈도 코드로 정리하면 도 6에 도시된 Algorithm 2와 같다.

도 6은 본 발명의 일 실시예에 따른 전경 영상을 이용한 시설물 생성 및 갱신 알고리즘을 나타내는 도면이다.

도 7은 본 발명의 일 실시예에 따른 시설물 영상을 도 7은 본 발명의 일 실시예에 따른 시설물 영상을 영상을 설명하기 위한 도면이다.

본 발명의 실시예에 따른 학습에 필요한 전처리 작업에 대하여 시설물 정보가 담겨있는 전경 영상(도 7(a))으로부터 시설물 영상(도 7(b))을획득할 수 있다.

도 8은 본 발명의 일 실시예에 따른 원본 영상 및 시설물 영상을 이용한 합성 영상을 나타내는 도면이다.

본 발명의 실시예에 따른 학습에 필요한 전처리 작업에 대하여 시설물 정보가 담겨있는 전경 영상을 사용할 수 있다. 시설물 부근에서는 겹침으로 인하여 오탐지가 빈번하게 발생되므로 본 발명에서는 시설물로 인한 겹침 문제를 해결하기 위해 해당 영역에서의 전처리 작업을 제안한다. 먼저 시설물 정보가 포함되어있는 전경 영상(도 8(a))에서 시설물의 영역으로 정의한 255의 픽셀 값을 원본에 같은 위치에 픽셀 값으로 적용시킨 영상(도 8(b))을 이용하여 도 8(c)과 같이 새로운 시설물의 정보를 포함한 결과물을 생성한다. 이때, 해당 영상에서 돈사의 벽에 해당되는 영역 또한 시설물로 간주되어 255의 픽셀 값을 가지게 된다. 마지막으로, TinyYOLOv4가 시설물에 대한 위치를 파악하도록, 원본 영상 대신 시설물 영역의 픽셀값이 255로 변경된 합성 영상(Composite Image)을 생성하여 TinyYOLOv4를 통한 학습 및 테스트를 수행한다.

도 9는 본 발명의 일 실시예에 따른 영상 정보를 이용한 탐지 박스 신뢰도 검증 및 보정 알고리즘을 나타내는 도면이다.

본 발명의 실시예에 따른 TinyYOLOv4와 같은 1-stage 탐지기의 특성상 탐지와 분류를 동시에 실행하기 때문에 2-stage 탐지기보다 속도는 빠르지만 탐지 정확도가 낮다. 이점을 보안하기 위해서, 본 발명에서는 전처리로 획득한 정보들을 이용하여 TinyYOLOv4에서 생성하는 박스 신뢰도 점수를 조정하는 방법을 제안한다.

먼저, 해당 탐지 박스의 신뢰도가 부족한지를 판단하기 위하여, 해당 박스에 전경 픽셀이 얼마나 포함되는지 계산한다. 앞서 전처리 과정에서 획득한 해당 박스의 전경 픽셀과 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 0.5보다 낮을 경우 거짓 박스라고 정의한다. 이때 획득한 시설물 정보는 전경 픽셀 또는 배경 픽셀이 아니기 때문에, 박스 비율 계산시 해당 시설물 영역의 픽셀은 제외한다. 또한, TinyYOLOv4로 돼지 탐지의 정확도를 측정하였을 때 약 90% 정도 되기 때문에, 박스의 임계값 T를 90으로 설정한다.

구체적으로 박스의 신뢰도 점수는 식(1)과 식(2)를 이용하여 조정한다.

식(1)

식(2)

여기서, Ratio는 현재 박스의 전경 픽셀과 배경 픽셀의 비율, Confidence_Box_Count는 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지, 그리고 Total_Ratio는 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 Ratio를 의미한다. 또한, 신뢰도 조정에 의한 FP(False Positive)를 억제하기 위하여, TinyYOLOv4의 NMS의 신뢰도 기준값인 0.45를 기준으로 박스 신뢰도를 반영하여 식(1)을 계산한다. 계산 결과, 식(2)와 같이 New_Info 값이 1보다 적을 경우 FP를 가정하여 신뢰도 점수를 감소시키고, 1보다 크거나 같을 경우 TP(True Positive)를 가정하여 신뢰도 점수를 증가시키는 조정 작업을 마무리한다. 마지막으로, 신뢰도 조정 후 Updated_Confidence_Score가 T보다 크거나 같을 경우 해당 객체 정보를 유지하지만, 신뢰도 점수가 T보다 작을 경우 해당 객체 정보를 삭제한다. 본 발명의 영상 정보를 이용한 탐지 박스 신뢰도 검증 및 보정 알고리즘을 슈도 코드로 정리하면 도 9에 도시된 Algorithm 3과 같다.

도 10은 본 발명의 일 실시예에 따른 업데이트된 신뢰도 점수 수정에 따른 영상을 나타내는 도면이다.

도 10을 참조하면, 시설물 주변의 전경 정보와 박스 정보를 를 이용하여 TinyYOLOv4의 박스 신뢰도 점수를 미세 조정한 예시를 나타낸다. 설명의 편의를 위하여, 전경 위치를 흰색, 배경 위치를 검정색, 시설물 위치를 회색으로 표시한 영상 전처리부의 결과를 관련 정보(Related Information)로 명시하였다.

도 10은 FP 에러(1010)와 FN 에러(1020)에 대한 업데이트 전(a), 관련 정보(b) 및 업데이트 후(c)를 나타낸다.

본 발명의 실시예에 따른 후처리부의 Algorithm 3을 이용하여 신뢰도 점수를 조정하였으며, 조정된 신뢰도 점수가 기준값 T(예를 들어, T = 90)를 넘지 못한 박스들은 삭제하였다. 즉, FP 에러(1010)에서 확인할 수 있는 바와 같이 시설물 근처의 오탐지 박스 신뢰도 점수를 90에서 82로 조정함으로써 오탐지 에러를 줄일 수 있다. 반면, FN 에러(1020)에서 확인할 수 있는 바와 같이 시설물 근처의 미탐지 박스 신뢰도 점수를 87에서 99로 조정함으로써 미탐지 에러도 줄일 수 있다.

실제 돈사에서 돼지 모니터링을 수행하여 유용한 정보를 얻기 위해서는 각 돈방에서의 정확한 돼지 탐지가 중요하다. 그러나, 최근의 딥러닝 기술을 적용한 정지영상용 객체 탐지기들의 정확도가 크게 개선되었음에도 불구하고, 돈방내 돼지들의 신체 일부가 시설물에 가려서 보이지 않는 겹침 현상 등에 의하여 FN(False Negative) 에러 및 FP(False Positive) 에러들이 발생하는 문제가 있다.

본 발명에서는 돈방내 설치된 고정 카메라에서 획득되는 비디오 데이터의 특성과 영상 처리 기법을 활용하여 딥러닝 기반 돼지 탐지기의 정확도를 개선하는 방법을 제안하였다. 즉, 딥러닝 기반 객체 탐지기의 결과를 입력받아 영상 처리에 활용하고, 이러한 영상 처리 결과를 다시 딥러닝 객체 탐지 결과의 보정용으로 활용하여 객체 탐지의 정확도를 지속적으로 개선할 수 있는 순환 구조 방법을 제안하였다. 구체적으로는, 고정 카메라에서 획득되는 비디오 데이터에 딥러닝 기반 객체 탐지기를 적용한 박스 단위의 객체 탐지 결과를 지속적으로 입력받아 배경 추출용 파라미터를 갱신함으로써 개선된 픽셀 단위의 배경 영상을 획득할 수 있고, 이를 활용하여 돈방내 먹이통 등과 같은 시설물의 위치를 파악할 수 있다. 또한, 이러한 돈방내 시설물 정보를 이용하여 딥러닝 객체 탐지 결과를 검증하거나 보정함으로써 정지영상에 대한 객체 탐지 결과의 FN 및 FP 에러를 줄일 수 있다. 마지막으로 제안된 딥러닝 탐지기를 프루닝 기법으로 경량화하여 엔비디아의 Jetson Nano 보드에서 실시간에 동작시킬 수 있도록 구현하였다.

제안 방법을 엔비디아의 Jetson Nano 보드[2]에서 실시간에 처리하기 위하여, 클러스터링 기반 프루닝 기법인 필터 클러스터링 기법[23]을 TinyYOLOv4에 수정 적용하였다. 즉, CNN 기반 객체 탐지기인 TinyYOLOv4에서 계산량이 가장 많은 컨볼루션 레이어의 3×3 필터들을 클러스터링 기법으로 그룹화하였고 각 그룹중 놈 값이 큰 필터만 남겨두고 나머지 필터들은 제거함으로써 TinyYOLOv4 모델을 경량화할 수 있었다.

제안 방법의 유효성을 확인하기 위해 실제 돈사에서 획득한 비디오 데이터로 실험한 결과, 제안 방법은 베이스라인인 TinyYOLOv4[3] 대비 정확도(0.92에서 0.96으로 개선) 및 처리속도(18.36FPS에서 30.60FPS로 개선)가 모두 개선되었음을 확인하였다.

<표 1>

표 1은 엔비디아의 Jetson Nano 보드에서 베이스라인으로 사용된 TinyYOLOv4와 본 발명에서 제안하는 방법을 적용하였을 때의 성능 차이를 보여준다. 특히 TinyYOLOv4에 비하여 정확도는 높고 처리속도는 낮은 YOLOv4의 성능을 같이 비교함으로써, 제안 방법의 우수성을 확인하고자 한다. 성능을 비교할 때 사용한 AP0.5과 FPS(Frames Per Second)는 객체 탐지 정확도와 처리속도를 측정할 때 사용하는 성능지수이다. 먼저, AP0.5(Average Precision with 0.5 IoU)는 PASCAL VOC 등의 객체 탐지 벤치마크에서 사용하는 정확도이며, 수치가 클수록 높은 정확도를 의미한다[24]. 즉, IoU(Intersection of Union) 0.5 기준 평균 정밀도를 의미하며, "TP(True Positive) Case"와 "FP(False Positive) Case"를 이용하여 계산된 Precision과 "TP(True Positive) Case"와 "FN(False Negative) Case"를 이용하여 계산된 Recall의 반비례 성질을 이용해서 평균을 낸 값이다. 또한 1초당 처리된 프레임의 수로 정의되는 FPS는 비디오 응용의 처리속도로 널리 사용되며, 수치가 클수록 높은 처리속도를 의미한다. 즉, 통상적으로 초당 30장으로 입력되는 비디오 프레임이 지연없이 처리되기 위해서는 객체 탐지의 처리속도가 30FPS 이상이면 실시간 처리에 문제가 없다. 마지막으로 정확도와 처리속도를 곱하여 하나의 통합 성능지수(Integrated Performance)로 표현할 수 있으며, 수치가 클수록 높은 통합 성능을 의미(즉, 완벽한 정확도를 의미하는 AP0.5 = 1.0과 실시간 처리속도를 의미하는 30FPS를 곱하면 30.0의 통합 성능을 의미)한다. 앞서 설명한 전처리부 및 후처리부와 모델 경량화에 의하여 제안 방법은 베이스라인인 TinyYOLOv4 대비 정확도가 4% 개선되었으며, 수행 속도도 크게 개선된 것을 확인할 수 있다. 또한, 제안 방법은 YOLOv4에 비해서도 더 높은 정확도 및 약 25배 빠른 처리속도를 달성할 수 있었다.

<표 2>

베이스라인인 TinyYOLOv4와 제안 방법의 정확도를 보다 정확히 분석하기 위하여, TP, FP, FN, Precision = TP/(TP+FP), Recall = TP/(TP+FN)을 표 2에 정리하였다. 제안 방법은 베이스라인인 TinyYOLOv4를 프루닝하여 처리속도를 1.6배 개선시켰음에도 불구하고, 앞서 설명한 전처리부 및 후처리부의 효과로 FP의 증가를 최소화하면서도 FN을 그 이상으로 감소시켜 TP가 증가되는 결과를 얻을 수 있었다. 즉, 제안 방법은 베이스라인인 TinyYOLOv4를 경량화시켰음에도 불구하고 Precision 감소를 최소화하면서도 Recall을 그 이상으로 증가시켜 전체 정확도가 개선되는 효과를 확인하였다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

<참고 문헌>

[1] L. Liu, et al., "Deep Learning for Generic Object Detection: A Survey," International Journal of Computer Vision, Vol. 128, pp. 261-318, 2020.

[2] NVIDIA. NVIDIA Jetson Nano. Available at http://www.nvidia.com/object/embedded-systems-dev-kits-modules.html, accessed February 2022.

[3] A. Bochkovskiy, C. Wang, and H. Liao, "Yolov4: Optimal Speed and Accuracy of Object Detection," arXiv:2004.10934, 2020.

[4] I. Setitra, and S. Larabi, "Background Subtraction Algorithms with Post Processing: A Review," Proc. of ICPR, 2014.

[5] S. Mathews, A. Miller, J. Clapp, T. Plotz, and I. Kyriazakis, "Early Detection of Health and Welfare Compromises through Automated Detection of Behavioural Changes in Pigs," The Veterinary Journal, Vol. 217, pp. 43-51, 2016.

[6] Y. Chung, H. Kim, H. Lee, D. Park, T. Jeon, and H. Chang, "A Cost-Effective Pigsty Monitoring System based on a Video Sensor," KSII Transaction on Internet and Information Systems, Vol. 8, No. 4, 2014.

[7] J. Lee, L. Jin, D. Park, and Y. Chung, "Automatic Recognition of Aggressive Behavior in Pigs using a Kinect Depth Sensor," Sensors, Vol. 16, No. 5, pp. 631, 2016.

[8] K. Jun, S. Kim, and H. Ji, "Estimating Pig Weights from Images Without Constraint on Posture and Illumination," Computers and Electronics in Agriculture, Vol. 153, pp. 169-176, 2018.

[9] S. Lee, H. Ahn, J. Seo, Y. Chung, D. Park, and S. Pan, "Practical Monitoring of Undergrown Pigs for IoT-Based Large-Scale Smart Farm," IEEE Access, Vol. 7, pp. 173796-173810, 2019.

[10] J. Kim, Y. Chung, Y. Choi, J. Sa, H. Kim, Y. Chung, D. Park, and H. Kim, "Depth-based Detection of Standing-pigs in Moving Noise Environments," Sensors, Vol. 17, No. 12, pp. 2757, 2017.

[11] M. Ju, Y. Choi, J. Seo, J. Sa, S. Lee, Y. Chung, and D. Park, "A Kinect-based Segmentation of Touching-pigs for Real-time Monitoring," Sensors, Vol. 18, No. 6, pp. 1746, 2018.

[12] J. Sa, Y. Choi, H. Lee, Y. Chung, D. Park, and J. Cho, "Fast Pig Detection with a Top-view Camera Under Various Illumination Conditions," Symmetry, Vol. 11, No. 2, pp. 266, 2019.

[13] H. Lee, J. Sa, H. Shin, Y. Chung, D. Park, and H. Kim, "Separation of Occluding Pigs using Deep Learning-based Image Processing Techniques," Journal of Korea Multimedia Society, Vol. 22, No. 2, pp. 136-145, 2019.

[14] J. Seo, H. Ahn, D. Kim, S. Lee, Y. Chung, and D. Park, "EmbeddedPigDet: Fast and Accurate Pig Detection for Embedded Board Implementations," Applied Sciences, Vol. 10, No. 8, pp. 2878, 2020.

[15] M. Riekert, S. Opderbeck, A. Wild, and E. Gallmann, "Model Selection for 24/7 Pig Positions and Posture Detection by 2D Camera Imaging and Deep Learning," Computers and Electronics in Agriculture, Vol. 187, pp. 106213, 2021.

[16] S. Tu, W. Yuan, Y. Liang, F. Wang, and H. Wan, "Automatic Detection and Segmentation for Group-Housed Pigs based on PigMS R-CNN," Sensors, Vol. 21, No. 9, pp. 3251, 2021.

[17] H. Ahn, S. Son, H. Kim, S. Lee, Y. Chung, and D. Park, "EnsemblePigDet: Ensemble Deep Learning for Accurate Pig Detection," Applied Sciences, Vol. 11, No. 12, pp. 5577, 2021.

[18] H. Ahn, S. Son, S. Yu, Y. Suh, J. Son, S. Lee, Y. Chung, and D. Park, "Accurate Pig Detection for Video Monitoring Environment," Journal of Korea Multimedia Society, Vol. 24, No. 7, pp. 890-902, 2021.

[19] Open Source Computer Vision: 'OpenCV'. Available at http://opencv.org, accessed February 2022.

[20] C. Stauffer, and W. Grimson, "Adaptive Background Mixture Models for Real-Time Tracking," IEEE Access, Vol. 2, pp. 1063-6919, 1999.

[21] P. St-Charles, G. Bilodeau, and R. Bergevin, "Subsense: A Universal Change Detection Method with Local Adaptive Sensitivity," IEEE Access, Vol. 24, pp. 359-373, 2015.

[22] M. Tezcan, P. Ishwar, and J. Konrad, "Bsuvnet 2.0: Spatio-Temporal Data Augmentations for Videoagnostic Supervised Background Subtraction," IEEE Access, Vol. 9, pp. 53849-53860, 2021.

[23] M. Hong, H. Ahn, O. Atif, J. Lee, D. Park, and Y. Chung, "Field-Applicable Pig Anomaly Detection System using Vocalization for Embedded Board Implementations," Applied Sciences, Vol. 10, No. 19, pp. 6991, 2020.

[24] M. Everingham, L. Gool, C. Williams, J. Winn, and A. Zisserman, "The pascal visual object classes (voc) challenge," International Journal of Computer Vision, Vol. 88, pp. 303-338, 2010.

Claims

카메라를 통해 객체 탐지를 위한 영상을 획득하고, 상기 영상에 대한 객체 탐지 박스들을 획득하며, 전처리부에서 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 학습하는 객체 탐지기;
상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하고, 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 전처리부; 및
객체 탐지 정확도를 개선하기 위해 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 후처리부
를 포함하고,
상기 전처리부는,
전경 영상의 전체 픽셀 평균값과 전경 영상에서 각각의 객체 탐지 박스 영역에 대한 픽셀 평균값을 구하고, 현재 프레임 영상의 픽셀값과 같은 위치에 있는 현재 배경 영상의 픽셀값 차의 결과를 이용하여 전경 영상으로 추출하고,
객체 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 객체 탐지 박스 영역은 오탐지로 판단하여 갱신에서 제외하고,
상기 갱신이 진행되는 전경 영상의 객체 탐지 박스 영역에 존재하는 픽셀 중 객체 탐지 박스 영역의 픽셀 평균값보다 높은 곳에 대해 시설물 영상에서 해당 위치의 픽셀값을 감소시키고,
시설물로 인한 겹침 문제에 의한 오탐지를 해결하기 위해 시설물 정보가 포함되어 있는 전경 영상에서 시설물의 영역으로 정의한 픽셀 값을 원본 영상에 같은 위치에 픽셀 값으로 적용시켜 새로운 시설물의 정보를 포함한 결과물을 생성하고, 시설물에 대한 위치를 파악하도록 원본 영상 대신 시설물 영역의 픽셀 값으로 변경된 합성 영상을 생성하여 학습하도록 하는
객체 탐지 정확도 개선 시스템.
제1항에 있어서,
상기 전처리부는,
상기 객체 탐지 박스 단위의 객체 탐지 결과를 이용하여 프레임의 원본 영상에서 객체 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구하고, 원본 영상의 픽셀 중 현재까지의 배경 영상을 갱신하면서 계속해서 객체 탐지 박스 영역에 포함되었던 픽셀은 배경 영상의 해당 위치를 현재 영상의 픽셀 평균값으로 대체하는
객체 탐지 정확도 개선 시스템.
제2항에 있어서,
상기 전처리부는,
현재 프레임에서 객체 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 프레임에서 배경 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 증가시키고, 작으면 배경 영상의 픽셀값을 감소시키며,
같은 위치에 지속적으로 오탐지가 발생될 경우, 배경 영상에 노이즈가 생성되는 것을 방지하기 위해 미리 정해진 수의 이전 프레임의 배경 영상 동안 현재 프레임에서 배경 영상의 같은 위치의 픽셀값이 미리 정해진 퍼센트 미만으로 차이가 나면 배경의 영상의 해당 위치의 픽셀값을 배경 기준값으로 설정하고, 상기 미리 정해진 퍼센트 이상으로 차이가 나면 배경 영상을 갱신하지 않는
객체 탐지 정확도 개선 시스템.
삭제
삭제
제1항에 있어서,
상기 객체 탐지기는,
객체 탐지 박스의 신뢰도 점수를 판단하기 위해 해당 객체 탐지 박스에 포함된 전경 픽셀을 계산하고, 상기 전처리부에서 획득한 해당 객체 탐지 박스의 전경 픽셀과 객체 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 미리 정해진 기준보다 낮을 경우 거짓 박스라고 정의하는
객체 탐지 정확도 개선 시스템.
제1항에 있어서,
상기 후처리부는,
현재 박스의 전경 픽셀과 배경 픽셀의 비율(Ratio), 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지 나타내는 값(Confidence_Box_Count), 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 비율(Total_Ratio)을 이용하여 객체 탐지 박스의 신뢰도 점수를 계산하는
객체 탐지 정확도 개선 시스템.
카메라를 통해 객체 탐지를 위한 영상을 획득하고, 객체 탐지기를 적용하여 상기 영상에 대한 객체 탐지 박스들을 획득하는 단계;
전처리부가 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하는 단계;
전처리부가 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 단계;
상기 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 객체 탐지기를 적용하여 학습하는 단계; 및
객체 탐지 정확도를 개선하기 위해 후처리부가 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 단계
를 포함하고,
상기 전처리부가 상기 배경 영상을 이용하여 전경 및 시설물 추출 영상을 획득하는 단계는,
전경 영상의 전체 픽셀 평균값과 전경 영상에서 각각의 객체 탐지 박스 영역에 대한 픽셀 평균값을 구하고, 현재 프레임 영상의 픽셀값과 같은 위치에 있는 현재 배경 영상의 픽셀값 차의 결과를 이용하여 전경 영상으로 추출하고,
객체 탐지 박스 영역의 픽셀 평균값이 전체 영상의 픽셀 평균값보다 낮으면 해당 객체 탐지 박스 영역은 오탐지로 판단하여 갱신에서 제외하고,
상기 갱신이 진행되는 전경 영상의 객체 탐지 박스 영역에 존재하는 픽셀 중 객체 탐지 박스 영역의 픽셀 평균값보다 높은 곳에 대해 시설물 영상에서 해당 위치의 픽셀값을 감소시키고,
시설물로 인한 겹침 문제에 의한 오탐지를 해결하기 위해 시설물 정보가 포함되어 있는 전경 영상에서 시설물의 영역으로 정의한 픽셀 값을 원본 영상에 같은 위치에 픽셀 값으로 적용시켜 새로운 시설물의 정보를 포함한 결과물을 생성하고, 시설물에 대한 위치를 파악하도록 원본 영상 대신 시설물 영역의 픽셀 값으로 변경된 합성 영상을 생성하여 학습하도록 하는
객체 탐지 정확도 개선 방법.
제8항에 있어서,
상기 전처리부가 상기 영상에 상기 객체 탐지기를 적용한 객체 탐지 박스 단위의 객체 탐지 결과를 지속적으로 입력 받아 개선된 픽셀 단위의 배경 영상을 획득하는 단계는,
상기 객체 탐지 박스 단위의 객체 탐지 결과를 이용하여 프레임의 원본 영상에서 객체 탐지 박스 영역을 제외한 모든 영역의 픽셀 평균값을 구하고, 원본 영상의 픽셀 중 현재까지의 배경 영상을 갱신하면서 계속해서 객체 탐지 박스 영역에 포함되었던 픽셀은 배경 영상의 해당 위치를 현재 영상의 픽셀 평균값으로 대체하는
객체 탐지 정확도 개선 방법.
제9항에 있어서,
현재 프레임에서 객체 탐지 박스 영역 외는 각 픽셀마다 이전 프레임에서 생성된 배경 영상과 비교하여 현재 프레임에서 배경 영상의 같은 위치에 있는 픽셀의 값이 더 크면 배경 영상의 픽셀값을 증가시키고, 작으면 배경 영상의 픽셀값을 감소시키며,
같은 위치에 지속적으로 오탐지가 발생될 경우, 배경 영상에 노이즈가 생성되는 것을 방지하기 위해 미리 정해진 수의 이전 프레임의 배경 영상 동안 현재 프레임에서 배경 영상의 같은 위치의 픽셀값이 미리 정해진 퍼센트 미만으로 차이가 나면 배경의 영상의 해당 위치의 픽셀값을 배경 기준값으로 설정하고, 상기 미리 정해진 퍼센트 이상으로 차이가 나면 배경 영상을 갱신하지 않는
객체 탐지 정확도 개선 방법.
삭제
삭제
제8항에 있어서,
상기 상기 획득된 시설물 추출 영상을 반영한 합성 영상에 대해 객체 탐지기를 적용하여 학습하는 단계는,
객체 탐지 박스의 신뢰도 점수를 판단하기 위해 해당 객체 탐지 박스에 포함된 전경 픽셀을 계산하고, 상기 전처리부에서 획득한 해당 객체 탐지 박스의 전경 픽셀과 객체 탐지 박스에서 전경 픽셀을 제외한 배경 픽셀을 이용하여, 현재 전경 픽셀과 배경 픽셀의 비율이 전체 박스 비율의 미리 정해진 기준보다 낮을 경우 거짓 박스라고 정의하는
객체 탐지 정확도 개선 방법.
제8항에 있어서,
상기 객체 탐지 정확도를 개선하기 위해 후처리부가 상기 전경 및 시설물 추출 영상을 이용하여 상기 객체 탐지 박스들의 신뢰도 점수를 수정하는 단계는,
현재 박스의 전경 픽셀과 배경 픽셀의 비율(Ratio), 현재 조정하는 박스가 총 박스 중 몇 번째 박스인지 나타내는 값(Confidence_Box_Count), 현재 조정하는 박스 이전까지 누적되어 계산된 박스들의 평균 비율(Total_Ratio)을 이용하여 객체 탐지 박스의 신뢰도 점수를 계산하는
객체 탐지 정확도 개선 방법.