[go: up one dir, main page]

CN115375615A - 用于生成感兴趣区域的深度信息的电子设备及其操作方法 - Google Patents

用于生成感兴趣区域的深度信息的电子设备及其操作方法 Download PDF

Info

Publication number
CN115375615A
CN115375615A CN202210524355.5A CN202210524355A CN115375615A CN 115375615 A CN115375615 A CN 115375615A CN 202210524355 A CN202210524355 A CN 202210524355A CN 115375615 A CN115375615 A CN 115375615A
Authority
CN
China
Prior art keywords
image data
data
interest
electronic device
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210524355.5A
Other languages
English (en)
Inventor
赵淳龙
朴龙龟
徐侑贞
李锡弦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115375615A publication Critical patent/CN115375615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/703SSIS architectures incorporating pixels for producing signals other than image signals
    • H04N25/705Pixels for depth measurement, e.g. RGBZ
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/71Charge-coupled device [CCD] sensors; Charge-transfer registers specially adapted for CCD sensors
    • H04N25/75Circuitry for providing, modifying or processing image signals from the pixel array
    • HELECTRICITY
    • H10SEMICONDUCTOR DEVICES; ELECTRIC SOLID-STATE DEVICES NOT OTHERWISE PROVIDED FOR
    • H10FINORGANIC SEMICONDUCTOR DEVICES SENSITIVE TO INFRARED RADIATION, LIGHT, ELECTROMAGNETIC RADIATION OF SHORTER WAVELENGTH OR CORPUSCULAR RADIATION
    • H10F39/00Integrated devices, or assemblies of multiple devices, comprising at least one element covered by group H10F30/00, e.g. radiation detectors comprising photodiode arrays
    • H10F39/80Constructional details of image sensors
    • H10F39/806Optical elements or arrangements associated with the image sensors
    • H10F39/8063Microlenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30148Semiconductor; IC; Wafer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)

Abstract

提供了一种用于生成感兴趣区域的深度信息的电子设备及其操作方法。所述电子设备包括:相机模块,所述相机模块被配置为基于多个光电转换元件感测对象并且基于所述多个光电转换元件中的共享微透镜的至少两个光电转换元件生成具有视差的立体图像数据;存储器,所述存储器被配置为存储至少一个指令和所述立体图像数据;以及处理电路,所述处理电路被配置为运行所述至少一个指令以执行以下操作:基于所述立体图像数据检测感兴趣对象;生成用于指示所述相机模块感测包括所述感兴趣对象的感兴趣区域的裁剪信号;以及基于所述立体图像数据生成深度信息。

Description

用于生成感兴趣区域的深度信息的电子设备及其操作方法
相关申请的交叉引用
本申请基于并要求于2021年5月17日向韩国知识产权局提交的韩国专利申请No.10-2021-0063620的优先权,其公开内容通过引用整体并入本文。
技术领域
本公开的示例实施例涉及一种用于生成感兴趣区域(ROI)的深度信息的电子设备及其操作方法,更具体地,涉及一种通过双像素(dual pixel)感测对象来确定ROI并生成ROI的深度信息的电子设备、以及电子设备的操作方法。
背景技术
由于互补金属氧化物半导体(CMOS)图像传感器安装在各种便携式电子设备中,因此即使在各种成像环境中也需要清晰的图像。为了在弱光环境中捕获清晰的图像,需要对象的更准确的深度信息。虽然飞行时间(time of flight,TOF)传感器一般用于获取深度信息,但TOF传感器的缺点是占用空间大,价格昂贵,功耗大,而且一般基于红绿蓝(RGB)的CMOS图像传感器容易受到弱光环境的影响。
由共享一个微透镜的一对两个光电转换元件组成的双像素用于提供自动对焦和获取深度信息。与由不同图像传感器组成的双摄像头相比,同一图像传感器中包括的双像素具有短基线(即,光电转换元件之间的距离),因此具有很小的视差,从而难以准确估计深度信息。
发明内容
本公开的一个或更多个示例实施例提供一种电子设备及其操作方法,其能够通过仅感测感兴趣区域(ROI)来减少深度估计所需的数据处理量。
根据示例实施例的一个方面,提供了一种电子设备,包括:相机模块,所述相机模块被配置为基于多个光电转换元件感测对象并且基于所述多个光电转换元件中的共享微透镜的至少两个光电转换元件生成具有视差的立体图像数据;存储器,所述存储器被配置为存储至少一个指令和所述立体图像数据;以及处理电路,所述处理电路被配置为运行所述至少一个指令以执行以下操作:基于所述立体图像数据检测感兴趣对象;生成用于指示所述相机模块感测包括所述感兴趣对象的感兴趣区域的裁剪信号;以及基于所述立体图像数据生成深度信息。
根据示例实施例的另一个方面,提供了一种电子设备,包括:相机模块,所述相机模块被配置为生成立体图像数据,所述立体图像数据包括相对于对象具有视差的第一图像数据和第二图像数据;存储器,所述存储器被配置为存储至少一个指令和所述立体图像数据;以及处理电路,所述处理电路被配置为运行所述至少一个指令以在所述第一图像数据中检测感兴趣对象并生成裁剪信号,所述裁剪信号被配置为指示感测包括所述感兴趣对象的感兴趣区域,其中,所述相机模块还被配置为:基于所述裁剪信号生成局部立体图像数据,所述局部立体图像数据包括相对于所述感兴趣对象具有视差的第一局部图像数据和第二局部图像数据,其中,所述处理电路还被配置为基于所述局部立体图像数据生成深度信息。
根据示例实施例的另一个方面,提供了一种电子设备的操作方法,所述电子设备包括相机模块和处理电路,所述操作方法包括:基于共享微透镜的两个光电转换元件生成具有视差的立体图像数据;在所述立体图像数据中检测感兴趣对象;针对包括所述感兴趣对象的感兴趣区域生成局部立体图像数据;以及通过基于所述局部立体图像数据估计深度来生成深度信息。
附图说明
通过以下结合附图进行的描述,本公开的示例实施例的上述和/或其他方面、特征和优点将更加明显,其中:
图1是根据示例实施例的电子设备的框图;
图2是图1所示的图像传感器的详细框图;
图3A是示出像素的结构的示图,图3B和图3C是示出根据示例实施例的双像素的结构的示图;
图4A和图4B是示出根据示例实施例的由不同类型的相机拍摄的相同场景的视差差异(disparity difference)的示图;
图5是根据示例实施例的图像信号处理器的详细框图;
图6A是用于描绘具有拜耳(Bayer)模式的输出数据转换为YUV格式的示图,图6B至图6E是示出符合YUV格式的图像数据的结构的示图;
图7是根据示例实施例的处理电路的框图;
图8是根据示例实施例的处理电路的框图;
图9A和图9B是根据示例实施例的处理电路的框图;
图10A、图10B和图10C是用于描述人工神经网络的结构和操作的示图;
图11A、图11B、图11C和图11D是示出根据示例实施例的网络结构的框图;
图12是根据示例实施例的处理电路的框图;
图13是示出图像数据在RGB格式与YUV格式之间的转换关系的示图;
图14A和图14B是根据示例实施例的电子设备的操作方法的流程图;
图15A和图15B是根据示例实施例的电子设备的操作方法的流程图;
图16A、图16B和图16C是示出根据示例实施例的对图像数据的深度估计的结果的示图;
图17是根据示例实施例的电子系统的框图;
图18是根据示例实施例的图17的片上系统(SOC)的框图。
具体实施方式
在下文中,将参考附图详细描述示例实施例。
图1是根据示例实施例的电子设备10的框图。
参考图1,电子设备10可以包括:包括双像素101的图像传感器100、图像信号处理器(ISP)200、处理电路300和存储器400,并且其每个组件可以相互通信,或者控制信号、数据和/或电力可以通过第一总线BUS1提供给每个组件。图像传感器100和ISP 200可以统称为相机模块50。
电子设备10可以通过硬件和软件之间的交互来处理数据并将处理结果提供给用户。电子设备10可以提供可以在其上运行软件的物理基础,并通过使用硬件资源得出用户想要的结果。在示例实施例中,电子设备10可以通过操作系统(OS)运行应用软件并将运行的计算结果存储在存储器400中,在这种情况下,电子设备10可以被称为计算系统。
电子设备10的示例可以包括数码相机、智能电话、可穿戴设备、物联网(IoT)设备、平板个人计算机(PC)、个人数字助理(PDA)和便携式多媒体播放器(PMP)以及导航设备。另外,电子设备10可以作为车辆、家具、制造设备、门、各种测量仪器等中的组件被提供。
图像传感器100可以安装在具有图像或光感测功能的电子设备10上。图像传感器100可以将通过光学透镜接收的来自对象的光信号转换成电信号,基于电信号生成图像数据,并将图像数据输出到外部。例如,图像数据可以被输出到ISP 200。图像传感器100可以包括例如像素阵列和读出电路,像素阵列包括二维(2D)布置的多个像素,并且像素阵列可以将接收到的光信号转换成电信号。
在示例实施例中,像素阵列可以利用诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)的光电转换元件来实现,并且它可以利用各种其他类型的光电转换元件来实现。光电转换元件可以产生随入射光的强度而变化的光电荷。光电转换元件的示例可以包括光电二极管(PD)、光电晶体管、光电门或钉扎PD。例如,PD是P-N结二极管,并且可以产生与入射光量成比例的电荷,即,带负电荷的电子和带正电荷的空穴。
微透镜和滤色器可以堆叠在多个像素中的每一个上。在示例实施例中,多个像素均可以通过使用至少两个光电转换元件来感测对象。根据示例实施例,双像素101包括共享一个微透镜的两个光电转换元件。
双像素101可以包括水平或垂直布置的一对光电转换元件。在示例实施例中,双像素101可以包括位于微透镜的光轴的左方向(或向上方向)的至少一个第一光电转换元件L和位于微透镜的光轴的右方向(或向下方向)的至少一个第二光电转换元件R。
双像素101可以输出在第一光电转换元件L中生成的第一图像信号或在第二光电转换元件R中生成的第二图像信号。视差可以包括在从相机模块50输出的图像数据中,该视差即为分别由成对的第一光电转换元件L和第二光电转换元件R感测到的来自同一对象的第一图像信号与第二图像信号之间的相位差。包括双像素101的图像传感器100或包括图像传感器100的相机模块50可以通过使用视差来估计作为对象与双像素101之间的距离的深度,或者基于第一图像信号与第二图像信号之间的相位差自动检测焦点。将参考图3A至图3C更详细地描述双像素101的结构。
读出电路可以基于由像素阵列提供的电信号输出已经经历了诸如坏像素去除的预处理的数据作为输出数据。图像传感器100可以被实现为包括像素阵列和读出电路的半导体芯片或封装件。
ISP 200可以对图像传感器100提供的输出数据执行图像处理和校正,并且可以输出图像数据IDAT作为结果。例如,由ISP 200执行的图像处理可以包括:用于将输出数据转换为新数据格式(例如,将具有拜耳模式的图像数据转换为YUV或RGB格式)的图像处理,以及用于提高图像质量的图像处理,例如,噪声去除、亮度调整、锐度调整等。下面将参考图5更详细地描述ISP 200的结构。
ISP 200可以生成图像数据IDAT作为处理输出数据的结果。图像数据IDAT可以包括:表示场景中的光强度或明亮度(brightness)的亮度(luminance)数据YDAT,以及表示色差的多条色度数据UDAT和VDAT,色差是设计用于表达场景的颜色空间(color space)中两点之间的几何距离。图像数据IDAT可以存储在存储器400中。
根据示例实施例,ISP 200可以通过处理和校正从双像素101感测的多条输出数据来生成包括第一图像数据IDATL和第二图像数据IDATR的立体图像数据SIDAT。例如,ISP 200可以通过处理和校正由第一光电转换元件L感测到的第一图像信号来生成第一图像数据IDATL,通过处理和校正由第二光电转换元件R感测到的第二图像信号来生成第二图像数据IDATR
相机模块50可以包括图像传感器100和ISP 200。相机模块50可以是如下集成组件:该集成组件处理和校正由图像传感器100生成的图像信号,并且将图像信号转换成适合在包括智能电话的移动电子设备中进行处理的图像数据IDAT。相机模块50可以被标准化,以使得即使在包括由不同制造商生产的处理电路300的电子设备10中也可以平稳地操作。
处理电路300可以控制电子设备10的所有操作,更具体地,处理来自构成电子设备10的其他组件(例如,图像传感器100、ISP 200和存储器400)的请求,并且还可以控制其他组件。在示例实施例中,处理电路300可以执行特定任务、指令或操作。在示例实施例中,可以从存储器400加载指令。
在示例实施例中,处理电路300可以被实现为通用处理器、专用处理器或应用处理器(AP)。在示例实施例中,处理电路300可以被实现为计算处理器,例如,中央处理单元(CPU)、图形处理单元(GPU)、神经处理单元(NPU)、AP等,计算处理器包括专用逻辑电路,例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)等,但不限于此。
处理电路300还可以包括加速器,该加速器是用于诸如人工智能(AI)数据计算的高速数据计算的专用电路,该加速器可以包括GPU、NPU和/或数字信号处理器(DSP)。根据示例实施例,加速器可以被实现为物理上独立于处理电路300的其他组件的单独芯片。根据示例实施例,处理电路300可以通过使用一个或更多个人工神经网络来处理数据。另外,处理电路300可以通过允许一个或更多个人工神经网络学习数据来强化它们。
根据示例实施例,可以通过处理电路300和存储器400来执行与AI相关的功能。处理电路300可以是通用处理器(例如,CPU、AP或DSP)、专用图形处理器(例如,GPU或视觉处理单元(VPU)),或专用AI处理器(例如,NPU)。处理电路300可以根据预定义的运算规则或存储在存储器400中的AI模型控制要处理的输入数据。当处理电路300是专用AI处理器时,专用AI处理器可以设计有专门用于处理特定AI模型的硬件结构。预定义的运算规则或AI模型可以通过训练过程创建。通过训练过程的创建是指通过学习算法在大量训练数据上训练基本AI模型来创建预定义的运算规则或AI模型集,以执行期望的特性或目的。训练过程可以由执行AI的装置本身或通过单独的服务器和/或系统来执行。学习算法的示例可以包括但不限于监督学习、无监督学习、半监督学习和强化学习。
人工神经网络可以包括深度神经网络(DNN),并且可以是例如卷积神经网络(CNN)、DNN、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环DNN(BRDNN)或深度Q网络(DQN),但不限于此。
人工神经网络可以包括多个神经网络层。每个神经网络层具有多个权重值并且可以通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。可以基于AI模型的训练结果来优化分配给每个神经网络层的多个权重值。例如,可以更新多个权重值以减少或最小化在训练过程中在AI模型中获得的损失或成本值。下面将参考图10A至图10C更详细地描述人工神经网络。
根据示例实施例,处理电路300可以包括对象检测器330、感兴趣区域(ROI)选择器350和深度估计器370。
对象检测器330可以将包括目标对象的场景作为整体进行感测,并且检测场景中包括的至少一个对象中的每一个对象。对象检测器330可以利用计算机视觉领域中的对象检测方法。例如,对象检测器330可以通过使用边界框来识别场景中的对象,并通过使用手工的基于特征的对象检测(其使用每个对象的标记的地面实况(ground truth)信息将对象进行单独分类)、或者基于AI的对象检测方法(其利用为对象检测而设计的人工神经网络)来检测对象。对象检测器330可以检测至少一个对象中的感兴趣对象(OOI)。
ROI选择器350可以确定包括OOI的ROI。根据示例实施例,ROI选择器350可以识别与在场景中检测到的OOI对应的区域并且选择包括OOI的ROI。例如,ROI可以大于在其中检测到OOI的边界框。
深度估计器370可以估计绝对深度或相对深度。在示例实施例中,深度估计器370可以经由人工神经网络从输入图像提取特征,例如,边界、线条、颜色、边缘(对象的边界)、密度(包括密集和稀疏)、深度等。在示例实施例中,密集图像将被称为有纹理图像,而稀疏图像将被称为无纹理图像。有纹理图像和无纹理图像可以分别对应于高频和低频。深度估计器370可以通过从输入图像提取特征来估计绝对深度。
在示例实施例中,深度估计器370可以使用被配置为学习场景的所有特征的人工神经网络来处理输入图像。场景网络(S.NET)作为一种学习场景的所有特征的人工神经网络可以利用金字塔结构来实现。根据示例实施例,S.NET模块(图7的375)可以在逐渐降低场景分辨率的同时对与图像数据相对应的场景进行编码,并且在将分辨率逐渐提高回原始分辨率的同时对场景进行解码。根据示例实施例,深度估计器370可以通过使用S.NET来估计输入图像的相对深度。
存储器400可以存储由图像传感器100、ISP 200和/或处理电路300生成或处理的数据,并将所存储的数据提供给ISP 200和/或处理电路300。存储器400可以存储电子设备10的操作系统(OS)、应用和用于处理操作的指令。
根据示例实施例,存储器400可以是与处理电路300实时交换数据的工作存储器。例如,存储器400可以是包括如下各项的易失性存储器:动态随机存取存储器(DRAM)、静态RAM(SRAM)、移动DRAM、双倍数据速率同步DRAM(DDR SDRAM)、低功率DDR(LPDDR)、图形DDR(GDDR)SDRAM、Rambus DRAM(RDRAM)等。然而,这仅仅是示例实施例,并且存储器400可以包括非易失性存储器。
例如,存储器400可以是用于以非易失性方式存储由图像传感器100、ISP200和/或处理电路300生成或处理的数据的存储设备。在示例实施例中,存储器400可以是包括如下各项的非易失性存储器:电可擦除可编程只读存储器(EEPROM)、闪存、相变RAM(PRAM)和电阻RAM(RRAM)、纳米浮栅存储器(NFGM)、聚合物RAM(PoRAM)、磁性RAM(MRAM)、铁电RAM(FRAM)等。
根据示例实施例,存储器400可以存储立体图像数据SIDAT。立体图像数据SIDAT可以是由双像素101生成的具有视差的一对图像数据。在示例实施例中,立体图像数据SIDAT可以包括第一图像数据IDATL和第二图像数据IDATR,第一图像数据IDATL是由作为包括成对的左PD和右PD的双像素101中的左PD的第一光电转换元件L感测到的左图像数据,第二图像数据IDATR是由作为右PD的第二光电转换元件R感测到的右图像数据。
立体图像数据SIDAT可以包括对象的被感测为拜耳模式的原始数据,或者由图像传感器100或ISP 200部分校正和后处理的数据。例如,立体图像数据SIDAT可以包括符合YUV颜色空间的YUV格式的数据。YUV格式的数据可以包括亮度数据YDAT以及色度数据UDAT和VDAT。亮度数据YDAT以及色度数据UDAT和VDAT可以由ISP 200生成作为符合YUV格式的图像数据的一部分。亮度数据YDAT以及色度数据UDAT和VDAT可以分别存储在存储器400内的在逻辑上或物理上分开的空间中。根据示例实施例,处理电路300可以仅使用YUV格式的图像数据中的亮度数据YDAT。
第一总线BUSl可以中继(relay)与图像传感器100、ISP 200、处理电路300和存储器400的数据通信。在示例实施例中,第一总线BUSl可以包括诸如控制总线、数据总线和地址总线的不同类型的总线,以中继向图像传感器100、ISP 200、处理电路300和存储器400发送控制信号、数据和地址,或从它们接收控制信号、数据和地址。
包括图像传感器100、ISP 200、处理电路300、存储器400和第一总线BUS1的电子设备10可以被实现为片上系统(SoC)。SoC是包括驱动电子设备10所需的多个硬件模块的单个半导体芯片。在示例实施例中,SoC可以将执行硬件模块的各个功能所需的应用与嵌入式软件的组合集成到单个芯片上。应用(或程序)可以是用于实现特定目的的应用软件。根据示例实施例,可以使用至少一个功能来执行应用。可以通过运行源代码来构建应用。与单独生产各种功能元件相比,使用SoC可以减少在基板上安装组件所需的空间,从而实现产品的小型化,并降低制造成本。
根据示例实施例,电子设备10可以基于从第一光电转换元件L和第二光电转换元件R中的任一个输出的图像信号来检测OOI。根据示例实施例,相机模块50可以通过使用双像素101将包括目标对象的场景作为整体进行感测,并且存储器400可以存储由第一光电转换元件L感测然后由ISP 200校正的第一图像数据IDATL,以及由第二光电转换元件R感测然后由ISP 200校正的第二图像数据IDATR。处理电路300可以通过使用存储在存储器400中的立体图像数据SIDAT中的任一个(例如,第一图像数据IDATL)来检测场景中包括的OOI。因此,根据示例实施例,电子设备10可以针对整个场景仅使用一条图像数据而不是立体图像数据SIDAT,从而减少数据处理量。
根据示例实施例,电子设备10可以仅感测ROI从而减少深度估计所需的数据处理量。因此,可以降低电子设备10的功耗,并且可以提高数据处理速度。
此外,根据示例实施例,电子设备10可以允许人工神经网络仅学习YUV数据中的亮度数据,从而减少存储器使用和功耗并且即使在低光环境下也能提高深度估计的准确性。
图2是图1中的图像传感器100的详细框图。
图像传感器100可以安装在具有图像或光感测功能的电子设备上。例如,图像传感器100可以安装在诸如以下项的电子设备上:相机、智能电话、可穿戴设备、IOT设备、家用电器、平板PC、PDA、PMP、多媒体播放器、导航设备、无人机、高级驾驶员辅助系统(ADAS)等。此外,图像传感器100可以安装在作为车辆、家具、制造设备、门、各种测量仪器等中的部件提供的电子设备中。
参考图2,图像传感器100可以包括透镜LS、像素阵列110、行译码器120、控制逻辑130、斜坡发生器140和读出电路150。应当理解,图像传感器100还可以包括时钟信号发生器、信号处理器、列译码器和/或存储器。
图像传感器100可以将经由光学设备接收到的来自对象的光信号转换成电信号,并且基于电信号生成图像数据IDAT。光学设备可以是包括反射镜和透镜LS的光学聚光设备。例如,图像传感器100可以使用如下光学设备:该光学设备被配置为通过使用诸如光的色散或折射的光学特性来会聚从对象反射的光的各种路径或改变光传播的路径。在示例实施例中,为了便于描述,假设使用透镜LS,但实施例不限于此,并且可以使用如上所述的各种光学设备。
像素阵列110可以是将光信号转换成电信号的CMOS图像传感器(CIS)。通过透镜LS的光信号可以到达像素阵列110的光接收表面以形成对象的图像。像素阵列110可以根据控制逻辑130的控制来调整光信号的灵敏度。
像素阵列110可以连接到将信号传输到以矩阵形式布置的多个像素的多条行线RLs和多条列线CLs。例如,行线RLs中的每条行线可以分别将从行译码器120输出的控制信号传输到相应像素中包括的晶体管,列线CLs中的每条列线可以将与像素阵列110中的每一列相对应的像素的像素信号传输到读出电路150。列线CLs中的每条列线可以沿列方向延伸,并将同一列中的像素连接到读出电路150。
像素阵列110中的多个像素中的每一个可以包括至少一个光电转换元件和至少一个晶体管。例如,像素阵列110可以利用诸如CCD或CMOS的光电转换元件(或光敏元件)或各种其他类型的光电转换元件来实现。根据示例实施例,光电转换元件可以感测光并将感测到的光转换成光电荷。例如,光电转换元件可以是由有机或无机材料构成的感光元件,例如,无机PD、有机PD、钙钛矿PD、光电晶体管、光电门或钉扎PD。在示例实施例中,晶体管可以转移存储在光电转换元件中的电荷,将电压重置为电源电压,或者将电荷转换为电信号。
微透镜和滤色器可以堆叠在每个像素上,并且与像素对应的多个滤色器可以构成滤色器阵列。滤色器可以透射通过微透镜入射的多条光中的特定颜色的光,即,特定颜色区域中的波长。可以根据像素中设置的滤色器来确定在像素处可检测的颜色。然而,实施例不限于此,并且在示例实施例中,设置在像素中的光电转换元件可以根据施加的电信号的电平(例如,电压电平)将与颜色区域中的波长相对应的光转换为电信号,因此可以根据施加到光电转换元件的电信号的电平来确定在像素处可检测的颜色。
在示例实施例中,像素阵列110中的每个像素可以包括微透镜和平行布置在微透镜下方的至少一个光电转换元件。每个像素可以通过使用至少一个双像素101来感测对象。在示例实施例中,双像素101可以包括:位于微透镜的光轴的左方向(或向上方向)的至少一个第一光电转换元件L,以及位于微透镜的光轴的右方向(或向下方向)的至少一个第二光电转换元件R。另外,像素可以输出总和图像信号,其作为分别在第一光电转换元件L和第二光电转换元件R中生成的图像信号的总和。
多个像素可以包括诸如红色像素、绿色像素和蓝色像素的彩色像素。彩色像素可以基于穿过不同滤色器的光生成包括相应颜色信息的图像信号。在示例实施例中,用于生成不同颜色信息的滤色器、或者用于生成包括不同颜色信息的图像信号的彩色像素或彩色像素集被称为颜色通道。例如,红色通道可以指红色滤色器本身或作为处理透射穿过红色滤色器的光的像素的红色像素,蓝色通道可以指蓝色滤色器本身或处理透射穿过蓝色滤色器的光的蓝色像素,绿色通道可以指绿色滤色器本身或处理透射穿过绿色滤色器的光的绿色像素。尽管在示例实施例中使用红色、绿色和蓝色,但是多个像素可以包括以不同颜色组合的像素,例如,黄色像素、青色像素和白色像素。
红色像素可以响应于可见光谱的红色区域中的波长生成与红色信号对应的图像信号(或电荷)。绿色像素可以响应于可见光谱的绿色区域中的波长生成与绿色信号对应的图像信号(或电荷)。蓝色像素可以响应于可见光谱的蓝色区域中的波长生成与蓝色信号对应的图像信号(或电荷)。然而,实施例不限于此,多个像素还可以包括白色像素。作为另一示例,多个像素可以包括青色像素、黄色像素、品红色像素或白色像素。
行译码器120可以根据控制逻辑130的控制(行控制信号CTR_X)生成用于驱动像素阵列110的控制信号,并经由行线RLs逐行驱动像素阵列110中的多个像素。行线RLs中的每条行线可以在行方向上延伸并且可以连接到布置在同一行中的像素。
在示例实施例中,行译码器120可以控制像素阵列110中的多个像素同时或逐行地检测入射光。此外,行译码器120可以逐行地从多个像素中选择像素,将重置信号提供给所选择的像素(例如,一行像素)以重置像素,并控制由所选择的像素生成的要经由列线CLs输出的感测电压。
控制逻辑130可以提供用于控制行译码器120、斜坡发生器140和读出电路150的定时的控制信号。例如,控制逻辑130可以向行译码器120提供行控制信号CTR_X,并且行译码器120可以基于行控制信号CTR_X经由行线RLs针对每一行感测像素阵列110。例如,控制逻辑130可以向斜坡发生器140提供用于控制斜坡信号RMP的斜坡控制信号CTR_R,并且斜坡发生器140可以基于斜坡控制信号CTR_R生成用于读出电路150的操作的斜坡信号RMP。例如,控制逻辑130可以向读出电路150提供列控制信号CTR_Y,并且读出电路150可以基于列控制信号CTR_Y经由列线CLs从像素阵列110接收像素信号并进行处理。
根据示例实施例,控制逻辑130可以基于模式信号MODE控制图像传感器100的所有操作。根据示例实施例,电子设备10可以根据多种操作模式感测和处理对象。
例如,电子设备10可以支持使用双像素101生成立体图像数据(图1的SIDAT)的第一模式作为操作模式。
此外,电子设备10可以支持第二模式,在第二模式下,不是使用双像素101而是基于来自设置在单个像素中的一个光电转换元件的图像信号来生成单个图像数据,或者使用双像素101生成图像数据,即,通过对来自双像素101中包括的多个光电转换元件的图像信号求和来生成图像数据。第二模式是不检测视差的模式,并且也可以被称为像素共享浮置扩散(FD)节点的FD共享模式。
此外,电子设备10可以支持第三模式,在第三模式下,除了基于来自一个光电转换元件的图像信号生成单个图像数据之外,还生成从双像素101感测到的立体亮度数据。这里,立体亮度数据可以包括由双像素101中的第一光电转换元件L生成的第一亮度数据和由双像素101中的第二光电转换元件R生成的第二亮度数据。
为了根据控制逻辑130的控制在第一模式至第三模式下进行操作,图像传感器100可以选择性地使用双像素101来感测对象,将由至少两个光电转换元件感测的图像信号进行求和,通过处理感测数据来感测亮度数据,或生成亮度数据以及总和图像信号。
在示例实施例中,控制逻辑130可以从AP接收模式信号MODE并控制行控制信号CTR_X、列控制信号CTR_Y和斜坡控制信号CTR_R,使得像素阵列110中的多个像素中的每个像素独立地输出像素信号,像素阵列110可以基于行控制信号CTR_X和列控制信号CTR_Y输出多个像素信号,读出电路150可以基于斜坡信号RMP对像素信号进行采样和处理。例如,AP可以提供根据各种场景(例如,成像环境的照度、用户的分辨率设置、感测或学习状态等)确定图像传感器100的成像模式的结果作为模式信号MODE。
控制逻辑130还可以接收裁剪信号CROP并将裁剪信号CROP提供给感测对应于或包括OOI的区域的图像传感器100。例如,图像传感器100可以调整透镜LS的焦距或者行控制信号CTR_X和列控制信号CTR_Y以仅感测与场景中的ROI对应的区域。在示例实施例中,图像传感器100可以基于裁剪信号CROP仅感测ROI,从而因相对少量的数据处理而提高处理速度并降低功耗,同时保持先前的高分辨率。
控制逻辑130可以被实现为诸如以下的处理电路:包括逻辑电路的硬件、或者硬件和软件的组合(例如,运行用于执行压缩操作的软件的处理器)。特别地,控制逻辑130可以被实现为图像传感器100中包括的CPU、执行算术和逻辑运算、位移等的算术逻辑单元(ALU)、DSP、微处理器、ASIC、控制逻辑等,但不限于此,辅助人工神经网络等或使用人工神经网络本身、NPU等的加速器还可以作为控制逻辑130被使用。
斜坡发生器140可以生成以特定斜率逐渐增大或减小的斜坡信号RMP,并将斜坡信号RMP提供给读出电路150。
读出电路150可以经由列线CLs接收从像素阵列110输出的像素信号,处理像素信号,并且输出所得到的信号作为输出数据ODAT。读出电路150可以包括相关双采样(CDS)电路151、模数转换(ADC)电路153和缓冲器155。
CDS电路151可以包括多个比较器,并且将经由列线CLs从像素阵列110接收到的每个像素信号与来自斜坡发生器140的斜坡信号RMP进行比较。比较器可以将接收到的像素信号与缓冲的斜坡信号RMP进行比较,并将比较结果输出为逻辑低或逻辑高。例如,当斜坡信号RAMP的电平等于像素信号的电平时,比较器可以输出从第一电平(例如,逻辑高)转变为第二电平(例如,逻辑低)的比较信号,并且比较信号的电平转变的时间点可以根据像素信号的电平来确定。
从多个像素输出的多个像素信号可以具有由于每个像素的独特特性(例如,固定模式噪声(FPN)等)而导致的偏移,和/或具有由于用于从相应像素输出像素信号的逻辑元件(例如,用于输出存储在像素中的光电转换元件中的电荷的晶体管)的特性差异而导致的偏移。为了补偿经由列线CLs输出的像素信号之间的这种偏移,使用了被称为相关双采样(CDS)的技术。CDS技术表示获取重置电压(或重置分量)和感测电压(或感测分量),并提取重置电压与感测电压之间的差(例如,电压差)作为有效信号分量。比较器可以输出应用了CDS技术的比较结果,例如,比较输出。最终,CDS电路151可以生成应用了CDS技术的比较结果。
ADC电路153可以将来自CDS电路151的比较结果转换成数字数据,从而逐行地生成和输出与多个像素相对应的像素值。ADC电路153可以包括多个计数器。计数器可以连接到比较器的各个输出,并对分别从比较器输出的比较结果进行计数。每个计数器可以在感测重置信号的重置转换间隔和感测感测信号的图像转换间隔期间,基于计数时钟信号对从相应比较器输出的逻辑高或逻辑低的比较结果进行计数,并根据计数结果输出数字数据(例如,像素值)。每个计数器可以包括锁存电路和算术电路。锁存电路可以在从比较器接收到的比较信号的电平转变的时间点锁存随着计数时钟信号接收的代码值。锁存电路可以锁存对应于重置信号的代码值(例如,重置值),以及对应于图像信号的代码值(例如,图像信号值)。算术电路可以对重置值和图像信号值执行算术运算,以生成从中去除了像素的重置电平的图像信号值。计数器可以输出从中去除了重置电平的图像信号值作为像素值。然而,实施例不限于此,并且计数器可以被实现为基于计数时钟信号和算术电路顺序地增加计数值的递增计数器、递增/递减计数器、或逐位反转计数器。
缓冲器155可以存储从ADC电路153输出的像素值。缓冲器155可以针对每一行存储多条数字数据(例如,像素值)。在示例实施例中,缓冲器155可以临时存储和放大从计数器输出的多条数字数据,然后输出放大后的多条数字数据。换言之,缓冲器155可以是输出缓冲器。缓冲器155可以临时存储分别从计数器输出的多条数字数据,并且顺序地或选择性地将多条数字数据输出到读出大器,并且感测放大器可以放大并输出接收到的多条数字数据。缓冲器155可以基于来自用于根据控制逻辑130的控制选择列的列译码器的列控制信号CTR_Y,来输出放大后的图像数据IDAT作为输出数据ODAT。
缓冲器155可以实现为SRAM、锁存器、触发器或它们的组合,但不限于此。在示例实施例中,缓冲器155可以作为存储器被包括在ADC电路153中。
在示例实施例中,图像传感器100可以支持自动对焦(以下简称为AF)功能,并且使用相位检测AF技术进行AF。相位检测AF是通过检测在图像传感器100上形成的图像中的相位视差来调整焦点的方法。在相位检测AF中,在前聚焦和后聚焦的情况下相位差增大。在相位检测AF中,因为可以基于检测到的相位视差获得相位差值和关于实现对焦的方向的信息,所以通过仅移动一次聚焦透镜来实现聚焦。例如,图像传感器100可以基于相位差值和关于方向的信息预先计算透镜移动的值,并且通过基于透镜移动的值驱动一次聚焦透镜来执行聚焦。因此,使用相位检测AF的图像传感器100能够在电子取景器的显示器上快速对焦而不会模糊。
图3A是示出像素101a的结构的示图,图3B和图3C是示出根据示例实施例的双像素101b的结构的示图。将省略关于图3A至图3C的重复描述。
参考图3A,像素101a可以包括微透镜、光电转换元件和滤色器。例如,多个像素PX1和PX2中的像素PX1可以包括作为光电转换元件的PD PD1、滤色器CF1和位于滤色器CF1上方的微透镜ML1。像素PX2可以包括PD PD2、滤色器CF2和位于滤色器CF2上方的微透镜ML2。根据示例实施例,微透镜ML1或ML2的垂直截面可以具有圆曲率的弧形形状或者可以是椭圆的一部分。
根据图3A所示的示例实施例,滤色器CF1或CF2和微透镜ML1或ML2可以布置在PDPD1或PD2上方。例如,入射在微透镜ML1中心的光可以穿过滤色器CF1,使得只有特定波长范围内(例如,对应于绿色的500纳米(nm)至600nm的波长)的光被透射,并且特定波长范围内的透射光可以成像在PD PD1上。类似地,入射在微透镜ML2中心的光可以穿过滤色器CF2,使得只有具有特定波长的光被透射,并且具有特定波长的透射光可以成像在PD PD2上。如图3A所示,当入射在一个微透镜(即,微透镜ML1或ML2)上的光成像在一个PD(即,PD1或PD2)上时,其可以被称为单PD。图像传感器(图1的100)可以通过使用像素101a计算由PD PD1与PDPD2之间的相位差引起的视差来确定到对象的距离。
参考图3B,双像素101b可以各自包括微透镜、光电转换元件和滤色器。例如,双像素PXx可以包括两个滤色器CFa和CFb以及分别对应于两个滤色器CFa和CFb的第一PD PDa和第二PD PDb。类似地,双像素PXy可以包括两个滤色器CFc和CFd以及分别对应于两个滤色器CFc和CFd的第三光电二极管PDc和第四光电二极管PDd。
根据图3B所示的示例实施例,两个滤色器CFa和CFb以及第一PD PDa和第二PD PDb可以设置在一个微透镜MLx下方。例如,作为在微透镜MLx中心处的入射光的一部分的第一光束LFx可以穿过滤色器CFa并且成像在第一PD PDa上,而作为入射光的其余部分的第二光束LFy可以穿过滤色器CFb并且成像在第二PD PDb上。在双像素PXy中可以出现与双像素PXx中出现的现象类似的现象。如图3B所示,当入射在一个微透镜(即,微透镜MLx或MLy)上的光成像在两个PD(即,第一PD PDa和第二PD PDb,或者第三PD PDc和第四PD PDd))上时,其可以被称为双PD或双像素(图1的101)。
图3C是图3B的双像素PXx的俯视图。参考图3C,双像素PXx可以包括微透镜MLx和两个子像素(例如,第一子像素SPXa和第二子像素SPXb)。第一子像素SPXa和第二子像素SPXb可以在列方向例如Y轴方向(第二方向)上并排布置。例如,第一子像素SPXa可以位于双像素PXx的左侧,第二子像素SPXb可以位于双像素PXx的右侧。第一子像素SPXa和第二子像素SPXb可以分别包括第一PD PDa和第二PD PDb。
根据示例实施例,感测信号可以在第一PD PDa和第二PD PDb中生成。例如,第一图像信号和第二图像信号可以分别从第一子像素SPXa和第二子像素SPXb输出,并且可以通过基于第一图像信号和第二图像信号执行相位差运算来计算视差。
根据示例实施例,可以使用多个光电转换元件(例如,成对的第一PD PDa和第二PDPDb,或者成对的第三PD PDc和第四PD PDd)之一(例如,双像素101中包括的第一PD PDa和第二PD PDb之一,或者第三PD PDc和第四PD PDd之一)来检测OOI。根据示例实施例,处理电路(图1的300)可以生成指示感测包括OOI的ROI的裁剪信号(图2的CROP),并将裁剪信号CROP提供给图像传感器(图1的100),并且图像传感器100可以基于裁剪信号CROP仅感测ROI,从而因相对少量的数据处理而提高处理速度并降低功耗,同时保持先前高分辨率。
图4A和图4B是示出根据示例实施例的由不同类型的相机捕获的相同场景的视差差异的示图。
图4A示出了由不同图像传感器中包括的不同光电转换元件(即,第五光电转换元件121和第六光电转换元件123)感测的场景。
根据示例实施例,第五光电转换元件121和第六光电转换元件123可以各自感测场景中包括的多个对象当中的作为OOI的兔子。第五光电转换元件121可以感测包括兔子的右耳和左耳的区域。此外,第六光电转换元件123可以仅感测仅包括兔子的身体而不包括兔子的耳朵的区域。因为作为第五光电转换元件121与第六光电转换元件123之间的距离的基线比第一距离distance1长,所以第五光电转换元件121与第六光电转换元件123可以具有较大的视差。
图4B示出了由包括在同一图像传感器中的双像素110感测的场景。双像素101可以感测场景中包括的多个对象当中的作为OOI的兔子,但与图4A中不同,双像素101可以感测与包括兔子的身体和耳朵的整个OOI基本接近或相似的场景区域。因为作为光电转换元件L和R之间的距离的基线是比第一距离distance1短的第二距离distance2,所以包括在同一图像传感器中的双像素110可以具有相对小的视差。因此,使用双像素110的图像传感器100或包括图像传感器100的电子设备10可能难以准确地估计深度信息。为了克服这个问题,示例实施例提供了一种电子设备10及其操作方法,其由于通过仅感测ROI而进行相对少量的数据处理,从而能够提高处理速度并降低功耗,同时保持先前的高分辨率。
图5是根据示例实施例的ISP 200的详细框图。
参考图5,ISP 200可以包括D-物理层(DPHY)210、ISP接口ISP I/F 230、图像前端引擎(IFE)250和图像处理引擎(IPE)270。
DPHY 210是用于图像传感器100与显示器之间的接口的物理层,并且是由移动工业处理器接口(MIPI)联盟建立的标准化接口。DPHY 210可以向ISP 200发送输出数据ODAT。输出数据ODAT可以包括双像素(图1的101)中生成的立体输出数据SODAT。输出数据ODAT可以从图像传感器100提供给ISP 200。在这种情况下,ISP 200可以被称为相机子系统,并且特别地,可以符合由MIPI联盟定义的相机串行接口2(MIPI-CSI-2)。
ISP I/F 230可以路由来自多个CSI解码器的数据流。ISP I/F 230可以将经由DPHY 210提供的原始数据RDAT路由到IFE 250。
IFE 250可以接收原始数据RDAT并输出预YUV(pre-YUV)数据pYUV。根据示例实施例,IFE 250可以执行图像处理操作,例如,收集与自动曝光(AE)噪声、AF噪声和自动白平衡(AWB)噪声有关的统计数据。此外,IFE 250可以执行各种图像处理操作,例如,缺陷像素校正、偏移校正、透镜失真校正、颜色增益校正、绿色不平衡校正等。
IPE 270可以包括CPU、微处理器或微控制器单元(MCU)。IPE 270可以对输入数据执行图像后处理。后处理可以指用于基于感测到的图像数据减少错误和失真的一系列后续处理操作。由IPE 270执行的后处理可以指示将图像增强算法应用于图像伪影。
在示例实施例中,由IPE 270处理的数据可以作为图像数据IDAT存储在存储器400中。例如,通过改变预YUV数据pYUV的数据格式而获得的亮度数据YDAT和多条色度数据UDAT和VDATA可以存储在存储器400中。另外,经过图像处理的帧(在下文中,称为转换图像数据)和/或通过执行图像处理生成的结果数据(统计数据、直方图等)可以进一步存储在存储器400中。当由双像素101生成立体输出数据SODAT时,IPE 270可以将立体图像数据SIDAT存储在存储器400中。
图6A是用于描述具有拜耳模式的输出数据转换为YUV格式的示图,图6B至图6E是示出符合YUV格式的图像数据的结构图。
参考图6A,彩色像素CP可以包括红色(R)、绿色(G)和蓝色(B)通道RGB 3CH。在示例实施例中,彩色像素CP可以通过拜耳模式滤色器感测对象。ISP 200可以通过颜色空间转换将R、G和B通道RGB 3CH转换为Y、U和V通道YUV 3CH。在这种情况下,亮度数据YDAT是与表示亮度信号的通道相对应的数据。色度数据U UDAT是表示亮度信号与蓝色分量之差的通道,也称为蓝色差色度(Cb)通道。色度数据V VDAT是表示亮度信号与红色分量之差的通道,也称为红色差色度(Cr)通道。电子设备10可以将作为Y、U和V通道YUV 3CH当中的Y通道的数据的亮度数据YDAT输入到人工神经网络。
图6B至图6E是示出符合YUV格式的图像数据IDAT的结构图。为了显示彩色图像,可以通过将每个像素的亮度(LUMA)分量与色度(CHROMA)分量分开,来存储YUV格式的图像数据。YUV格式也称为YCbCr格式。为方便描述,图6B至图6E示出了YCbCr格式的数据结构。
图6B示出了YCbCr的采样率为4:4:4的数据结构。YCbCr 4:4:4可以指示蓝色差色度分量Cb和红色差色度分量Cr中的任一者与亮度分量Y的比率是4:4:4。当沿垂直方向从亮度分量Y读取数据结构,并且在每行为亮度分量Y提供4个数据空间时,对于蓝色差色度分量Cb和红色差色度分量Cr中的每一者,色度分量均具有4个数据空间。
图6C示出了YCbCr的采样率为4:2:2的数据结构。当沿垂直方向从亮度分量Y读取数据结构时,在每行为亮度分量Y保留4个数据空间的情况下,为蓝色差色度分量Cb和红色差色度分量Cr各提供2个数据空间。例如,YCbCr 4:2:2可以指示蓝色差色度分量Cb和红色差色度分量Cr中的任一者与亮度分量Y的比率是4:2:2。
图6D示出了YCbCr的采样率为4:1:1的数据结构。当沿垂直方向从亮度分量Y读取数据结构时,在每行为亮度分量Y保留4个数据空间的情况下,为蓝色差色度分量Cb和红色差色度分量Cr各提供1个数据空间。例如,YCbCr 4:1:1可以指示蓝色差色度分量Cb和红色差色度分量Cr中的任一者与亮度分量Y的比率是4:1:1。
图6E示出了YCbCr的采样率为4:2:0的数据结构。当沿垂直方向从亮度分量Y读取数据结构时,在每行为亮度分量Y保留4个数据空间的情况下,仅为蓝色差色度分量Cb(或红色差色度分量Cr)提供1个数据空间。例如,YCbCr 4:2:0可以指示红色差色度分量Cr(或蓝色差色度分量Cb)与亮度分量Y的比率为4:2:0,或者蓝色差色度分量Cb(或红色差色度分量Cr)与亮度分量Y的比率为4:2:0。
根据示例实施例,图像信号处理器(图5的200)可以根据关于图像数据IDAT的YCbCr 4:2:0格式生成YUV数据。YCbCr 4:2:0对于便携式电子设备中的数据处理、存储和/或显示可以是有效的。然而,图像数据IDAT不限于此,并且可以具有如上所述的各种YCbCr数据结构。
图7是根据示例实施例的处理电路300的框图。现在参考图1和图7描述处理电路300的配置和操作,下面将省略已经针对图1提供的描述。
参考图7,处理电路300可以包括缩放器(resizer)310、对象检测器330、ROI选择器350、深度估计器370和RGB转换器390,并且深度估计器370可以包括视差特征提取器(DFE)371和视差网络(D.NET)模块373,或者可以选择性地进一步包括场景网络(S.NET)模块375。
缩放器310可以调整图像数据IDAT的大小或分辨率。在示例实施例中,缩放器310可以减小图像数据IDAT的大小。在示例实施例中,缩放器310可以降低图像数据IDAT的分辨率。作为缩放器310调整图像数据IDAT的大小或分辨率的结果,可以减少对象检测所需的数据处理量。因此,可以提高数据处理速度,并且可以节省数据处理所需的电力。
对象检测器330可以将包括目标对象的场景作为整体进行感测,并且检测场景中包括的至少一个对象中的每一个对象。对象检测器330可以利用计算机视觉领域中的对象检测方法。例如,对象检测器330可以通过使用边界框来识别场景中的对象,并通过使用手工的基于特征的对象检测(其使用每个对象的标记的地面实况信息将对象进行单独分类)、或者基于AI的对象检测方法(其利用为对象检测而设计的人工神经网络)来检测对象。对象检测器330可以检测至少一个对象中的OOI。
ROI选择器350可以确定包括OOI的ROI。根据示例实施例,ROI选择器350可以识别与在场景中检测到的OOI对应的区域并且选择包括OOI的ROI。例如,ROI可以大于在其中检测到OOI的边界框。
深度估计器370可以包括DFE 371、S.NET模块375和D.NET模块373。
一对图像数据可以被输入到DFE 371,结果可以生成包括特征的一条输出数据。在示例实施例中,DFE 371可以经由人工神经网络从输入图像提取特征,例如,边界、线条、颜色、边缘(对象的边界)、密度(包括密集和稀疏)、深度等。在示例实施例中,密集图像将被称为有纹理图像,而稀疏图像将被称为无纹理图像。有纹理图像和无纹理图像可以分别对应于高频和低频。
DFE 371可以通过使用人工神经网络预先学习图像的密度。例如,DFE371可以通过使用人工神经网络预先学习密集图像(即,有纹理图像),并且可以根据学习的结果来提高诸如对输入数据的边缘检测的性能。
根据示例实施例,DFE 371可以估计具有视差的输入数据对的绝对深度。例如,作为从输入数据对提取特征的结果,DFE 371可以生成绝对深度数据。
根据示例实施例,可以通过将亮度数据YDAT输入到DFE 371来估计亮度数据YDAT的绝对深度。
一条数据可以被输入到D.NET模块373,结果可以生成包括特征的一条输出数据。D.NET模块373可以通过使用人工神经网络来融合(fuse)相对深度数据和绝对深度数据。作为通过融合相对深度数据和绝对深度数据生成最终深度数据的人工神经网络的D.NET可以包括激活层和多个卷积层,激活层包括至少一个修正线性单元(ReLU)函数。例如,D.NET可以包括五级,每级具有一个卷积层和一个激活层。
根据示例实施例,D.NET模块373可以通过使用D.NET来融合相对深度数据和绝对深度数据。例如,D.NET模块373可以接收从DFE 371输出的绝对深度数据和从S.NET模块375输出的相对深度数据,并且作为D.NET处理的结果生成最终深度数据。最终深度数据可以通过后处理层的处理转换为深度信息。
一条数据可以被输入到S.NET模块375,结果可以生成包括特征的一条输出数据。S.NET模块375可以使用被配置为学习场景的所有特征的人工神经网络来处理输入图像。S.NET作为一种学习场景的所有特征的人工神经网络可以利用金字塔结构来实现。根据示例实施例,S.NET模块375可以在逐渐降低场景分辨率的同时对与图像数据相对应的场景执行编码,并且在将分辨率逐渐提高回原始分辨率的同时对场景执行解码。例如,S.NET可以具有5至6个编码和解码级。作为在逐渐降低分辨率的同时执行编码的结果,S.NET可以学习代表场景的所有分辨率的特征。例如,S.NET模块375使用的人工神经网络模型可以是PyDNet,但实施例不限于特定模型或实现示例。
根据示例实施例,S.NET模块375可以通过使用S.NET来估计输入图像的相对深度。根据示例实施例,相对深度是从相机模块到感兴趣对象的距离,并且与从相机模块到另一对象的距离相关。例如,S.NET模块375可以接收从DFE 371输出的绝对深度数据,并且随着经由S.NET对绝对深度数据进行处理而生成相对深度数据。S.NET模块375可以通过估计稀疏图像(即,无纹理图像)的相对深度,即使对于具有相对小视差的图像数据也可以获得相对准确的深度。
在示例实施例中,DFE 371、S.NET模块375和D.NET模块373可以通过硬件、固件和/或软件的组合来实现。例如,DFE 371、S.NET模块375和D.NET模块373均可以实现为诸如以下的处理电路:包括逻辑电路的硬件,或者硬件和软件的组合(例如,运行用于执行人工神经网络的处理操作的软件的处理器)。
根据示例实施例,与即使在亮度数据YDAT已经经过人工神经网络处理之后,亮度数据YDAT对于低光环境也可以比RGB格式的图像数据更具有鲁棒性。根据示例实施例,当处理电路300使用亮度数据YDAT作为输入时,作为经由处理电路300使用的至少一个人工神经网络处理的结果的深度估计结果可以比使用RGB格式的图像数据时更准确。
对象检测器330、ROI选择器350和深度估计器370均可以实现为诸如以下的处理电路:包括逻辑电路的硬件,或者硬件和软件的组合(例如,运行用于执行对象检测、ROI选择、深度估计等的软件)。特别地,对象检测器330、ROI选择器350和深度估计器370均可以被实现为CPU、执行算术和逻辑运算、位移位等的ALU、DSP、微处理器、用于驱动人工神经网络的神经处理单元(NPU)、ASIC等,但不限于此。
RGB转换器390可以将符合YUV格式的图像数据IDAT转换为RGB格式。与在显示设备上显示图像数据所需的YUV格式不同,RGB格式会需要向用户直观地呈现图像数据。在示例实施例中,RGB转换器390可以将图像数据IDAT转换为用户可访问的视觉信息,并且视觉信息中还可以包括深度信息以提供关于对象的更多样的信息。
图8是根据示例实施例的处理电路301的框图。
参考图8,处理电路301可以基于存储在存储器400中的图像数据IDAT生成裁剪信号CROP,并将裁剪信号CROP提供给图像传感器100。详细地,作为减小图像数据IDAT的大小或分辨率的结果,缩放器310可以生成缩放图像数据rIDAT。
对象检测器330可以检测缩放图像数据rIDAT中的至少一个对象,检测OOI作为使用例如手工的基于特征的对象检测或者基于AI的对象检测来检测对象的结果,并且生成OOI的对象信息iOBJ。
ROI选择器350可以基于对象信息iOBJ确定包括OOI的ROI。根据示例实施例,ROI选择器350可以选择场景中的包括检测到的OOI的ROI,并且生成对应于ROI的裁剪信号CROP。
根据示例实施例,尽管其基线距离相对小,但包括双像素101的电子设备10能够基于裁剪信号CROP捕获具有相对小尺寸的对象的图像,同时保持高分辨率。因此,电子设备10能够满足与具有小视差的图像数据的深度估计相关的高分辨率要求。
图9A和图9B是根据示例实施例的处理电路303a和303b的框图。
参考图9A,处理电路303a可以通过处理裁剪图像数据cIDAT生成深度信息iDEPTHa,并根据处理结果产生用于改变电子设备10的操作模式的模式信号MODE。根据示例实施例,裁剪图像数据cIDAT可以是由图像传感器(图1的100)响应于裁剪信号(图2的CROP)而直接生成的,直接从处理和校正输出数据(图2的ODAT)的图像信号处理器(图1的200)提供的,或者是从存储器400加载的。处理电路303a可以包括DFE 371、D.NET模块373和后处理层377。
可以通过将裁剪图像数据cIDAT输入到DFE 371来生成绝对深度数据ADa。D.NET模块373支持的D.NET可以包括激活层和多个卷积层,激活层包括至少一个ReLU函数,并且D.NET模块373支持的D.NET可以通过处理绝对深度数据生成最终深度数据FDa。后处理层377可以将最终深度数据FDa处理成深度信息iDEPTHa。
根据示例实施例,与使用RGB格式的图像数据相比,处理电路303a可以通过仅使用裁剪图像数据cIDAT当中的亮度数据YDATAa来生成对低光环境更具有鲁棒性的深度信息。
此外,根据示例实施例,处理电路303a可以允许人工神经网络仅学习YUV数据当中的亮度数据YDATAa,例如,亮度数据(图6A的YDAT),和色度数据(图6A的UDAT和VDAT),从而减少存储器的使用和功耗。
参考图9B,处理电路303b可以通过处理裁剪图像数据cIDAT生成深度信息iDEPTHb。根据示例实施例,处理电路303b可以包括DFE 371、S.NET模块375、D.NET模块373和后处理层377。
作为通过将裁剪图像数据cIDAT输入到DFE 371来估计裁剪图像数据cIDAT的绝对深度的结果,可以生成绝对深度数据ADb。S.NET模块375可以通过使用S.NET针对绝对深度数据Adb估计相对深度。针对绝对深度数据Adb估计相对深度的结果可以输出为相对深度数据SDb。D.NET模块373支持的D.NET可以通过融合绝对深度数据ADb和相对深度数据SDb来生成最终深度数据FDb。后处理层377可以将最终深度数据FDb处理为深度信息iDEPTHb。
根据示例实施例,处理电路303b可以通过额外使用S.NET来提高深度估计的准确度。此外,根据示例实施例,即使对于具有小视差的数据,例如,由双像素(图1的101)生成的立体图像数据(图1的SIDAT),处理电路303b也可以处理与ROI而不是整个场景相对应的裁剪图像数据cIDAT。因此,根据示例实施例,电子设备10可以减少深度估计所需的数据处理量,从而降低功耗并提高数据处理速度。
根据示例实施例,处理电路303a或303b可以经由另一处理电路处理人工神经网络的一部分,从而实现分布式数据处理并实现对需要处理大尺寸数据或数据处理时间长的任务的分布式/并行处理。
图10A至图10C是用于描述人工神经网络NN1、NN2和NN3的结构和操作的示图。
参考图10A,人工神经网络NN1可以是卷积神经网络(CNN),但不限于此。虽然为了描述方便图10A示出了人工神经网络NN1包括两个隐藏层,但人工神经网络NN1不限于此,而是可以包括不同数目的隐藏层。此外,虽然图10A示出了人工神经网络NN1包括用于接收输入数据的单独输入层,但是根据实施例,输入数据可以直接输入到隐藏层。
在人工神经网络NNl中,除了输出层之外的层中的节点可以经由用于传输输出信号的链路(link)连接到下一层中的节点。通过将包括在前一层中的节点的值乘以分别分配给链路的相关权重而获得的值可以经由链路输入到每个节点。来自前一层的节点值可以对应于轴突值,权重可以对应于突触权重。权重可以称为人工神经网络NN1的参数。
可以应用激活函数来将特征图中的值转换成关于特征存在或不存在的非线性信息。例如,激活函数可以包括sigmoid函数、tanh(双曲正切)函数、修正线性单元(ReLU)函数等,并将非线性引入人工神经网络NN1。
人工神经网络NN1中包括的任一节点处的输出可以由下面的式1定义。
[式1]
Figure BDA0003643478940000261
式1可以针对来自任意层的m个输入值定义第i个节点处的输出值yi。xj可以表示前一层中第j节点处的输出值,wj,i可以表示应用于前一层中第j节点与当前层中第i节点之间的连接的权重。f()可以代表激活函数。如式1所示,对输入值xj和权重wj,i的乘积进行累加的结果可以用于激活函数。例如,可以在每个节点处执行如下乘法-累加(MAC)运算:将输入值xj乘以权重wj,i并且对乘法结果求和的运算。除了计算激活函数的累加结果外,在各种应用领域中还会需要进行MAC运算,为此,可以使用能够在模拟电路域中处理MAC运算的处理设备。
参考图10B,人工神经网络NN2可以包括多个层,即,第一层L1至第n层Ln。第一层L1至第n层Ln均可以为线性层或非线性层,并且在示例实施例中,与至少一个非线性层组合的至少一个线性层也可以称为一层。例如,线性层可以包括卷积层和全连接层,非线性层可以包括池化层和激活层。
例如,第一层L1可以是卷积层,第二层L2可以是池化层,第n层Ln可以是作为输出层的全连接层。神经网络NN2还可以包括激活层或执行不同类型操作的层。
第一层L1至第n层Ln均可以接收输入数据(例如,图像帧)或在前一层中生成的特征图,作为输入特征图,并对输入特征图执行操作以生成输出特征图或识别信号REC。在这种情况下,特征图是指表示输入数据的各种特征的数据。第一特征图FM1至第n特征图FMn可以各自具有例如二维(2D)矩阵或三维(3D)矩阵(或张量)形式。第一特征图FM1至第n特征图FMn可以各自具有宽度W(或列)、高度H(或行)和深度D,它们分别对应于坐标系中的x轴、y轴和z轴。在这种情况下,深度D可以被称为通道数(CH)。
第一层Ll可以通过将第一特征图FMl与权重图WK进行卷积来生成第二特征图FM2。权重图WK可以对第一特征图FM1进行滤波(filter),也可以称为滤波器或核。权重图WK的深度(即,通道数)可以等于第一特征图FM1的深度(即,其中的通道数),权重图WK中的通道可以分别与第一特征图FM1中的对应通道进行卷积。权重图WK可以通过作为滑动窗口滑过第一特征图FM1来移位。权重图WM的移位量可以称为步幅长度或步幅。在每次移位时,权重图WK中包括的权重可以分别与第一特征图FM1重叠的区域内的所有单元数据相乘并相加。第一特征图FM1与权重图WK中包括的权重重叠的区域中的多条数据可以称为提取数据。由于第一特征图FM1与权重图WK卷积,所以可以生成第二特征图FM2的一个通道。虽然图10B示出了一个权重图WK,但是多个权重图WM实际上可以与第一特征图FM1卷积以生成第二特征图FM2的多个通道。例如,第二特征图FM2的通道数可以对应于权重图WM的数目。
第二层L2可以通过池化改变第二特征图FM2的空间大小来生成第三特征图FM3。池化可以称为采样或下采样。2D池化窗口PW可以在第二特征图FM2上以池化窗口PW的大小移位,并且第二特征图FM2的与池化窗口PW重叠的区域中的特征数据当中的最大值(或单元数据的平均值)可以被选择。因此,可以基于第二特征图FM2生成具有改变的空间尺寸的第三特征图FM3。第三特征图FM3的通道数等于第二特征图FM2的通道数。
第n层Ln可以组合第n特征图FMn中的特征以将输入数据分类为类别CL。此外,第n层Ln可以生成对应于类别CL的识别信号REC。在实施例中,输入数据可以对应于视频流中包括的帧数据,并且通过基于第n特征图FMn提取与包括在由帧数据表示的图像中的对象相对应的类别CL,第n层Ln可以识别对象并生成与识别出的对象相对应的识别信号REC。
参考图10C,输入特征图可以包括D个通道,并且每个通道的输入特征图的大小可以为H行W列(D、H和W是自然数)。每个内核的大小为R行S列,内核可以包括与输入特征图的通道数(或深度)D对应的通道数(R和S为自然数)。可以通过输入特征图与内核之间的3D卷积运算生成输出特征图,并且输出特征图可以根据3D卷积运算包括Y个通道。
图11A至图11D是示出根据示例实施例的网络结构的框图。将省略关于图11A至图11D的重复描述。
图11A是示出根据示例实施例的DFE 371的结构的框图。参考图11A,DFE 371可以包括多个级,并且每一级可以由一对卷积层CONV和激活层ACTV组成。激活层ACTV是应用了sigmoid函数、双曲正切(tanh)函数或ReLU函数的非线性层,以将特征的存在或不存在转换为非线性信息。
根据示例实施例,DFE 371可以从存储器400接收亮度数据YDAT并且将亮度数据YDAT输入到第一级的卷积层CONV以处理数据。作为结果,DFE 371可以生成绝对深度数据AD。绝对深度数据AD可以提供给S.NET模块375或D.NET模块373。
图11B是根据示例实施例的D.NET模块373的结构的框图。参考图11B,D.NET模块373可以包括多个级,每一级可以包括一对卷积层CONV和激活层ACTV。
根据示例实施例,D.NET模块373可以从DFE 371接收绝对深度数据AD和/或从S.NET模块375接收相对深度数据CD。
绝对深度数据AD或者与绝对深度数据AD组合的相对深度数据CD可以被馈送到第一级的卷积层CONV。作为结果,D.NET模块373可以生成最终深度数据FD。最终深度数据FD可以被发送到后处理层377。
图11C是根据示例实施例的S.NET模块375的结构的框图。参考图11C,在S.NET模块375中使用的S.NET可以包括输入层IL、输出层OL、编码层单元LUa和解码层单元LUb。S.NET可以接收绝对深度数据AD并通过使绝对深度数据AD通过输入层IL、编码层单元LUa、解码层单元LUb和输出层OL来针对绝对深度数据AD计算特征值。
S.NET可以包括彼此对称并以金字塔结构实现的多个编码器(编码层)和多个解码器(解码层)。例如,多个编码器可以串联连接以逐渐降低编码数据的分辨率,而多个解码器可以串联连接以逐渐增加解码数据的分辨率。
每个编码层单元可以接收从前一编码层单元输出的特征图,并在编码层单元LUa中执行分配给每个编码层(例如,第一编码层LUa1)的运算。例如,第一编码层LUa1可以接收特征图FMa0并且可以通过包括在第一编码层LUa1中的各个层来执行运算。例如,第一编码层LUa1可以包括卷积层、采样层和激活层。卷积层可以执行卷积运算。采样层可以执行下采样、上采样、平均池化或最大池化运算。激活层可以使用ReLU函数或sigmoid函数执行运算。第一编码层LUa1可以基于运算的结果输出特征图FMa1。
从第一编码层LUa1输出的特征图FMa1可以具有比输入特征图FMa0更小的宽度和更小的高度但更大的深度。例如,第一编码层LUa1可以控制特征图FMa1的宽度、高度和深度,并且控制特征图FMa1的深度不至于过大。第一编码层LUa1可以具有用于设置特征图FMa1的深度的参数。此外,第一编码层LUa1可以包括下采样层DS。下采样层DS可以从包括在输入特征图FMa0中的特征值当中选择某些特征值,并且输出所选择的特征值作为用于特征图FMa1的特征值。例如,下采样层DS可以控制特征图FMa1的宽度和高度。第二编码层LUa2和第三编码层LUa3可以各自以与第一编码层LUa1类似的方式进行运算。例如,当前编码层可以从前一编码层接收特征图,通过当前编码层中包括的多个层进行运算,并将包括运算结果的特征图输出到下一编码层。
编码层单元LUa中的编码层可以将结果输出到下一编码层或解码层单元LUb中的位于同一层级的解码层。每个编码层(例如,第一编码层LUa1)可以固定连接到下一编码层,也可以通过多个跳跃连接(即,第一至第三跳跃连接SK1至SK3)当中的相应跳跃连接来连接到解码层单元LUb中的同一层级的解码层。当两层在同一层级时,可以理解为,两层对称布置且距离输入层IL和输出层OL等距离,同一层级的层例如可以是第一编码层LUa1和第一解码层LUb1。
根据示例实施例,处理电路300或电子设备10可以选择多个跳跃连接SKl至SK3中的至少一些。例如,处理电路300可以接收关于跳跃层级的信息。当设置了人工神经网络模型的跳跃层级时,第一至第三跳跃连接SK1至SK3中的对应于预设跳跃层级的至少一些跳跃连接可以被激活。例如,当人工神经网络模型的跳跃层级为2时,可以激活第一跳跃连接SK1和第二跳跃连接SK2。编码层单元LUa可以经由激活的跳跃连接将特征图输出到解码层单元LUb。未激活的跳跃连接(例如,第二跳跃连接SK2和第三跳跃连接SK3)不能将特征图传播到解码层单元LUb。
根据示例实施例,位于同一层级的层(例如,第一编码层LUa1和第一解码层LUb1)可以处理具有基本相同大小的特征图。例如,第一编码层LUa1接收的特征图FMa0可以与第一解码层LUb1输出的特征图FMb0具有基本相同的大小。例如,特征图的大小可以包括其宽度、高度和深度中的至少一个。此外,从第一编码层LUa1输出的特征图FMa1与第一解码层LUb1接收的特征图FMb1可以具有基本相同的大小。
根据示例实施例,位于同一层级的编码层和解码层可以具有基本相同的采样大小。例如,第一编码层LUa1的下采样大小可以与第一解码层LUb1的上采样大小基本相同。
解码层单元LUb中的解码层可以从前一解码层或编码层单元LUa中的位于同一层级的编码层接收特征图。解码层可以通过使用接收到的特征图进行运算。例如,解码层可以包括卷积层、采样层和激活层。
与输入特征图FMb1相比,从第一解码层LUb1输出的特征图FMb0可以具有更小的宽度和更小的高度但更大的深度。例如,第一解码层LUb1可以控制特征图FMb0的宽度、高度和深度,并且控制特征图FMb0的深度不至于变得过大。第一解码层LUb1可以具有用于设置特征图FMb0的深度的参数。
上采样层US可以调整输入特征图的大小。例如,上采样层US可以控制输入特征图的宽度和高度。上采样层US可以通过使用输入特征图中的每个特征值和接近相应特征值的特征值来执行上采样操作。例如,上采样层US可以是通过使用最近邻法将相同的特征值复制到输出特征图中的层。又如,上采样层US可以是转置卷积层,并且可以通过使用权重图对图像进行上采样。
上采样到先前分辨率的数据可以通过卷积层CONV、批量归一化层(BN,batchnormalization layer)和激活层ACTV被转换成相对深度数据CD。
图11D是根据示例实施例的后处理层377的结构的框图。
根据示例实施例,后处理层377可以包括卷积层CONV、批量归一化层BN和激活层ACTV。后处理层377可以将最终深度数据FD转换为深度信息iDEPTH。
图12是根据示例实施例的处理电路305的框图。
参考图12,处理电路305可以基于由图像传感器100或ISP 200生成的或从存储器400加载的图像数据IDAT生成颜色和深度信息iRGBD。处理电路305还可以包括颜色和深度生成器395。
在示例实施例中,深度估计器370可以通过估计图像数据IDAT的深度来生成深度信息iDEPTH。在示例实施例中,深度估计器370可以通过针对图像数据IDAT中包括的亮度数据YDAT估计深度来生成深度信息iDEPTH。由于深度估计器370针对亮度数据YDAT估计深度,因此可以减少深度估计所需的数据处理量和与数据处理相关的功耗,并且可以提高数据处理速度。深度信息iDEPTH可以提供给颜色和深度生成器395。
在示例实施例中,RGB转换器390可以对包括符合YUV格式的数据的图像数据IDAT执行RGB转换。作为RGB转换的结果,RGB转换器390可以生成颜色信息iRGB。颜色信息iRGB可以提供给颜色和深度生成器395。下面将参考图13更详细地描述RGB转换。
颜色和深度生成器395可以将深度信息iDEPTH与颜色信息iRGB组合并生成颜色和深度信息iRGBD(在下文也称为RGBD)。
图13是示出图像数据在RGB格式与YUV格式之间的转换关系的示图。现在参考图13并结合图7来描述RGB转换器(图7的390)执行的运算的结果。
参考图13描述RGB颜色空间与YUV颜色空间之间的转换关系。根据示例实施例,RGB转换器390可以执行RGB颜色空间与YUV颜色空间之间的转换。根据示例实施例,RGB转换器390可以将YUV颜色空间中的数据转换成RGB颜色空间中的数据。然而,实施例不限于此,RGB转换器390可以将RGB颜色空间中的数据转换成YUV颜色空间中的数据。在示例实施例中,RGB转换器390可以生成颜色信息iRGB。在示例实施例中,以将YUV颜色空间中的数据转换为RGB颜色空间中的数据为例,但是将理解,可以容易地从自YUV颜色空间到RGB颜色空间的转换的逆运算中推断出自RGB颜色空间到YUV颜色空间的转换。
在RGB颜色空间中,红色(R)、蓝色(B)和绿色(G)构成三个维度,其起源是黑色Bk。当数据由8位表示时,红色、蓝色和绿色可以分别表示为(255,0,0)、(0,0,255)和(0,255,0)。在这种情况下,黄色可以表示为(255,255,0),品红色表示为(255,0,255),青色表示为(0,255,255),白色表示为(255,255,255)。
可以通过使用下面的式2、式3和式4将RGB颜色空间转换为YUV颜色空间:
[式2]
Y=(0.257×R)+(0.504×G)+(0.098×B)+16
[式3]
U=(0.148×R)+(0.291×G)+(0.439×B)+128
[式4]
V=(0.439×R)-(0.368×G)-(0.071×B)+128
当通过使用式2至式4将RGB颜色空间转换为YUV颜色空间时,RGB颜色空间中红色、蓝色、绿色、黄色、品红色、青色和白色之间的位置关系改变。
在YUV颜色空间中,亮度(Y)、蓝色差色度(Cb)(即U通道)和红色差色度(Cr)(即V通道)构成维度。当数据由8位表示时,红色、蓝色、绿色、黄色、品红色、青色、白色和黑色可以表示为八面体的拐角,但可以不限于特定位置。例如,白色的亮度(Y)为255,蓝色差色度(Cb)和红色差色度Cr都为128。
图14A和图14B是根据示例实施例的电子设备10的操作方法的流程图。现在参考图14A和图14B以及图1描述操作方法。
参考图14A,在操作S10中,可以生成立体图像数据(图1的SIDAT)。在示例实施例中,电子设备10可以通过使用双像素(图1的101)来生成立体图像数据SIDAT。立体图像数据SIDAT可以包括一对图像数据IDATL和IDATR。
在操作S20中,可以在立体图像数据SIDAT中检测OOI。在示例实施例中,处理电路(图1的300)可以从场景提取多个对象,并检测对象中的OOI。处理电路300可以生成裁剪信号(图2的CROP)以感测包括OOI的ROI。
在操作S30中,可以针对包括OOI的ROI生成局部立体图像数据。在示例实施例中,处理电路300可以基于裁剪信号CROP生成用于感测场景的局部图像的局部立体图像数据。局部立体图像数据可以对应于图9A或图9B的裁剪图像数据cIDAT。
在操作S40中,可以基于局部立体图像数据来估计深度。在示例实施例中,图像传感器100可以感测ROI,其是与场景相比相对较小的区域,并且处理电路300可以通过使用用于深度估计的人工神经网络,来基于局部立体图像数据估计深度。
在操作S50中,可以使用估计出的深度来生成深度信息。
参考图14B,在操作S30之后,可以在操作S41中基于局部立体图像数据估计深度,并且可以在操作S51中使用估计出的深度来生成深度信息。
此外,在操作S30之后,可以在操作S43中基于局部立体图像数据执行RGB转换,并且可以在操作S53中使用所得数据生成颜色信息。
在操作S51或S53之后,在操作S60中,处理电路300可以生成颜色和深度信息iRGBD。
图15A和图15B是根据示例实施例的电子设备10的操作方法的流程图。
在操作S105中,可以生成具有视差的第一输出数据。在示例实施例中,第一输出数据可以从图像传感器100输出,并且可以是因为图像传感器100包括双像素(图1的101)而生成的数据对。在操作S110中,可以将第一输出数据提供给ISP 200。
在操作S115中,可以通过校正第一输出数据来生成第一图像数据。在示例实施例中,ISP 200可以通过校正一对输出数据来生成一对第一图像数据。在操作S120中,可以提供第一图像数据。
在操作S125中,可以对第一图像数据进行缩放。在示例实施例中,缩放器(图7的310)可以例如通过减小图像数据IDAT的大小或分辨率来调整图像数据IDAT的大小或分辨率。由于缩放器310调整了图像数据IDAT的大小或分辨率,因而可以减少对象检测所需的数据处理量。
在操作S130中,可以检测OOI。OOI可以指构成场景的多个对象当中用户期望检测的目标对象。
在操作S135中,可以确定ROI。在示例实施例中,ROI可以包括OOI并且具有等于或大于围绕OOI的边界框的大小。在操作S140中,处理电路300可以向图像传感器100发送裁剪信号CROP。
在操作S145中,可以针对裁剪区域生成具有视差的第二输出数据。在示例实施例中,第二输出数据可以从图像传感器100输出并且可以是场景的局部数据对,其由图像传感器100基于裁剪信号CROP生成。在操作S150中,可以将第二输出数据提供给ISP 200。
在操作S155中,ISP 200可以通过校正第二输出数据来生成第二图像数据。在操作S160中,ISP 200可以向处理电路300提供第二图像数据。在操作S165中,可以针对第二图像数据估计深度,并且在操作S170中,可以基于针对第二图像数据估计的深度来生成深度信息。
现在结合图15A参考图15B描述根据示例实施例的电子设备10的操作方法。在操作S205中处理电路300生成深度信息可以对应于如上面参考图15A所述的基于针对第二图像数据估计的深度生成深度信息。
在操作S210中,可以向图像传感器100发送模式改变信号。例如,图像传感器100可以支持第一模式、第二模式和/或第三模式作为操作模式;在第一模式下,使用双像素(图1的101)生成立体图像数据(图1的SIDAT);在第二模式下,基于来自设置在单个像素中的一个光电转换元件的图像信号生成单个图像数据,或使用双像素101生成图像数据(即,通过对分别来自包括在双像素101中的多个光电转换元件的图像信号进行求和来生成图像数据);在第三模式下,除了生成单个图像数据外还生成由双像素101感测到的立体亮度数据。模式改变信号可以指示从第一模式至第三模式中的任一模式变为另一模式。例如,图像传感器100的操作模式可以变为第三模式。为了描述方便,现在参考图15B描述当图像传感器100的操作模式变为第三模式时电子设备10的操作方法。
在操作S215中,图像传感器100可以生成具有视差的第三输出数据和具有拜耳模式的第四输出数据。可以通过将分别来自包括在双像素101中的多个光电转换元件的图像信号进行求和来生成第四输出数据。在操作S220中,可以将第三输出数据和第四输出数据提供给ISP 200。
在操作S225中,可以通过校正第三输出数据来生成第三图像数据。例如,ISP 200可以通过对具有视差的第三输出数据执行AF校正、自动白噪声校正等来生成第三图像数据。第三图像数据可以与深度信息相关。
在操作S230中,可以通过转换和校正第四输出数据来生成第四图像数据。例如,ISP 200可以通过将具有拜耳模式的第四输出数据转换成包括亮度信息和色度信息的YUV格式的数据,然后对所得数据执行AF校正、自动白噪声校正等,来生成第四图像数据。第四图像数据可以与颜色信息相关。在操作S235中,可以将第三图像数据和第四图像数据提供给处理电路300。
在操作S240中,可以基于第三图像数据来估计深度。例如,处理电路300可以基于第三图像数据估计深度。处理电路300可以经由深度估计器370针对第三图像数据估计包括相对深度和绝对深度的深度信息。
在操作S245中,可以对第四图像数据执行RGB转换。例如,处理电路300可以基于第四图像数据获得颜色信息。
在操作S250中,可以生成RGBD信息。例如,处理电路300可以基于深度信息和颜色信息生成深度和颜色信息RGBD。
图16A至图16C是示出根据示例实施例的对图像数据的深度估计的结果的示图。
参考图16A,第一图像IMG1可以包括对象,例如,兔子和背景。第一图像IMG1可以对应于图像数据IDAT。作为第一图像IMG1中的背景,山丘可以理解为图像像素稀疏分布、边界突变或边缘稀少的无纹理区域。
参考图16B,第二图像IMG2包括对象(例如,兔子和背景),并且表示对应于深度信息iDEPTHa的深度图。深度图是图像或图像的通道,其包括从图像传感器或观察点到对象表面的距离以及与该距离相关的信息,并且从用户的视点(或图像传感器)到画面上的对象表面的距离可以定义为深度信息。
第二图像IMG2根据对比度显示深度信息,并且由于第二图像IMG2的一部分看起来明亮(即,接近白色),该部分可以被定义为具有小深度值的部分,并且由于第二图像IMG2的一部分看起来昏暗或接近黑色,则该部分可以被定义为具有大深度值的部分。
深度信息iDEPTHa由图9A的DFE 371、D.NET模块373和后处理层377生成。根据示例实施例,处理电路300可以通过仅将针对弱光具有鲁棒性的亮度数据YDAT应用于人工神经网络以估计绝对深度,来区分对象(兔子)与背景。
参考图16C,第三图像IMG3包括对象(例如,兔子和背景),并且表示对应于深度信息iDEPTHb的深度图。
深度信息iDEPTHb由图9B的DFE 371、S.NET模块375、D.NET模块373和后处理层377生成。
根据示例实施例,即使对于具有相对小视差的数据,处理电路300也可以通过经由S.NET模块375进一步将相对深度数据与绝对深度数据组合,来更清楚地区分对象(兔子)与背景。例如,由于第三图像IMG3中的无纹理区域在第二图像IMG2中是无法观察到的区域,因此可以看出与图16B的深度图相比,图16C的深度图得到了改善。
图17是根据示例实施例的电子系统1的框图。
参考图17,图17的SoC 1000可以应用于图1的电子设备10。换言之,图17的SoC1000可以被设计为支持图1的电子设备10。图17所示的SoC1000可以对应于图1所示的电子设备10。SoC 1000可以控制至少一个组件的操作。
电子系统1可以被实现为PC、数据服务器或便携式电子设备。便携式电子设备可以是膝上型计算机、移动电话、智能电话、平板PC、PDA、企业数字助理(EDA)、数码相机、数码摄像机、便携式多媒体播放器(PMP)、个人或便携式导航设备(PDN)、手持游戏机或电子书(e-book)终端。
电子系统1可以包括SoC 1000、相机模块1100、显示器1200、电源1300、输入/输出(I/O)端口1400、存储器1500、存储装置1600、外部存储器1700、和网络设备1800。
相机模块1100可以将光学图像转换成电学图像。因此,从相机模块780输出的电学图像可以存储在存储装置1600、存储器1500或外部存储器1700中。此外,从相机模块1100输出的电学图像可以显示在显示器1200上。相机模块1100可以包括图1的图像传感器100,或者图1的图像传感器100和ISP 200。
显示器1200可以显示从存储装置1600、存储器1500、I/O端口1400、外部存储器1700或网络设备1800输出的数据。电源1300可以向至少一个组件提供工作电压。I/O端口1400是能够向电子系统1发送数据或从电子系统1向外部设备发送数据的端口。例如,I/O端口1400可以包括用于连接诸如计算机鼠标的指示设备的端口、用于连接打印机的端口以及用于连接通用串行总线(USB)驱动器的端口。
存储器1500可以被实现为易失性或非易失性存储器。根据示例实施例,被配置为控制存储器1500的诸如读取操作、写入操作(或编程操作)或擦除操作的数据访问操作的存储器控制器可以被集成嵌入到SoC 1000中。根据另一示例实施例,存储器控制器可以被实现在SoC 1000与存储器1500之间。
存储装置1600可以被实现为硬盘驱动器(HDD)或固态硬盘(SSD)。
外部存储器1700可以被实现为安全数字(SD)卡或多媒体卡(MMC)。根据示例实施例,外部存储器1700可以是用户身份模块(SIM)卡或通用SIM(USIM)卡。
网络设备1800可以指使得电子设备1能够连接到有线或无线网络的设备。
图18是根据示例实施例的图17的SoC 1000的框图。
参考图18,SoC 1000可以包括主处理器1010、ROM/RAM 1020、调制解调器1030、ISP1040、加速器模块1050(其包括NPU 1051、GPU 1053、和DSP 1055)、非易失性存储器I/F1060、相机I/F 1070、存储器I/F 1080和显示器I/F 1090。SoC 1000的组件(即,主处理器1010、ROM/RAM 1020、调制解调器1030、ISP 1040、加速器模块1050、非易失性存储器I/F1060、相机I/F 1070、存储器I/F 1080和显示器I/F 1090)可以经由第二总线BUS2发送/接收数据。
主处理器1010可以控制SoC 1000的所有操作。主处理器1010可以被实现为例如CPU、微处理器、高级RISC机器(ARM)处理器、X86处理器、无内部互锁流水级(MIPS)处理器的微处理器等,并且根据示例实施例,主处理器1010可以被实现为具有两个或更多个独立处理器(或核)的一个计算组件,即,多核处理器。主处理器1010可以处理或运行存储在ROM/RAM 1020中的指令代码(指令)和/或数据。
RAM/ROM 1020可以临时存储程序、数据和/或指令。根据示例实施例,RAM 1020可以被实现为DRAM或SRAM。RAM 1020可以临时存储通过I/F(即,非易失性存储器I/F 1060、相机I/F 1070、存储器I/F 1080和显示器I/F1090)输入/输出的数据,或者已经过ISP 200的图像处理的数据。
非易失性存储器I/F 1060可以对接输入到非易失性存储器件1160或从其输出的数据。非易失性存储器件1160可以被实现为例如存储卡(多媒体卡(MMC))、嵌入式MMC(eMMC)、SD、micro SD等)。
相机I/F 1070可以对接从位于SoC 1000外部的相机1170输入的图像数据,例如,原始图像数据。相机1170可以针对使用多个光电转换元件捕获的图像生成数据。经由相机I/F 1070接收的图像数据可以提供给ISP 1040或通过存储器I/F 1080存储在存储器1180中。
存储器I/F 1080可以对接输入到存储器1180或从其输出的数据。根据示例实施例,存储器1180可以被实现为诸如DRAM或SRAM的易失性存储器,或者诸如电阻RAM(ReRAM)、PRAM或NAND闪存的非易失性存储器。
显示器I/F 1090可以对接输出到显示设备1190的数据(例如,图像数据)。显示设备1190可以将与图像数据相对应的图像信号输出到诸如液晶显示器(LCD)或有源矩阵有机发光二极管(AMOLED)显示器的显示器上。
ISP 1040通过对从相机1170提供的图像数据执行图像处理来生成转换后的图像数据,并将转换后的图像数据存储在存储器1180中,或者缩放转换后的图像数据并将缩放后的图像提供给显示设备1190。此外,SoC 1000还可以包括安全设备1001,该安全设备1001包括安全方法、协议以及加密和解密密钥。
虽然已经参考附图描述了示例实施例,但是本领域普通技术人员将理解,在不脱离由所附权利要求及其等同物限定的精神和范围的情况下,可以在其中进行形式和细节的各种改变。

Claims (20)

1.一种电子设备,包括:
相机模块,所述相机模块被配置为:基于多个光电转换元件感测对象,并且基于所述多个光电转换元件中的共享微透镜的至少两个光电转换元件生成具有视差的立体图像数据;
存储器,所述存储器被配置为存储至少一个指令和所述立体图像数据;以及
处理电路,所述处理电路被配置为运行所述至少一个指令以执行以下操作:
基于所述立体图像数据检测感兴趣对象;
生成用于指示所述相机模块感测包括所述感兴趣对象的感兴趣区域的裁剪信号;以及
基于所述立体图像数据生成深度信息。
2.根据权利要求1所述的电子设备,其中,所述立体图像数据包括成对的第一图像数据和第二图像数据,并且
其中,所述处理电路进一步被配置为基于所述第一图像数据检测所述感兴趣对象。
3.根据权利要求2所述的电子设备,其中,所述相机模块还被配置为通过减小所述第一图像数据的大小来生成第三图像数据,并且
其中,所述处理电路进一步被配置为在所述第三图像数据中检测所述感兴趣对象。
4.根据权利要求2所述的电子设备,其中,所述处理电路进一步被配置为通过基于成对的所述第一图像数据和所述第二图像数据估计深度来生成所述深度信息。
5.根据权利要求1所述的电子设备,其中,所述相机模块还被配置为:通过基于所述裁剪信号感测所述感兴趣区域,来针对所述感兴趣对象生成具有视差的局部立体图像数据。
6.根据权利要求5所述的电子设备,其中,所述处理电路进一步被配置为基于所述局部立体图像数据生成所述深度信息。
7.根据权利要求1所述的电子设备,其中,所述处理电路进一步被配置为:通过使用第一人工神经网络估计与所述相机模块和所述感兴趣对象之间的实际距离相对应的绝对深度,来生成所述深度信息。
8.根据权利要求7所述的电子设备,其中,所述处理电路进一步被配置为:基于第二人工神经网络,通过基于与所述立体图像数据相对应的场景的特征估计相对深度,来生成所述深度信息,并且
其中,所述相对深度是从所述相机模块到所述感兴趣对象的距离,并且与从所述相机模块到另一对象的距离相关。
9.根据权利要求1所述的电子设备,其中,所述处理电路进一步被配置为基于包括在所述立体图像数据中的亮度数据生成所述深度信息。
10.根据权利要求1所述的电子设备,其中,所述相机模块还被配置为:在包括生成所述立体图像数据的第一模式、生成没有视差的一般图像数据的第二模式、以及生成所述立体图像数据和所述一般图像数据二者的第三模式的操作模式下进行操作。
11.根据权利要求10所述的电子设备,其中,所述处理电路还被配置为在生成所述深度信息之后输出模式信号,所述模式信号被配置为将所述相机模块的所述操作模式改变为所述第三模式。
12.根据权利要求11所述的电子设备,其中,所述处理电路还被配置为:通过将所述一般图像数据转换为红绿蓝格式来生成颜色信息,并输出所述颜色信息和所述深度信息。
13.一种电子设备,包括:
相机模块,所述相机模块被配置为生成立体图像数据,所述立体图像数据包括相对于对象具有视差的第一图像数据和第二图像数据;
存储器,所述存储器被配置为存储至少一个指令和所述立体图像数据;以及
处理电路,所述处理电路被配置为运行所述至少一个指令以执行以下操作:在所述第一图像数据中检测感兴趣对象并生成裁剪信号,所述裁剪信号用于指示感测包括所述感兴趣对象的感兴趣区域,
其中,所述相机模块还被配置为基于所述裁剪信号生成局部立体图像数据,所述局部立体图像数据包括相对于所述感兴趣对象具有视差的第一局部图像数据和第二局部图像数据,并且
其中,所述处理电路还被配置为基于所述局部立体图像数据生成深度信息。
14.根据权利要求13所述的电子设备,其中,所述相机模块还被配置为通过减小所述第一图像数据的大小来生成第三图像数据,并且
其中,所述处理电路进一步被配置为在所述第三图像数据中检测所述感兴趣对象。
15.根据权利要求13所述的电子设备,其中,所述处理电路进一步被配置为:通过经由至少一个人工神经网络针对所述立体图像数据估计深度,来生成所述深度信息。
16.根据权利要求13所述的电子设备,其中,所述处理电路进一步被配置为基于包括在所述局部立体图像数据中的亮度数据生成所述深度信息。
17.一种电子设备的操作方法,所述电子设备包括相机模块和处理电路,所述操作方法包括:
基于共享微透镜的两个光电转换元件生成具有视差的立体图像数据;
在所述立体图像数据中检测感兴趣对象;
针对包括所述感兴趣对象的感兴趣区域生成局部立体图像数据;以及
通过基于所述局部立体图像数据估计深度来生成深度信息。
18.根据权利要求17所述的操作方法,其中,在所述立体图像数据中检测所述感兴趣对象包括:基于所述立体图像数据中包括的成对的第一图像数据和第二图像数据当中的所述第一图像数据,检测所述感兴趣对象。
19.根据权利要求18所述的操作方法,其中,基于所述第一图像数据检测所述感兴趣对象包括:在通过减小所述第一图像数据的大小获得的第三图像数据中检测所述感兴趣对象。
20.根据权利要求17所述的操作方法,其中,生成所述深度信息包括:基于包括在所述局部立体图像数据中的亮度数据生成所述深度信息。
CN202210524355.5A 2021-05-17 2022-05-13 用于生成感兴趣区域的深度信息的电子设备及其操作方法 Pending CN115375615A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210063620A KR20220155840A (ko) 2021-05-17 2021-05-17 관심 영역의 심도 정보를 생성하는 전자 장치 및 이의 동작 방법
KR10-2021-0063620 2021-05-17

Publications (1)

Publication Number Publication Date
CN115375615A true CN115375615A (zh) 2022-11-22

Family

ID=83997953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210524355.5A Pending CN115375615A (zh) 2021-05-17 2022-05-13 用于生成感兴趣区域的深度信息的电子设备及其操作方法

Country Status (3)

Country Link
US (1) US20220366588A1 (zh)
KR (1) KR20220155840A (zh)
CN (1) CN115375615A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129391B (zh) * 2021-04-27 2023-01-31 西安邮电大学 基于多曝光图像特征分布权重的多曝光融合方法
WO2024103385A1 (en) * 2022-11-18 2024-05-23 Huawei Technologies Co., Ltd. Adaptive encoding and decoding of information for network and application functions

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004034956A1 (de) * 2004-07-16 2006-02-02 Carl Zeiss Jena Gmbh Verfahren zur Erfassung mindestens eines Probenbereiches mit einem Lichtrastermikroskop mit linienförmiger Abtastung
DE102004034954A1 (de) * 2004-07-16 2006-02-02 Carl Zeiss Jena Gmbh Verfahren zur Erfassung mindestens eines Probenbereiches mit einem Lichtrastermikroskop
JP5610933B2 (ja) * 2010-09-03 2014-10-22 キヤノン株式会社 再生装置及びその制御方法
JP5206853B2 (ja) * 2011-09-08 2013-06-12 カシオ計算機株式会社 補間画像生成装置、再構成画像生成装置、補間画像生成方法及びプログラム
JP6609616B2 (ja) * 2014-03-28 2019-11-20 インテュイティブ サージカル オペレーションズ, インコーポレイテッド マルチポートの視点からの手術シーンの定量的な3次元イメージング
US11051039B2 (en) * 2017-06-02 2021-06-29 Ostendo Technologies, Inc. Methods for full parallax light field compression
KR20190042472A (ko) * 2017-10-16 2019-04-24 한국전자통신연구원 인공신경망 기반의 플렌옵틱 카메라 어레이 깊이 영상 획득 방법 및 장치
US11330246B2 (en) * 2019-11-21 2022-05-10 Microsoft Technology Licensing, Llc Imaging system configured to use time-of-flight imaging and stereo imaging
CN112235508B (zh) * 2020-10-14 2021-10-29 浙江大学 一种聚焦型光场相机系统的参数设计方法
TWI792381B (zh) * 2021-03-25 2023-02-11 鈺立微電子股份有限公司 影像擷取裝置及其深度資訊計算方法

Also Published As

Publication number Publication date
US20220366588A1 (en) 2022-11-17
KR20220155840A (ko) 2022-11-24

Similar Documents

Publication Publication Date Title
US11882357B2 (en) Image display method and device
US11849226B2 (en) Image processing device including neural network processor and operating method thereof
US9824417B2 (en) Image signal processor for generating depth map from phase detection pixels and device having the same
US20210004962A1 (en) Generating effects on images using disparity guided salient object detection
US11810256B2 (en) Image modification techniques
KR102726982B1 (ko) 듀얼 카메라 및 듀얼 픽셀을 통한 조인트 깊이 예측
US11838651B2 (en) Image processing apparatus including neural network processor and method of operating the same
CN115375615A (zh) 用于生成感兴趣区域的深度信息的电子设备及其操作方法
US12015835B2 (en) Multi-sensor imaging color correction
US20180091799A1 (en) Robust disparity estimation in the presence of significant intensity variations for camera arrays
WO2022193132A1 (zh) 图像检测方法、装置和电子设备
CN102667853B (zh) 用于二进制传感器的滤光片设置学习
US11997405B2 (en) Electronic device integrating phase difference detection and imaging and method for controlling the same
KR20240143540A (ko) 영상 획득 장치 및 그의 동작 방법
US12087019B2 (en) Image compression method using saturated pixel, encoder, and electronic device
US11978223B2 (en) Electronic device including processing circuit for generating depth information using luminance data and method of generating depth information
CN102667863B (zh) 使用二值化传感器确定颜色信息
US20240242386A1 (en) Image processing device and image blurring method
US20240323559A1 (en) Image sensor and operating method thereof
WO2024168589A1 (en) Image sensor and image signal processor for capturing images in low light environments
US12160670B2 (en) High dynamic range (HDR) image generation using a combined short exposure image
WO2022151330A1 (zh) 一种图像处理的方法及相关装置
KR20240143549A (ko) 이미지 센서 및 이미지 센서의 동작 방법
WO2025064173A1 (en) Efficiently processing image data based on a region of interest
KR20240068414A (ko) 이미지 신호 프로세서, 이미지 센서 및 이미지 센서의 동작 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination