KR101025398B1

KR101025398B1 - Ｄｒａｍ에서 ｓｒａｍ으로의 프리페칭

Info

Publication number: KR101025398B1
Application number: KR1020070135086A
Authority: KR
Inventors: 브라이언 피. 블랙; 무랄리 엠. 안나바람; 도날드 더블유. 맥컬리; 존 피. 데발리
Original assignee: 인텔 코오퍼레이션
Priority date: 2006-12-22
Filing date: 2007-12-21
Publication date: 2011-03-28
Anticipated expiration: 2027-12-21
Also published as: TWI379312B; TW200845035A; GB2445262A; US20080155196A1; CN101241475A; FR2910653A1; GB0724812D0; DE102007059784A1; JP2008159057A; KR20080059077A; GB2445262B; US8032711B2; JP4658112B2; FR2910653B1; CN101241475B; HK1121257A1; SG144054A1

Abstract

본 발명의 실시예들은 일반적으로 DRAM(dynamic random access memory)에서 SRAM(static random access memory)으로의 프리페칭을 위한 시스템들, 방법들, 및 장치들에 대한 것이다. 소정의 실시예들에서, 프리페치 로직이 로드 명령어와 연관된 프리페치 힌트를 수신한다. 프리페치 로직은, 적어도 부분적으로, 프리페치 힌트에 기초하여, 두 개 이상의 캐시 라인을 DRAM의 열린 페이지로부터 SRAM으로 전송할 수 있다.

프리페칭, 프리페치 힌트, 프리페치 로직, 캐시 라인, DRAM, SRAM

Description

ＤＲＡＭ에서 ＳＲＡＭ으로의 프리페칭{PREFETCHING FROM A DYNAMIC RANDOM ACCESS MEMORY TO A STATIC RANDOM ACCESS MEMORY}

본 발명의 실시예들은 일반적으로 집적 회로 분야에 관련되고, 보다 상세하게는 DRAM(dynamic random access memory)에서 SRAM(static random access memory)으로의 프리페칭을 위한 시스템들, 방법들, 및 장치들에 관련된다.

산업 칩 설계는 CMP(chip multi-processor)들을 지향하고 있다. 고주파수 단일 프로세서(uniprocessor)들에 비해, CMP는 개선된 성능 및 감소된 전력 소비를 제공한다. CMP들은 상대적으로 간단한 코어들을 사용하고 성능을 개선하기 위해 TLP(thread level parallelism)에 의존한다. CMP들 상에서 동작하는 어플리케이션들은 코어 카운트(core count)를 효과적으로 이용하기 위해 TLP를 증가시켜야 한다.

그러나 TLP를 증가시키는 것은, 클럭당 미해결 메모리 요청의 수를 증가시킴으로써, MLP(memory level parallelism)를 증가시키기도 한다. 게다가, 멀티 스레드 어플리케이션들의 데이터 워킹 세트는 스레드 카운트와 함께 커질 수 있다. 몇몇 스레드로부터의 액세스들이 인터리브될(interleaved) 것이기 때문에, 결국, TLP 를 증가시키는 것은 공유 캐시들에 대한 액세스들의 랜덤성(randomness)을 증가시킬 수 있다. 그리하여, 메모리 대역폭 및 캐시 용량은 증가된 MLP 및 데이터 풋프린트(footprint)를 지원하기 위해 코어 카운트와 함께 스케일링(scale)되어야 한다.

최근, 3D 다이 스태킹이 마이크로프로세서 다이 상의 고밀도 메모리 다이(DRAM과 같은)의 스태킹을 위한 실행 가능한 옵션으로서 제안되어 왔다. 스태킹은 이종의(disparate) Si 기술들이 단일 프로세스 흐름으로의 기술 융합(technology integration)에 대한 걱정없이 다이 스택에서 결합될 수 있게 한다. 스태킹은 실리콘 관통 비아들(through-silicon-vias)을 사용하여 다이 사이에서 매우 높은 대역폭 인터페이스를 제공하기도 한다. 그리하여, CMP들 상의 (DRAM과 같은) 메모리의 3D 스태킹은 CMP 스케일링에 대한 메모리 계층 구조적 장애물들을 효과적으로 처리할 수 있다.

통상적으로 DRAM들은 액세스 대기 시간(access latency)을 감소시키기 위해 다른 로우(row)가 요구될 때까지 열린 로우를 활성화된 상태로 유지한다. 이 기술은 열린 페이지 정책(open-page policy)이라고 불리고 만약 DRAM에 대한 이어지는 액세스들이 동일한 열린 페이지에 대한 것일 경우에 최상으로 작동한다. 아니면, 뱅크(bank)는 닫히고 프리차지 패널티(precharge penalty)들이 뱅크 액세스의 전체 대기 시간을 현저히 증가시킨다. 전통적으로, DRAM 설계에서 뱅크당 열린 페이지는 오직 하나만 존재한다.

경험에 따르면 DRAM으로의 액세스들의 집약성(locality)은 DRAM을 액세스하는 스레드의 수가 증가함에 따라서 더 랜덤하게 될 가능성이 높다. DRAM은 제한된 수(예를 들면, 16개)의 뱅크를 가지기 때문에, 페이지 열기(open)의 수는 스레드의 수가 증가함에 따라 극적으로 증가할 수 있다. 그리하여, 뱅크 스래싱(thrashing)의 결과들은 시스템의 성능에 현저히 영향을 줄 수 있다.

본 발명의 실시예들은 일반적으로 DRAM에서 SRAM으로의 프리페칭을 위한 시스템들, 방법들, 및 장치들에 대한 것이다. 소정의 실시예들에서, 두 개 이상의 캐시 라인이 DRAM의 열린 페이지에서 SRAM으로 전송된다. 전송은 다이-다이 비아(die-to-die via)와 같은 고밀도 상호접속을 통해서 일어날 수 있다. 아래에서 더 설명되는 바와 같이, 본 발명의 실시예들은 CMP 스케일링에 적합한 메모리 자원들을 효과적으로 제공할 수 있다.

본 발명에 따른 집적 회로는, 프리페치 힌트(prefetch hint)를 제공하는 코어 로직; 및 코어 로직에 연결된 프리페치 로직을 포함하고, 프리페치 로직은, 적어도 부분적으로, 프리페치 힌트에 기초하여 두 개 이상의 캐시 라인을 DRAM의 열린 페이지에서 SRAM(static random access memory)으로 전송하는 집적 회로이다.

또한, 본 발명에 따른 방법은, 로드 명령어와 연관된 프리페치 힌트를 수신하는 단계; 및 적어도 부분적으로, 프리페치 힌트에 기초하여 두 개 이상의 캐시 라인을 DRAM의 열린 페이지에서 SRAM으로 전송하는 단계를 포함하는 방법이다.

또한, 본 발명에 따른 시스템은, DRAM을 포함하는 제1 다이; 제2 다이; 및 제1 다이와 제2 다이 사이에 연결된 상호접속을 포함하고, 제2 다이는, 프리페치 힌트를 제공하는 코어 로직, 및 코어 로직에 연결된 프리페치 로직 - 상기 프리페치 로직은, 적어도 부분적으로, 프리페치 힌트에 기초하여 두 개 이상의 캐시 라인을 DRAM의 열린 페이지에서 SRAM으로 전송함 - 을 포함하는 시스템이다.

본 발명의 실시예들은 CMP 스케일링에 적합한 메모리 자원들을 효과적으로 제공할 수 있다.

본 발명의 실시예들은 제한이 아닌 예시로써 설명되고, 첨부 도면에서 유사한 참조 번호들은 유사한 요소들을 가리킨다.

도 1은 본 발명의 일 실시예에 따라 구현되는 컴퓨팅 시스템의 선택된 양상들을 도시하는 블록도이다. 컴퓨팅 시스템(100)은 상호접속(106)을 통하여 DRAM(104)과 연결된 코어(들)(102)를 포함한다. 코어(102)는 범용 프로세싱 코어, 그래픽 코어 등을 포함하는 집적 회로의 거의 임의의 코어 로직일 수 있다. 소정의 실시예에서, 코어(102)는 다이 상의 복수의 코어 중 하나(예를 들면, CMP)이다.

코어(102)는 명령어 프로세싱 로직(108), Ln 캐시(예를 들면, L2 캐시)(110) 및 PF 로직(prefetch logic)(112)을 포함한다. 명령어 프로세싱 로직(108)은 명령어 포인터(instruction pointer), 디코딩 로직(decode logic), 레지스터들 및 L1 캐시와 같은 명령어들을 프로세스하기 위한 하나 이상의 요소들을 포함할 수 있다. 소정의 실시예에서 명령어 로직(108)은 프리페치 힌트(prefetch hint)(예를 들면, 프리페치 힌트(114))를 생성하기 위한 로직을 포함할 수도 있다. 프리페치 힌트는 넓게는 두 개 이상의 로드 명령어가 동일한 캐시 페이지로부터 데이터를 요청할 가능성이 있다는 것을 지시(indication)를 나타낸다. 소정의 실시예들에서, 프리페치 힌트는 스트라이드(stride) 검출 매커니즘에 기초한 IP(instruction pointer) 이력에 의해 생성된 신뢰값(confidence value)일 수 있다. 대안적인 실시예에서, 상이한 매커니즘이 프리페치 힌트를 생성하는 데 사용될 수 있다.

Ln 캐시(110) 및 PF 로직(112)은 상호접속(116)(예를 들면, L2 버스)을 통해 명령어 프로세싱 로직(108)과 연결된다. 소정의 실시예에서, 만약 L1 캐시 부적중(miss)이 있다면, 그 부적중 및 프리페치 힌트(114)는 (직접적으로 또는 메모리 계층 구조의 하나 이상의 레벨을 통해) Ln 캐시(110) 및/또는 프리페치 로직(112)으로 전달된다. 프리페치 로직(112)은, 적어도 부분적으로, 프리페치 힌트(114)에 기초하여 두 개 이상의 캐시 라인을 DRAM(104)의 열린 페이지로부터 프리페칭할지의 여부를 결정할 수 있다. 예를 들면, 만약 프리페치 힌트(114)가 다수의 LOAD 명령어가 스트림 거동(streaming behavior)을 나타낼 가능성이 높다고 지시하면, PF 로직(112)은 데이터의 열린 페이지 전체를 DRAM(104)에서 Ln 캐시(110)로 전송할 수 있다.

소정의 실시예들에서, PF 로직(112)은 만약 예를 들어, 상호접속(106)의 사용 레벨이 너무 높으면 프리페칭을 조절하기(throttle) 위한 로직을 포함할 수 있 다. 그러한 실시예들에서, PF 로직(112)은 프리페치 힌트(114)에 의해 제공된 신뢰도(level of confidence)(예를 들면, 고, 중, 저)를 상호접속 사용 레벨의 지시와 비교하고 DRAM(104)으로부터 데이터를 프리페치할지의 여부를 결정할 수 있다. "데이터"라는 용어는 본 명세서에서 사용될 때, 명령어들을 포함한, 코어(102)가 인식할 수 있는 임의의 형태의 정보의 임의의 유형을 넓게 가리킨다.

DRAM(104)은 상용(commodity) DRAM, RLDRAM(reduced latency DRAM), MRAM(magnetic random access memory) 등을 포함하는 거의 임의의 형태의 DRAM일 수 있다. 게다가, DRAM(104)은 거의 임의의 페이지 크기를 갖는 거의 임의의 개수의 뱅크를 가질 수 있다. 소정의 실시예들에서, DRAM(104)는 16 개의 뱅크를 가지고 각 페이지는 4 KB(kilobyte)이다.

상호접속(106)은 임의의 넓은 범위의 다이-다이 및/또는 칩-칩(chip-to-chip) 상호접속들일 수 있다. 소정의 실시예들에서, 코어(102) 및 DRAM(104)은 수직으로 스택되고(stacked) 상호접속(106)은 고밀도의 다이-다이 비아이다. 대안적인 실시예들에서, 코어(102) 및 DRAM(104)는 멀티칩 모듈에 함께 패키징되고 상호접속(106)은 모듈의 (적어도) 일부의 칩들 사이의 고밀도 상호접속을 제공한다. 또다른 대안적인 실시예에서, 코어(102) 및 DRAM(104)은 별개의 패키지에 있고 상호접속(106)은 패키지들을 접속할 수 있다.

도 2는 본 발명의 일 실시예에 따른 블록 전송을 도시하는 개념도이다. DRAM(202)은 하나 이상의 캐시 페이지(204)로 구성된다. 소정의 실시예들에서, DRAM(202)은 임의의 주어진 시간에 하나의 열린 캐시 페이지를 갖는다(장치가 동작 중이라고 했을 때). 예를 들면, 도시된 실시예에서, 캐시 페이지(206)가 열려 있다. 각 캐시 페이지는 각각이 2 바이트 이상의 데이터를 갖는 두 개 이상의 캐시 라인(208)으로 이루어진다. 소정의 실시예들에서, 프리페치 로직(예를 들면, 도 1에서 도시된 프리페치 로직(112))은 두 개 이상의 캐시 라인의 블록을 열린 DRAM 캐시 페이지(206)에서 SRAM(210)으로 전송한다. 캐시 라인들의 블록 전송에 대한 결정은, 적어도 부분적으로, 프리페치 힌트(예를 들면, 도 1에서 도시된 프리페치 힌트(114))에 기초할 수 있다. DRAM에서 SRAM으로의 데이터의 블록 전송들에 대해 도 3 내지 도 7과 관련하여 아래에서 더 설명된다.

도 3은 본 발명의 일 실시예에 따라 구현된 컴퓨팅 시스템의 선택된 양상들을 도시하는 고레벨 블록도이다. 시스템(300)은 복수의 코어(302)를 포함한다. 코어들(302)은 범용 프로세싱 코어들 및 그래픽 코어들을 포함하는 광범위하고 다양한 코어들 중 임의의 것일 수 있다. 소정의 실시예들에서, 각 코어는 전용(private) L1 캐시(304) 및 전용 L2 캐시(306)를 갖는다. 게다가, 각 코어(또는 코어들의 서브세트)는 PF 로직(308)을 포함할 수 있다.

소정의 실시예들에서, DRAM L3 캐시(310)는 코어들(302)을 포함하는 다이와 수직으로 스택되는 다이 상에 있다. 그러한 실시예들에서, L3 버스(314)는 고밀도 다이-다이 상호접속일 수 있다. 벌크 DRAM(312)은 시스템 메모리를 제공하고 코어들(302) 및 DRAM L3 캐시(310)과 분리된 다수의 메모리 장치를 포함할 수 있다.

소정의 실시예에서, PF 로직(308)은 두 개 이상의 캐시를 DRAM L3 캐시의 열린 페이지로부터 SRAM L2 캐시로 전송한다. 캐시 라인들의 블록을 전송하는 것에 대한 결정은, 코어(302) 상의 명령어 프로세싱 로직(예를 들면, 도 1에 도시된 명령어 프로세싱 로직(102))으로부터 PF 로직(308)에 제공된 프리페치 힌트에, 적어도 부분적으로, 기초할 수 있다. 게다가, 캐시 라인들의 블록을 전송하는 것에 대한 결정은, 버스(314)에 의해 경험된 사용의 레벨에, 적어도 부분적으로, 기초할 수 있다. 소정의 실시예들에서, PF 로직(308)은 메모리의 페이지 전체를 DRAM L3(310)에서 SRAM L2(306)로 전송할 수 있다.

도 4는 L2 캐시가 공유되는 일 실시예를 도시하는 고레벨 블록도이다. 예시된 실시예에서, 각 코어(302)는 전용 L1 캐시를 갖고 코어들은 L2 캐시(402)를 공유한다. 만약 L1 캐시(304) 부적중이 있으면, 그 부적중 및 프리페치 힌트는 L2 캐시(402) 및/또는 PF 로직(404)으로 전달될 수 있다. 소정의 실시예들에서, PF 로직(404)은, 적어도 부분적으로, 프리페치 힌트에 기초하여 두 개 이상의 캐시 라인을 DRAM L3(310)의 열린 페이지로부터 전송할지의 여부를 결정한다. 게다가, 프리페치 로직(404)은 L3 버스(314)의 사용 레벨을 포함하는 다른 요인들에 기초하여 전송 결정을 할 수 있다.

도 5는 프리페치 로직이 캐시 계층 구조 내의 상이한 레벨들에서 사용되는 일 실시예를 도시하는 고레벨 블록도이다. 소정의 실시예들에서, 캐시 부적중(예를 들면, L1 및 L2 캐시 부적중 모두) 및 프리페치 힌트는 DRAM L3 캐시(502) 및/또는 PF 로직(504)으로 전달될 수 있다. PF 로직(504)은, 적어도 부분적으로, 프리페치 힌트(및 아마도 버스 사용 레벨들과 같은 다른 요인들)에 기초하여 두 개 이상의 캐시 라인을 벌크 DRAM(312)의 열린 페이지에서 DRAM L3 캐시(502)로 전송 할 수 있다. 그 후, 프리페치 로직(308)은 두 개 이상의 캐시 라인을 DRAM L3 캐시(502)의 열린 페이지에서 SRAM L2 캐시(306)으로 전송할 수 있다. 예시된 실시예들은 일괄 프리페칭(batch prefetching)의 두 개의 레벨을 보여주지만, 캐시 라인들의 블록의 일괄 전송(batch transfer)은 거의 임의의 수의 캐시 레벨에 걸쳐 거의 임의의 횟수만큼 수행될 수 있다는 것이 이해되어야 한다.

도 6은 본 발명의 일 실시예에 따른 블록 전송의 선택된 양상들을 도시하는 흐름도이다. 프로세스 블록(602)을 참조하면, 프리페치 로직(예를 들면, 도 1에 도시된 프리페치 로직(112))은 LOAD 명령어와 연관된 프리페치 힌트를 수신한다. 소정의 실시예들에서, 프리페치 힌트는 IP 기반 스트라이드 검출 알고리즘(IP-based stride detection algorithm)에 의해 생성된다. 그러한 실시예들에서, 프리페치 힌트는 이어지는 LOAD 명령어들이 단조 증가하는 또는 단조 감소하는 어드레스 스트라이드를 가질 가능성이 얼마나 있는지를 지시할 수 있다. 소정의 실시예들에서, 프리페치 힌트는 이어지는 LOAD 명령어들이 단조 증가하는 어드레스 스트라이드를 갖는지 또는 단조 감소하는 어드레스 스트라이드를 가질지의 여부에 대한 신뢰도(degree of confidence)를 지시하는 다수의 값 중 임의의 것을 가질 수 있다. 예를 들면, 프리페치 힌트는 높은, 중간의 또는 낮은 신뢰를 지시할 수 있다. 대안적으로, 거의 임의의 방법이 신뢰도(level of confidence)를 지시하는 데 사용될 수 있다.

프로세스 블록(604)을 참조하면, PF 로직은 하나 이상의 조건들 또는 요인들에 기초하여 블록 프리페치를 조절할 수 있다. "조절(throttle)"이라는 용어는 전 송 지연, 전송 취소, 전송 사이즈 변경 등을 포함하는 다수의 거동들을 가리킬 수 있다. 전송의 조절을 시작하게 하는 조건들은 전송이 일어날 상호접속의 사용 레벨, 프리페치 힌트, 절전 레벨 등을 포함할 수 있다. 점선으로 지시한 것과 같이, 소정의 실시예들에서 조절 매커니즘은 선택적이다.

프로세스 블록(606)을 참조하면, PF 로직은, 적어도 부분적으로, 프리페치 힌트에 기초하여 두 개 이상의 캐시 라인을 DRAM에서 SRAM으로 전송한다. 예를 들면, 만약 프리페치 힌트가 다수의 LOAD 명령어들이 단조 증가하는 또는 단조 감소하는 어드레스 스트라이드를 가질 가능성이 높다는 것을 지시하면 PF 로직은 요청된 데이터가 캐시에 저장될 가능성을 증가시키기 위해 캐시 라인들의 블록을 캐시로 전송할 수 있다. DRAM은 캐시 계층 구조의 일부 및/또는 벌크 메모리의 요소일 수 있다. 게다가, SRAM은 캐시 계층 구조의 거의 임의의 레벨에 있을 수 있다.

도 7은 본 발명의 일 실시예에 따른 반도체 장치(700)의 단면도를 예시한다. 장치(700)는 패키지(702), 다이(728), 다이(730) 및 다이-다이 비아들(726)을 포함할 수 있다. 하나 이상의 범프(704-1 내지 704-N)(본 명세서에서 집합적으로 "범프들(704)"이라고 불림)는 전원, 접지, 클럭 및/또는 입력/출력(input/output) 신호들을 포함하는 전기 신호들이 패키지(702)와 다이(728) 사이에 전달되게 할 수 있다. 다이(728)는 범프들(704) 및 다이(730) 사이에서 신호들을 전달시키기 위한 하나 이상의 다이 관통 비아들(706)을 포함할 수 있다. 장치(700)는 다이(730) 및/또는 장치(700)에 의해 생성된 열의 방산을 가능케 하는 방열판(heat sink)(708)을 더 포함할 수 있다.

다이들(728 및 730)은 다양한 층을 포함할 수 있다. 예를 들면, 다이(728)은 벌크 실리콘(SI) 층(710), 활성 Si 층(712), 및 금속 스택(714)을 포함할 수 있다. 다이(730)는 금속 스택(720), 활성 Si층(722), 및 벌크 Si 층(724)를 포함할 수 있다. 도 2에 도시된 바와 같이, 비아들(726)은 다이들(728 및 730)과 각각 금속 스택들(714 및 720)을 통하여 통신할 수 있다. 일 실시예에서, 다이(728)는 다이(730)보다 얇을 수 있다. 예를 들면, 다이(728)는 (RAM 장치와 같은) 메모리 장치를 포함할 수 있고, 다이(730)는 하나 이상의 프로세서 코어 및/또는 공유된 또는 전용의 캐시들을 포함할 수 있다.

다이(730)는 하나 이상의 PF 로직(732)의 예를 포함한다. 소정의 실시예에서, PF 로직(732)은 두 개 이상의 캐시 라인을 다이(728)의 DRAM에서 다이(730)의 SRAM으로 전송할 수 있다. 전송은 다이-다이 비아들(726)을 통하여 일어날 수 있다. 소정의 실시예들에서, 다이-다이 비아들(726)의 상대적으로 높은 대역폭은 PF 로직(732)이 다수의 캐시 라인의 블록들을 대기 시간의 현저한 증가 없이 전송할 수 있게 한다.

장치(700)는 예를 들면, 다른 컴포넌트들을 동일한 장치 또는 시스템에 통합하기 위해서, 부가적인 다이들을 포함할 수 있다. 그러한 실시예에서, 다이-다이 및/또는 다이 관통 비아들은 (예를 들면, 비아들(726 및 706)에 대해 논의된 것과 같은) 다양한 다이들 사이에서 신호들을 전달하는 데 사용될 수 있다.

본 발명의 실시예들의 요소들은 머신 실행가능한 명령어(machine-executable instruction)들을 저장하기 위한 머신-판독가능한 매체(machine readable medium) 로서 제공될 수도 있다. 머신-판독가능한 매체는 플래시 메모리, 광 디스크들, CD-ROM(compact disks-read only memory), DVD(digital versatile/video disks) ROM, RAM(random access memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), 자기 또는 광학 카드들, 전파 매체 또는 전자적인 명령어들을 저장하기에 적합한 다른 유형의 머신-판독가능 매체를 포함할 수 있지만, 거기에 한정되지는 않는다. 예를 들면, 본 발명의 실시예들은 반송파 또는 다른 전파 매체에 구현된 데이터 신호들로써 통신 링크(예를 들면, 모뎀 또는 네트워크 접속)를 통하여 원격 컴퓨터(예를 들면, 서버)에서 요청 컴퓨터(예를 들면, 클라이언트)로 전송될 수 있는 컴퓨터 프로그램으로서 다운로드될 수 있다.

본 명세서 전체에 걸친 "하나의 실시예" 또는 "일 실시예"에 대한 언급은 그 실시예와 관련되어 기술된 특정한 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다는 것을 이해해야 한다. 그리하여, 본 명세서에서의 다양한 부분들에서의 "일 실시예" 또는 "하나의 실시예" 또는 "대안적인 실시예"에 대한 두 번 이상의 언급은 반드시 모두가 동일한 실시예를 가리키는 것은 아니라는 것이 강조되고 이해되어야 한다. 더욱이, 특정한 특징들, 구조들 또는 특성들은 본 발명의 하나 이상의 실시예에서 적절하게 결합될 수 있다.

유사하게, 본 발명의 실시예들에 대한 전술한 설명에서 하나 이상의 다양한 발명의 양상을 이해하는 것을 돕도록 명세서를 간결하게 하기 위해 때때로 다양한 특징들이 하나의 실시예, 도면, 또는 그에 대한 설명에서 함께 그룹화(grouped)된 다는 것이 이해되어야 한다. 그러나 이러한 명세서의 방법은 본 발명이 각 청구범위에서 명백히 열거된 것보다 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안된다. 오히려, 이하의 청구범위가 반영하는 것과 같이, 발명의 양상들은 전술한 개시된 하나의 실시예의 모든 특징보다 적은 수의 특징에 있다. 그리하여, 상세한 설명 다음의 청구범위들은 그에 의해 본 상세한 설명에 명백히 포함된다.

도 1은 본 발명의 일 실시예에 따라 구현된 컴퓨팅 시스템의 선택된 양상들을 도시하는 블록도이다.

도 2는 본 발명의 일 실시예에 따른 블록 전송을 도시하는 개념도이다.

도 3은 본 발명의 일 실시예에 따라 구현된 컴퓨팅 시스템의 선택된 양상들을 도시하는 고레벨 블록도이다.

도 4는 L2 캐시가 공유되는 일 실시예를 도시하는 고레벨 블록도이다.

도 5는 프리페치 로직이 캐시 계층 구조 내의 상이한 레벨들에서 사용되는 일 실시예를 도시하는 고레벨 블록도이다.

도 6은 본 발명의 일 실시예에 따른 블록 전송의 선택된 양상들을 도시하는 흐름도이다.

도 7은 본 발명의 일 실시예에 따라 구현된 반도체 장치의 단면도이다.

<도면의 주요 부분에 대한 부호의 설명>

110: Ln 캐시

112; PF

106: 상호접속

104: DRAM

206: 열린 캐시 페이지

Claims

프로세서 코어를 포함하는 집적 회로로서,

상기 프로세서 코어는,

L1 캐시;

제1 로드 명령어와 관련된 프리페치 힌트(prefetch hint)를 생성하기 위한 명령어 프로세싱 로직 - 상기 명령어 프로세싱 로직은 명령어 포인터 히스토리(instruction pointer history)의 검출에 응답하여 상기 프리페치 힌트를 생성하고, 상기 프리페치 힌트는 상기 제1 로드 명령어 다음의 두 개 이상의 로드 명령어가 동일한 캐시 페이지로부터 데이터를 요청할 가능성인 신뢰도(degree of confidence)를 나타내며, 상기 명령어 프로세싱 로직은 상기 L1 캐시의 부적중(miss)에 응답하여 상기 프리페치 힌트를 더 송신함 -; 및

상기 명령어 프로세싱 로직에 연결된 프리페치 로직을 포함하고,

상기 프리페치 로직은, 적어도 부분적으로, 상기 프리페치 힌트의 상기 송신에 기초하여 두 개 이상의 캐시 라인을 DRAM(dynamic random access memory)의 열린 페이지에서 SRAM(static random access memory)으로 전송하고, 상기 DRAM은 하나의 레벨의 캐시(a level of cache)를 제공하고 상기 SRAM은 그 다음의 상위 레벨의 캐시(next higher level of cache)를 제공하는 집적 회로.
제1항에 있어서,

상기 두 개 이상의 캐시 라인은 메모리의 페이지를 포함하는 집적 회로.
제1항에 있어서,

상기 프리페치 로직은 고밀도 인터페이스를 통하여 상기 두 개 이상의 캐시 라인을 전송하기 위한 것인 집적 회로.
제3항에 있어서,

상기 고밀도 인터페이스는 다이-다이 비아(die-to-die via)인 집적 회로.
제3항에 있어서,

상기 고밀도 인터페이스는 실리콘 관통 비아(through-silicon-via)인 집적 회로.
제1항에 있어서,

상기 DRAM은 벌크 메모리를 포함하는 집적 회로.
삭제
제1항에 있어서,

상기 하나의 레벨의 캐시는 L3 캐시이고 상기 그 다음의 상위 레벨의 캐시는 L2 캐시인 집적 회로.
삭제
제1항에 있어서,

조절(throttling) 로직을 더 포함하고,

상기 조절 로직은, 적어도 부분적으로, 상호접속 사용 레벨(interconnect usage level) 및 상기 프리페치 힌트에 기초하여 상기 두 개 이상의 캐시 라인의 전송을 조절할 수 있는 집적 회로.
제8항에 있어서,

상기 프로세서 코어는 상기 집적 회로의 프로세싱 유닛의 복수의 프로세싱 코어 중 하나이고, 각각의 상기 복수의 프로세싱 코어는 각자의 프리페치 로직을 포함하는 집적 회로.
제8항에 있어서,

상기 프로세서 코어는 그래픽 코어를 포함하는 집적 회로.
프로세서 코어의 명령어 프로세싱 로직으로, 제1 로드 명령어와 관련된 프리페치 힌트를 생성하는 단계 - 상기 프로세서 코어는 L1 캐시를 포함하고, 상기 생성은 명령어 포인터 히스토리의 검출에 대한 응답이며, 상기 프리페치 힌트는 상기 제1 로드 명령어 다음의 두 개 이상의 로드 명령어가 동일한 캐시 페이지로부터 데이터를 요청할 가능성인 신뢰도를 나타냄 -;

상기 L1 캐시의 캐시 부적중에 응답하여, 상기 명령어 프로세싱 로직이 상기 프리페치 힌트를 송신하는 단계; 및

상기 프로세서 코어의 프로페치 로직으로, 적어도 부분적으로, 상기 프리페치 힌트의 상기 송신에 기초하여 두 개 이상의 캐시 라인을 DRAM의 열린 페이지에서 SRAM으로 전송하는 단계

를 포함하는 방법.
삭제
제13항에 있어서,

상기 신뢰도는 세 개 이상의 값들 중 하나인 방법.
제15항에 있어서,

상기 세 개 이상의 값들은 고, 중, 저를 포함하는 방법.
제13항에 있어서,

적어도 부분적으로, 상호접속 사용 레벨 및 상기 프리페치 힌트에 기초하여 상기 두 개 이상의 캐시 라인의 전송을 조절하는 단계를 더 포함하는 방법.
제13항에 있어서,

상기 DRAM의 상기 열린 페이지로부터 상기 두 개 이상의 캐시 라인을 전송하는 단계는:

상기 DRAM의 상기 열린 페이지로부터 캐시 페이지를 전송하는 단계를 포함하는 방법.
제13항에 있어서,

상기 DRAM은 벌크 메모리를 포함하는 방법.
제13항에 있어서,

상기 DRAM은 하나의 레벨의 캐시(a level of cache)를 제공하는 방법.
DRAM을 포함하는 제1 다이;

제2 다이; 및

상기 제1 다이와 상기 제2 다이 사이에 연결된 상호접속

을 포함하고,

상기 제2 다이는 프로세서 코어를 포함하고,

상기 프로세서 코어는,

L1 캐시;

제1 로드 명령어와 관련된 프리페치 힌트를 생성하기 위한 명령어 프로세싱 로직 - 상기 명령어 프로세싱 로직은 명령어 포인터 히스토리의 검출에 응답하여 상기 프리페치 힌트를 생성하고, 상기 프리페치 힌트는 상기 제1 로드 명령어 다음의 두 개 이상의 로드 명령어가 동일한 캐시 페이지로부터 데이터를 요청할 가능성인 신뢰도를 나타내며, 상기 명령어 프로세싱 로직은 상기 L1 캐시의 부적중에 응답하여 상기 프리페치 힌트를 더 송신함 -; 및

상기 명령어 프로세싱 로직에 연결된 프리페치 로직을 가지고,

상기 프리페치 로직은, 적어도 부분적으로, 상기 프리페치 힌트의 상기 송신에 기초하여 두 개 이상의 캐시 라인을 DRAM의 열린 페이지에서 SRAM으로 전송하고, 상기 DRAM은 하나의 레벨의 캐시(a level of cache)를 제공하고 상기 SRAM은 그 다음의 상위 레벨의 캐시(next higher level of cache)를 제공하는 시스템.
제21항에 있어서,

상기 두 개 이상의 캐시 라인은 메모리의 페이지를 포함하는 시스템.
제21항에 있어서,

상기 상호접속은 다이-다이 비아인 시스템.
삭제
삭제
제21항에 있어서,

상기 프로세서 코어는 상기 시스템의 프로세싱 유닛의 복수의 프로세싱 코어 중 하나이고, 각각의 상기 복수의 프로세싱 코어는 각자의 프리페치 로직을 포함하는 시스템.
제21항에 있어서,

상기 프로세서 코어는 그래픽 코어를 포함하는 시스템.