Intel HEX

Das Intel HEX-Format ist ein Datenformat zur Speicherung und Übertragung von binären Daten. Es wird heute hauptsächlich verwendet, um Programmierdaten für Mikrocontroller bzw. Mikroprozessoren, EPROMs und ähnliche Bausteine zu speichern. Es kann aber auch zur Speicherung von Lademodulen verwendet werden. Das HEX-Format ist das älteste Datenformat seiner Art und seit den 1970er Jahren in Gebrauch. Spätere Erweiterungen unterstützen speziell die segmentierte Adressierung der Intel-80x86-Prozessoren.

Eine Intel-HEX-Datei liegt im ASCII-Format vor. Die Bytes der kodierten Binärdaten werden jeweils als Hexadezimalzahl aus zwei ASCII-Zeichen (0…9 und A…F) dargestellt. HEX-Dateien können mit einem Texteditor geöffnet und modifiziert werden. Die HEX-Datei ist in etwa doppelt so groß wie die enthaltenen Binärdaten, da die Darstellung eines Bytes mit zwei Bytes in hexadezimaler Schreibweise erfolgt. Die Datensätze sind mit einer Prüfsumme versehen, so dass Übertragungsfehler erkannt werden können.

Geschichte

Das Intel-Hex Format (Ursprünglich Intellec-Hex) wurde von Intel 1973 für die Intellec Entwicklungssysteme (MDS) entworfen um Programme von Lochstreifen zu laden und starten. Außerdem sollte es die Übermittlung der Daten zur ROM-Produktion vereinfachen. Gleichzeitig wurde es zur Programmierung von (E)PROM mittels lochstreifen- oder lochkartengesteuerter EPROM-Programmiergeräte verwendet. Ab der Einführung von Diskettenlaufwerken mit dem MCS Serie II unter ISIS II (1975) wurden auch Dateien in diesem Format erstellt. Als Dateiendung dient seitdem HEX.

Format

Das hier beschriebene Format entspricht der Hexadecimal Object File Format Specification^[1] von Intel.

Aufbau eines Datensatzes

Jede Zeile repräsentiert einen Datensatz. Die Zeichen-Codierung ist (7 Bit) ASCII. Jeder Datensatz wird durch einen Doppelpunkt (":") eingeleitet, besteht aus einer geraden Anzahl von Zeichen und wird durch ein Zeilenende abgeschlossen. Der Aufbau des Zeilenendes ist nicht definiert und medienabhängig. Intel-Tools für Streaming-Medien erzeugen immer ein CR/LF (0D0A_HEX).

Jeweils zwei Zeichen repräsentieren ein Datenbyte. Die Notation erfolgt hexadezimal, big-endian mit den Zeichen 0..9 und A..F, d. h., dass das höherwertige Halbbyte zuerst steht. Gleichfalls erfolgen alle Angaben in den Adressfeldern big-endian. Kleinbuchstaben (a..f) sind in der Definition nicht erwähnt, werden jedoch von den meisten Implementierungen unterstützt.

Intel-Bezeichnung	Inhalt	Verwendung
RECORD MARK	Satzbeginn	":" (Doppelpunkt, ASCII-Kodierung 3A_HEX)
RECLEN	Datenlänge	Länge der Nutzdaten als zwei Hexadezimalziffern
LOAD OFFSET	Ladeadresse	16-Bit-Adresse (Big-Endian)
RECTYP	Satztyp	Datensatztyp (00..05)
INFO or DATA	Daten	Nutzdaten (RECLEN x 2 Zeichen)
CHKSUM	Prüfsumme	Prüfsumme über den Datensatz (ohne Satzbeginn)

Datensatztypen

Übersicht

Es gibt sechs Datensatztypen (record types):

Typ	Bezeichnung	Verwendung
00	Data Record	Nutzdaten
01	End of File Record	Dateiende (sowie Startadresse bei 8-Bit-Daten)
02	Extended Segment Address Record	Erweiterte Segmentadresse für nachfolgende Nutzdaten
03	Start Segment Address Record	Startsegmentadresse (CS:IP Register)
04	Extended Linear Address Record	Erweiterte lineare Adresse, höherwertige 16 Bit der Adresse für nachfolgende Nutzdaten
05	Start Linear Address Record	Lineare Startadresse (EIP-Register)

Die Datensätze können in beliebiger Reihenfolge vorkommen, ein Endesatz (Typ 01) beendet die Verarbeitung.

Data Record (Typ 00)

Der Datensatz enthält die 16-Bit-Ladeadresse und die Nutzdaten.

	Startcode	Anzahl der Bytes	Adresse	Typ	Datenfeld	Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	2n Ziffern	2 Ziffern
Inhalt	:	n	Adresse	00	Daten	Prüfsumme

n: Anzahl der Bytes im Datenfeld
Adresse: 16-Bit-Adresse für die Speicherung des Datensatzes
Daten: Datenfeld, n Bytes

End of File Record (Typ 01)

Der Datensatz markiert das Dateiende. In der ursprünglichen (8 Bit) Definition wird, für ladbare Formate, im Adressfeld die Startadresse des Programms (PC) angegeben. In den 16/32-Bit-Formaten muss diese 0000 sein.

	Startcode	Anzahl der Bytes	Adresse	Typ	Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	2 Ziffern
Inhalt	:	00	0000	01	FF

Extended Segment Address Record (Typ 02)

Das Datenfeld des Extended Segment Address Record (erweiterte Segmentadresse) enthält Bit 4–19 des Adresssegmentes der nachfolgenden Data Records (Zählung beginnend mit 0) in Fällen, in denen der Umfang eines 16-Bit-Adressraums (also 64 kByte) nicht ausreicht. Die im Datenfeld enthaltene Adresse wird dabei um 4 Bit nach links verschoben (entsprechend einer Multiplikation mit $2^{4}$ = 16) und bei den folgenden Data Records (Typ 00) zu den dort enthaltenen 16-Bit-Adressen addiert. Der Extended Segment Address Record bleibt bis zur Änderung durch einen anderen Extended Segment Address Record wirksam. Das Adressfeld des Datensatzes vom Typ 02 ist immer 0000, die Länge ist 02.^[2]

	Startcode	Anzahl der Bytes	Adresse	Typ	Datenfeld	Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	4 Ziffern	2 Ziffern
Inhalt	:	02	0000	02	Segment	Prüfsumme

Start Segment Address Record (Typ 03)

Der Datensatz spezifiziert bei Lademodulen die Startadresse. Für x86-Prozessoren ist dies der CS:IP Inhalt. Der Datensatz kann an beliebiger Position auftauchen. Die Startadresse wird berechnet als Segment * 16 + Offset. Das Adressfeld ist immer 0000, die Länge ist 04.

	Startcode	Anzahl der Bytes	Adresse	Typ	Datenfeld		Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	4 Ziffern	4 Ziffern	2 Ziffern
Inhalt	:	04	0000	03	Segment	Offset	Prüfsumme

Extended Linear Address Record (Typ 04)

Das Datenfeld des Extended Linear Address Record (erweiterte lineare Adresse, auch 32-bit Adressdatensatz oder HEX386 Record) dient der Unterstützung eines 32-Bit-Adressraumes mit einer 4-GB-Grenze und enthält mit Bit 16–31 die höherwertigen 16 Bit (ULBA, Upper Linear Base Address, Zählung beginnend mit 0) einer 32-Bit-Adresse (LBA, Linear Base Address). Der Adressdatensatz gilt für alle nachfolgenden Typ-00-Datensätze, bis er durch einen anderen erweiterten Adressdatensatz ersetzt wird. Die absolute Speicheradresse eines Typ-00-Datensatzes ergibt sich, indem dem Adressfeld dieses Datensatzes die Adressdaten aus dem erweiterten Adressdatensatz vorangestellt werden. Wenn einem Typ-00-Datensatz innerhalb eines 32-Bit-Adressraumes kein Typ-04-Adressdatensatz vorangestellt ist, werden die oberen 16 Adressbits standardmäßig auf 0000 gesetzt.^[2]

Das Adressfeld des erweiterten Adressdatensatzes selber wird (bei einer Länge von 02) stets als 0000 gesetzt:

	Startcode	Anzahl der Bytes	Adresse	Typ	Datenfeld	Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	4 Ziffern	2 Ziffern
Inhalt	:	02	0000	04	ULBA, Adresse (high word)	Prüfsumme

Start Linear Address Record (Typ 05)

Der Datensatz spezifiziert bei Lademodulen die Startadresse. Bei x86-Prozessoren ist dies der Inhalt des EIP-Registers. Das Adressfeld ist immer 0000, die Länge ist 04.

	Start code	Anzahl der Bytes	Adresse	Typ	Datenfeld	Prüfsumme
Länge	1 Zeichen	2 Ziffern	4 Ziffern	2 Ziffern	8 Ziffern	2 Ziffern
Inhalt	:	04	0000	05	EIP	Prüfsumme

Berechnung der Prüfsumme

Die Prüfsumme wird aus dem gesamten Datensatz ausschließlich des Startcodes und der Prüfsumme selbst berechnet. Der Datensatz wird byteweise summiert, von der Summe wird das niederwertige Byte genommen und davon wiederum das Zweierkomplement gebildet.

Das Zweierkomplement wird gebildet, indem man die Bits des niederwertigen Bytes invertiert und dann 1 addiert. Dies kann man z. B. durch die Exklusiv-Oder-Verknüpfung mit FF_HEX und Addition von 01_HEX erreichen. So bleibt 00_HEX unverändert, aus 01_HEX wird FF_HEX usw.

Das Zweierkomplement drückt im Binärsystem eine negative Zahl aus. Da die Prüfsumme damit die negative Summe der restlichen Bytes darstellt, gestaltet sich die Überprüfung eines Datensatzes auf Fehler sehr einfach. Man summiert einfach die einzelnen Bytes eines Datensatzes inklusive der Prüfsumme und erhält als niederwertiges Byte 00_HEX, falls der Datensatz korrekt ist.

Varianten

Intel

Im Laufe der Prozessorentwicklung von Intel 4004 bis heute wurden verschiedene Varianten definiert:

Variante	Einsatz	Erlaubte Satztypen
I08HEX	4/8-Bit-CPU (4004..8085)	00 (Data), 01 (End of File)
I16HEX	16-Bit-CPU (8086/186/286)	00 (Data), 01 (End of File), 02 (Extended Segment Address), 03 (Start Segment Address)
I32HEX	32-Bit-CPU (ab 80386)	00 (Data), 01 (End of File), 02 (Extended Segment Address), 03 (Start Segment Address), 04 (Extended Linear Address), 05 (Start Linear Address)

Andere Hersteller

Das HEX-Format wurde als Quasi-Standard vielfältig verwendet. Dabei wurde die Byteorder im Datenfeld teilweise geändert, d. h. die Reihenfolge stimmt nicht mit der Adresslage überein. Außerdem haben Hersteller (z. B. Texas Instruments) die Adressierung geändert. Dort entspricht die Adresse nicht einem Byte, sondern der Breite eines Registers des Prozessors.

Beispiel

:020000021000EC
:10010000214601360121470136007EFE09D2190140
:100110002146017EB7C20001FF5F16002148011988
:10012000194E79234623965778239EDA3F01B2CAA7
:100130003F0156702B5E712B722B732146013421C7
:00000001FF

Startcode

Byte count

Adresse

Typ

Datenfeld

Prüfsumme

Die Prüfsumme für den zweiten Beispiel-Datensatz berechnet sich wie folgt: ${10+}$ ${01+00+}$ ${00+}$ ${21+46+01+36+01+21+47+01+36+00+7E+FE+09+D2+19+01}$ $\ {=}\ 3C0\rightarrow C0\rightarrow \neg C0+1\ {=}\ 40$ .

Quellen, Weblinks

Intel HEX Format (englisch)
SB-Projects: fileformats: intel hex - sehr übersichtliche Darstellung (englisch)
hexformat - Python Bibliothek für HEX-Formate IntelHex und SRecord
Intel HEX to bin C programm mit source code
SwiftIntelHex - Swift package zum Parsen von Intel HEX files für iOS and macOS.

Einzelnachweise

↑ Hexadecimal Object File Format Specification, Revision A vom 6. Januar 1988
↑ ^a ^b GENERAL: Intel HEX File Format. ARM Germany GmbH, abgerufen am 25. November 2022 (englisch).

[1] Hexadecimal Object File Format Specification, Revision A vom 6. Januar 1988

[data_type-2] GENERAL: Intel HEX File Format. ARM Germany GmbH, abgerufen am 25. November 2022 (englisch).

[1]

[2]