KR20010057827A - Method of Managing System Errors in the Network System - Google Patents
Method of Managing System Errors in the Network System Download PDFInfo
- Publication number
- KR20010057827A KR20010057827A KR1019990061238A KR19990061238A KR20010057827A KR 20010057827 A KR20010057827 A KR 20010057827A KR 1019990061238 A KR1019990061238 A KR 1019990061238A KR 19990061238 A KR19990061238 A KR 19990061238A KR 20010057827 A KR20010057827 A KR 20010057827A
- Authority
- KR
- South Korea
- Prior art keywords
- trap
- log file
- identifier
- event
- session
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000007726 management method Methods 0.000 abstract description 16
- 230000000630 rising effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 108700010388 MIBs Proteins 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0775—Content or structure details of the error report, e.g. specific table structure, specific error fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
본 발명은 네트워크 시스템(Network System)에서 시스템 오류 관리(System Fault Management) 방법에 관한 것으로, 특히 시스템의 장애가 발생할 경우에 생성시킨 트랩(Trap; 경고 메시지)과 로그 파일(Log File)을 NVRAM에 저장시켜 디스크립션(Description)을 유지하도록 한 네트워크 시스템에서 시스템 오류 관리 방법에 관한 것이다.The present invention relates to a system fault management method in a network system, and particularly stores a trap and a log file generated in an NVRAM in the event of a system failure in NVRAM. The present invention relates to a system error management method in a network system to maintain a description.
본 발명의 방법은 RMON에서 세션 요구에 따라 세션 생성 요구 정보를 확인하여 세션을 생성시켜 줌과 동시에 타이머를 가동시켜 주는 과정과; 타이머 식별자 및 기설정된 시간의 경과 유무를 확인하여 주기적으로 모니터링하면서 관련 정보를 수집하여 업데이트하는 과정과; 상기 업데이트값이 기설정된 임계값 이상인지를 확인하여 알람/이벤트를 생성하는 과정과; 트랩 또는 로그 파일을 생성하며, 트랩 식별자와 이벤트 식별자의 속성을 확인하고 해당 확인된 속성에 따라 해당 트랩 또는 로그 파일의 저장 여부를 결정하는 과정을 포함하여 이루어진 것을 특징으로 한다.The method of the present invention includes the steps of creating a session by checking the session creation request information according to the session request in RMON and starting a timer; Collecting and updating related information while periodically checking and checking a timer identifier and whether a predetermined time has elapsed; Generating an alarm / event by checking whether the update value is equal to or greater than a preset threshold value; And generating a trap or log file, checking attributes of the trap identifier and the event identifier, and determining whether to store the trap or log file according to the identified attributes.
Description
본 발명은 네트워크 시스템에서 시스템 오류 관리 방법에 관한 것으로, 특히 시스템의 장애가 발생할 경우에 생성시킨 트랩(Trap; 경고 메시지)과 로그 파일(Log File)을 NVRAM에 저장시켜 디스크립션(Description)을 유지하도록 한 네트워크 시스템에서 시스템 오류 관리 방법에 관한 것이다.The present invention relates to a method for managing a system error in a network system. In particular, a trap (alert message) and a log file generated in the event of a system failure are stored in NVRAM to maintain a description. A system error management method in a network system.
일반적으로, RFC(Request of Comment) 1757의 RMON MIB(Management Information Base)에는 하나의 세그먼트(Segment) 내에서 발생한 패킷(Packet)/바이트(Bytes), 브로드케스트(Broadcast)/멀티케스트(Multicast) 번호 등에 대한 통계 그룹(Statistics Group)과, 매니저(Manager)가 설정한 시간 간격 내에 발생한 각종 트래픽(Traffic) 및 에러(Error)에 대한 정보를 제공하는 히스토리 그룹(History Group)과, 주기적으로 특정한 값을 체크(Check)하여 기준치(임계치)에 도달하면 매니저에게 보고하고 대리인 자신이 기록을 유지하는 알람 그룹(Alarm Group)과, 세그먼트에 연결된 각 장비가 발생시킨 트래픽 및 에러 수를 호스트(Host) 별로 관리하는 호스트 그룹과, 해당 호스트 그룹에서 발생된 호스트 중에서 일정 시간 동안에 가장 많은 트래픽을 발생시킨 호스트를 찾는 호스트 탑엔 그룹(Host Top N Group)과, 데이터 링크 계층(Data-link Layer), 즉 MAC(Media Access Control) 어드레스(Address)를 기준으로 두 호스트간에 발생한 트래픽 및 에러에 대한 정보를 수집하여 가장 많은 트래픽 및 에러를 발생시키는 이용자가 누구인지를 알아보는 매트릭스 그룹(Matrix Group)과, 매니저가 특정한 패킷의 동향을 감시하여 필터링(Filtering)되는 패킷이 임의의 한계치 이상 발생하면 알려주는 필터 그룹(Filter Group)과, 세그먼트에 발생한 패킷을 수집해서 매니저가 분석할 수 있도록 하는 패킷 캡춰 그룹(Packet Capture Group)과, 일정한 이벤트가 발생하면 그 기록을 보관하고 매니저에게 트랩을 보내는 이벤트 그룹을 포함하여 이루어져 있다.In general, the RMON Management Information Base (RFC) of Request for Comment (RFC) 1757 has a Packet / Byte, Broadcast / Multicast number generated within one segment. Statistics Group for the data, etc., History Group that provides information on various traffic and errors within the time interval set by the Manager, and specific values periodically By checking and reaching the threshold (threshold), the manager manages the alarm group that the agent maintains the record, and the number of traffic and errors generated by each device connected to the segment by host. Host Top N Group, which finds the hosts that generated the most traffic in a certain period of time among the hosts generated from the host group, Collects information about traffic and errors between two hosts based on the data-link layer, or MAC (Media Access Control) address, to find out who has the most traffic and errors. The Matrix Group to see, the Manager monitors the trend of a specific packet, and the Filter Group to notify if the filtered packet occurs more than a certain threshold value, and the Manager collects the packets generated in the segment. It includes a packet capture group that allows analysis and an event group that keeps a record of certain events as they occur and sends traps to the manager.
여기서, 해당 RMON 그룹은 시스템(System)에서 비정상적인 이벤트가 발생하는 경우에는 매니저에게 트랩을 발생시켜 해당 매니저로 하여금 이에 대한 조치를 취할 수 있도록 하는데, 특히 해당 필터 그룹, 호스트 탑 엔 그룹, 이벤트 그룹 및 알람 그룹은 매니저에게 트랩을 발생시켜 준다.Here, when an abnormal event occurs in the system, the RMON group generates a trap to the manager so that the manager can take action. In particular, the filter group, the host top-end group, the event group, The alarm group generates a trap for the manager.
그리고, 해당 방법에는 트랩만을 발생시킬 것인지, 로그 파일로만 시스템에 저장시킬 것인지 및 트랩과 로그 파일을 동시에 발생시킬 것이지를 구분할 수 있다.In this method, it is possible to distinguish whether to generate only a trap, to store only a log file in the system, and to simultaneously generate a trap and a log file.
또한, 상기 RMON MIB를 지원하기 위해서 시스템에는 MIB 정보를 주기적으로 수집(Gathering)하는 타이머(Timer)를 등록하며, RFC에서 권고하는 각 그룹별로 엔트리(Entry)를 생성하기 위해서 세션(Session)을 생성(Creation)해 준다.In addition, in order to support the RMON MIB, the system registers a timer that periodically collects MIB information, and creates a session to generate an entry for each group recommended by the RFC. (Creation)
이에, 상기 생성된 세션에서는 주어진 타임아웃 값(Time-out Value)마다 정보를 수집하여 임의의 한계치에 도달하면 SNMP를 이용하여 NMS에 트랩을 발생시키거나 시스템의 로그 파일에 발생된 상황에 대해서 디스크립션을 기술해 준다.Therefore, the generated session collects information for each given time-out value, and when a certain threshold is reached, a trap is generated in the NMS using SNMP or a description of the situation occurred in the log file of the system. Describe it.
만약, 해당 NMS가 해당 로그 파일을 보고자 한다면, 해당 SNMP를 이용하여 볼 수 있으나, 이때 시스템이 결정적(Critical)인 오류(Fault)로 인하여 리부팅(Rebooting)된다면 해당 로그 파일에 대한 정보가 삭제(Clear)되고 어떤 이유로 트랩이 발생되었는지를 알 수 없게 된다.If the NMS wants to view the log file, it can be viewed using the SNMP, but if the system is rebooted due to a critical fault, the information on the log file will be cleared. And the reason for the trap is unknown.
그러면, 종래 기술의 네트워크 시스템에 있어서, 에러 패킷(Error Packets)에 대한 알람과 이벤트로 시스템 오류 관리를 위한 구성을 살펴보면, 도 1에 도시된 바와 같이, SNMP(11)와, NMS(12)와, RMON 처리 모듈(13)과, 오류 처리 모듈(14)과, 디바이스(15)를 포함하여 이루어져 있다.Then, in the network system of the prior art, looking at the configuration for system error management with alarms and events for the error packets (Error Packets), as shown in Figure 1, the SNMP 11, the NMS 12 and And an RMON processing module 13, an error processing module 14, and a device 15.
상술한 바와 같은 구성의 시스템 오류 관리 방법을 살펴보면 다음과 같다.Looking at the system error management method of the configuration as described above are as follows.
먼저, SNMP(11)는 RFC의 권고에 따라 통계 그룹의 에러 패킷을 수집하는 세션을 생성해 주는데, RMON 처리 모듈(13)을 통해 해당 세션을 생성해 주기 위해서는 해당 수집하는 세션 번호, 포트 번호(Port Number), 세션 소유자(Session Owner) 등을 가지고 생성하며, 생성 요구의 마지막 단계에서 주기적으로 타임아웃을 체킹하여 정보를 수집하여 업데이트(Up-date)하는 타이머(Timer)를 생성해 준다.First, the SNMP 11 generates a session for collecting error packets of a statistic group according to the recommendation of the RFC. In order to generate the session through the RMON processing module 13, the corresponding session number and port number ( Port number) and session owner are created, and a timer is generated to collect and update information by periodically checking the timeout at the end of the creation request.
이렇게 통계의 한 세션이 생성되어지면, 상술한 방법과 동일하게 알람과 이벤트 세션을 생성한다. 해당 알람의 경우에 통계와 다른 점은 어떤 경우에 알람을 발생시키는가에 대한 정보가 추가적으로 요구된다.Once a session of statistics has been created, create an alarm and event session in the same way as described above. In the case of the alarm, the difference from the statistics requires additional information on when the alarm is generated.
즉, 시스템의 한 포트에 대해서 에러 패킷이 약 10,000 개 이상 발생하게 되면, 알람을 발생시킬 수 있도록 할 경우에 알람 세션의 생성 요구 시에 해당 값을 세션 엔트리에 기록해야 하며, 얼마의 간격(Interval) 동안에 타이머가 에러 패킷의 정보를 수집하는가에 대한 간격 값과, 에러 패킷 값이 절대(Absolute)값인지 아니면 변화(Delta)값인지를 구별하는 샘플 타입 값(Sample Type Value)과, 에러 패킷 값이 시스템에서 지원하는 최소값인 '0'으로부터 최대값인 '0xFFFFFFFF' 사이에서 최소값에서 최대값으로 증가하면서 '10,000'에 도달할 때에 알람을 발생시킬 것인가 또는 두 경우의 모두에서 발생시킬 것인가를 나타내는 값들, 즉 폴링 임계(Falling Threshold), 라이징 임계(Rising Threshold), 폴링 및 라이징 임계의 값을 세션 엔트리에 기록해야 한다.That is, if more than 10,000 error packets are generated for one port of the system, when the alarm can be generated, the corresponding value should be recorded in the session entry when an alarm session is created. The interval value for whether the timer collects information of the error packet, the sample type value that distinguishes whether the error packet value is absolute or delta, and the error packet value Values indicating whether to generate an alarm when reaching '10, 000 'while increasing from minimum value to maximum value between minimum value' 0 'to maximum value' 0xFFFFFFFF 'supported by this system, or both In other words, the values of Falling Threshold, Rising Threshold, Polling and Rising Threshold should be recorded in the session entry.
그리고, 해당 기록된 값들에 의해서 에러 패킷에 대해서 '10,000'의 값이 도달하게 되면, 시스템의 오류 매니저에게 해당 트랩 또는 로그 파일의 발생을 위해서 이벤트를 발생시켜 준다.When the value of '10, 000 'is reached for the error packet by the recorded values, the system generates an event to generate the trap or log file to the error manager of the system.
이에, 해당 발생된 이벤트에 대해서 생성된 이벤트 세션은 시스템의 로그 테이블(Log Table)에 디스크립션을 기록하며, 트랩을 상기 SNMP(11)를 통해서 NMS(12)에 전송하게 된다. 그리고, 해당 발생된 트랩에 대해서 매니저는 시스템에 연결되어 있는 단말 및 시스템의 진단을 실시하여 오류를 해결해 주게 된다.Accordingly, the event session generated for the generated event records a description in a log table of the system, and transmits a trap to the NMS 12 through the SNMP 11. In addition, the manager solves the error by diagnosing the terminal and the system connected to the system.
그런데, 상기 RMON의 구현에 있어서, 상기 NMS(12)에 트랩 또는 로그 파일을 발생시킬 경우에는 RFC에 권고되어 있는 것에 한하여 발생시킬 수 있으며, 해당 발생시킨 것에 대해서 중대한 오류에 의한 시스템 리셋(System Reset)의 경우에는 경과 메시지와 로그 파일을 RAM(Random Access Memory)에 저장하기 때문에 지속적으로 유지하기가 곤란하다.By the way, in the implementation of the RMON, when generating a trap or log file to the NMS (12) can be generated only as recommended in the RFC, the system reset due to a serious error for the generated (System Reset) ) Stores past messages and log files in random access memory (RAM), making it difficult to maintain them continuously.
또한, 권고되지 않는 오류에 대해서 원인을 규명하기 위해서는 지속적으로 시스템을 모니터링해야 하는 불편함이 따른다. 해당 RFC 권고 이외의 오류로는 디바이스의 중요한 오류, 메모리 할당 오류(Memory Allocation Faults), 시스템 각 처리 모듈에서 오퍼레이션(Operation)에 필요한 자원(Resource) 할당에 실패한 경우, 각 처리 모듈에서 비정상적인 경우의 트레스(Trace) 등이 이에 해당할 수 있다.In addition, it is inconvenient to continuously monitor the system in order to determine the cause of the error that is not recommended. Errors other than the relevant RFC recommendation include device critical errors, memory allocation errors, and abnormal processing tresses in each processing module if each processing module fails to allocate resources for operation. (Trace) may correspond to this.
또한, RMON에서는 오퍼레이션 틱(Tick)에 의해서 발생할 경우의 시간만을 보기 때문에 오류 발생의 날짜 및 시간까지는 볼 수 없는 단점이 있었다.In addition, since RMON only sees the time when it occurs due to an operation tick, there is a disadvantage that the date and time of error occurrence cannot be seen.
이와 같이, 종래에는 중요한 오류에 의한 시스템 리셋의 경우에 트랩과 로그 파일을 RAM에 저장하기 때문에 지속적으로 유지하기 곤란하고 권고되지 않은 오류에 대해서 원인을 규명하기 위해서는 지속적으로 시스템을 모니터링해야 하는 불편함이 있었다.As such, in the case of a system reset due to a critical error, since traps and log files are stored in RAM, it is difficult to maintain them continuously, and it is inconvenient to continuously monitor the system in order to determine the cause of an error which is not recommended. There was this.
전술한 바와 같은 문제점을 해결하기 위한 것으로, 본 발명은 NVRAM을 이용하여 시스템 오류 및 RMON의 알람/이벤트에서 로그 파일을 시스템 리셋 후에도 유지하여 오류에 대한 허용 오차(Tolerance)를 극대화시켜 네트워크 시스템의 오류 관리에 적당하도록 하는데, 시스템의 장애가 발생할 경우에 생성시킨 트랩과 로그파일을 NVRAM에 저장시켜 디스크립션을 유지함으로써 매니저로 하여금 시스템의 오류를 정확하게 판단하게 하여 이를 극복하도록 하고 RMON에서 지원하던 오퍼레이션 틱을 RTC(Real Time Clock)를 사용하여 날짜 및 시간을 구분해서 정확하게 알려 줄 수 있도록 하는데 그 목적이 있다.In order to solve the problems described above, the present invention, by using NVRAM to maintain the log file in the system error and alarm / event of RMON after system reset to maximize the tolerance (error) of the error (network system error) It is suitable for management, and traps and log files generated in the event of a system failure are stored in NVRAM to maintain a description so that the manager can accurately determine the system's error and overcome it. The purpose of this is to provide accurate information by dividing the date and time using (Real Time Clock).
도 1은 종래의 네트워크 시스템(Network System)에서 시스템 오류 관리(System Fault Management)를 위한 구성을 나타낸 블록도.1 is a block diagram showing a configuration for system fault management in a conventional network system.
도 2는 본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리를 위한 구성을 나타낸 블록도.2 is a block diagram illustrating a configuration for system error management in a network system according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리 방법을 나타낸 도면.3 is a diagram illustrating a system error management method in a network system according to an embodiment of the present invention.
* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings
21 : SNMP(Simple Network Management Protocol)21: Simple Network Management Protocol
22 : NMS(Network Management System)22: NMS (Network Management System)
23 : RMON(Remote Monitoring) 처리 모듈(Process Module)23: RMON (Remote Monitoring) Processing Module
24 : 오류 처리 모듈(Fault Process Module)24: Fault Process Module
25 : 디바이스(Devices)25: Devices
26 : NVRAM(Non-volatile RAM)26: non-volatile RAM (NVRAM)
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리 방법은 RMON에서 세션 요구에 따라 세션 생성 요구 정보를 확인하여 세션을 생성시켜 줌과 동시에 타이머를 가동시켜 주는 과정과; 타이머 식별자 및 기설정된 시간의 경과 유무를 확인하여 주기적으로 모니터링하면서 관련 정보를 수집하여 업데이트하는 과정과; 상기 업데이트값이 기설정된 임계값 이상인지를 확인하여 알람/이벤트를 생성하는 과정과; 트랩 또는 로그 파일을 생성하며, 트랩 식별자와 이벤트 식별자의 속성을 확인하고 해당 확인된 속성에 따라 해당 트랩 또는 로그 파일의 저장 여부를 결정하는 과정을 포함하여 이루어진 것을 특징으로 한다. 여기서, 상기 트랩은 트랩 식별자와 이벤트 식별자를 포함하며, 상기 로그 파일은 테이블 인덱스, 디스크립트, 날짜, 시간 및 모듈 식별자를 포함하며, 해당 날짜와 시간은 RTC에 의해 저장되어지는 것을 특징으로 한다.A system error management method in a network system according to an embodiment of the present invention for achieving the above object is a process of creating a session by checking session creation request information according to a session request in RMON and starting a timer at the same time. and; Collecting and updating related information while periodically checking and checking a timer identifier and whether a predetermined time has elapsed; Generating an alarm / event by checking whether the update value is equal to or greater than a preset threshold value; And generating a trap or log file, checking attributes of the trap identifier and the event identifier, and determining whether to store the trap or log file according to the identified attributes. Here, the trap includes a trap identifier and an event identifier, and the log file includes a table index, a descriptive word, a date, a time, and a module identifier, and the date and time are stored by the RTC.
또한, 상기 트랩 또는 로그 파일 저장 여부 결정 과정은 상기 확인된 속성이 RAM에만 저장되어야 하는지를 확인하여 해당 로그 파일을 주메모리에 저장하는 단계를 포함하여 이루어진 것을 특징으로 한다. 다르게는, 상기 트랩 또는 로그 파일 저장 여부 결정 과정은 상기 확인된 속성이 NVRAM에만 저장되어야 하는지를 확인하여 해당 로그 파일을 해당 NVRAM에 저장하는 단계를 포함하여 이루어진 것을 특징으로 한다. 다르게는, 상기 트랩 또는 로그 파일 저장 여부 결정 과정은 상기 확인된 속성이 트랩만을 생성해야 하는지를 확인하여 해당 트랩을 생성시키는 단계와; 상기 트랩의 리턴 요구 시에 상기 트랩을 화면으로 그래픽화하여 보여주는 단계를 포함하여 이루어진 것을 특징으로 한다. 다르게는, 상기 트랩 또는 로그 파일 저장 여부 결정 과정은 상기 확인된 속성이 NVRAM에 저장되어야 하고 트랩을 생성해야 하는지를 확인하여 해당 로그 파일을 해당 NVRAM에 저장시켜 줌과 동시에 해당 트랩을 생성시키는 단계와; 상기 트랩의 리턴 요구 시에 상기 트랩을 화면으로 그래픽화하여 보여주는 단계를 포함하여 이루어진 것을 특징으로 한다.In addition, the process of determining whether to store the trap or log file is characterized in that it comprises the step of storing the log file in the main memory to determine whether the identified attribute should be stored only in RAM. Alternatively, the process of determining whether to store the trap or log file includes determining whether the checked attribute should be stored only in NVRAM and storing the log file in the NVRAM. Alternatively, the step of determining whether to store the trap or the log file includes: generating a corresponding trap by checking whether the identified attribute should generate only a trap; And graphically displaying the trap on a screen when the trap is requested to be returned. Alternatively, the step of determining whether to store the trap or the log file comprises: identifying whether the identified attribute should be stored in NVRAM and generating a trap, storing the log file in the NVRAM, and simultaneously generating the trap; And graphically displaying the trap on a screen when the trap is requested to be returned.
한편, 본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리 방법은 상기 RMON과 무관한 시스템 오류 시에 모듈 식별자, 트랩 식별자 및 트랩 레벨을 가지는 로그 파일/트랩을 생성시키는 과정을 더 포함하여 이루어진 것을 특징으로 한다.Meanwhile, the method for managing a system error in a network system according to an embodiment of the present invention may further include generating a log file / trap having a module identifier, a trap identifier, and a trap level in case of a system error irrelevant to the RMON. It features.
본 발명은 NVRAM을 이용하여 오류 프로세싱 메카니즘(Fault Processing Mechanism)을 제공하고 NMS 상에서 디바이스와 처리 모듈 오류 트레스를 제공하고 다양한 시스템 자원을 고려한 오류 및 이벤트 트랩 레벨을 제공해 주도록 한다. 이하, 본 발명의 실시예를 첨부한 도면을 참조하여 상세하게 설명하면 다음과 같다.The present invention utilizes NVRAM to provide fault processing mechanisms, to provide device and processing module error traces on the NMS, and to provide fault and event trap levels that take into account various system resources. Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리를 위한 구성으로는 도 2에 도시한 바와 같이, SNMP(21)와, NMS(22)와, RMON 처리 모듈(23)과, 오류 처리 모듈(24)과, 다수 개의 디바이스(25)와, NVRAM(26)을 포함하여 이루어지는데, 시스템의 RMON과 오류의 트랩 또는 로그 파일의 생성 및 유지를 수행하도록 이루어진다.As a configuration for system error management in a network system according to an embodiment of the present invention, as shown in FIG. 2, an SNMP 21, an NMS 22, an RMON processing module 23, and an error processing module ( 24), a plurality of devices 25, and NVRAM 26, to generate and maintain the RMON and error traps or log files of the system.
상기 SNMP(21)는 상기 NMS(22)로부터 인가되는 요구에 따라 프로세싱할 수 있는 MIB 테이블을 유지하며, 또한 RMON의 각 그룹을 생성할 수 있는 정보를 가지고 있고 트랩을 프로세싱할 수 있는 트랩 식별자, NMS 식별자, 발생된 트랩에 대해서 상기 NMS(22)로 UDP 패킷을 발생시킬 수 있는 모듈이 존재한다.The SNMP 21 maintains a MIB table that can be processed according to a request authorized from the NMS 22, and also has a trap identifier capable of processing each trap, having information for generating each group of RMONs, There is a module capable of generating UDP packets to the NMS 22 for NMS identifiers, generated traps.
상기 NMS(22)는 통계 세션, 알람/이벤트 세션 및 로그 파일 정보를 상기 SNMP(21)에 요구한다.The NMS 22 requests the SNMP 21 for statistical sessions, alarm / event sessions, and log file information.
상기 RMON 처리 모듈(23)은 RFC에서 권고된 RMON MIB에 대해서 상기 각 디바이스(25)와 인터페이스하여 주기적으로 정보를 수집하고 해당 수집된 정보를 유지시키는 모듈로서, 통계 그룹, 호스트 그룹, 이벤트/알람 그룹 등의 RMON 엔트리 테이블들을 유지하고 주기적으로 정보를 업데이트하기 위한 타이머와 인터페이스를 수행한다. 여기서, 해당 통계 그룹은 상기 각 디바이스(25)의 통계적 정보를 수집하는 것으로 세션 생성 번호, 통계 MIB, 생성 인덱스, 소유자, 타이머 값 등을 유지하며, 해당 이벤트 그룹은 알람에서 발생된 이벤트에 대해서 상기 NMS(22)로 트랩을 발생시키는 세션 생성 번호, 생성 인덱스, 소유자, 트랩 식별자, 타이머 값등의 테이블 엔트리를 유지하며, 해당 알람 그룹은 임의의 MIB에 대해서 특정 임계치에 도달하면 트랩을 이벤트를 통해서 발생시킨다. 또한, 해당 세션 생성 번호, 생성 인덱스, 소유자, 절대값 또는 변화값인지를 구분하는 샘플 타입, MIB의 특정 값이 라이징에서 발생하는지, 폴링에서 발생하는지 또는 라이징과 폴링에 대해서 발생하는지를 지시하는 알람 상태 값(Alarm Status Values), 얼마의 주기로 MIB를 수집하는가를 지시하는 간격 시간 등을 가지고 있다.The RMON processing module 23 is a module for periodically interfacing with the devices 25 for the RMON MIB recommended in the RFC and collecting information and maintaining the collected information. The RMON processing module 23 is a statistical group, a host group, an event / alarm. It maintains RMON entry tables such as groups and interfaces with timers to periodically update information. Here, the statistics group collects statistical information of each device 25 and maintains a session generation number, statistics MIB, creation index, owner, timer value, and the like. It maintains table entries such as session generation number, generation index, owner, trap identifier, timer value, etc. that generate traps to NMS 22, and the alarm group generates traps through events when certain thresholds are reached for any MIB. Let's do it. Also, an alarm state indicating whether the corresponding session generation number, generation index, owner, sample type to distinguish whether it is an absolute value or a change value, whether a specific value of the MIB occurs in Rising, Polling, or Rising and Polling. Alarm Status Values, and interval time indicating how many MIBs are collected.
상기 오류 처리 모듈(24)은 RMON의 트랩 또는 로그 파일을 처리하는 모듈로서, 트랩을 구분할 수 있는 트랩 식별자(Identification), 로그 파일을 저장할 수 있는 로그 테이블, 시스템의 각 모듈을 구분하는 모듈 식별자, RDT(Real Date Time)를 얻는 실시간 프로세서(Real Time Processor)와의 인터페이스(Interface) 등을 관리하는 역할을 수행한다. 여기서, 해당 로그 테이블에는 테이블을 구분할 수 있는 인덱스(Index), 모듈 식별자, 시스템 날짜/시간 및 해당 발생된 트랩에 대한 디스크립션을 포함하고 있다.The error processing module 24 is a module for processing traps or log files of the RMON, a trap identifier for identifying traps, a log table for storing log files, a module identifier for identifying each module of the system, It manages an interface with a real time processor that obtains a real date time (RDT). Here, the log table includes an index for identifying the table, a module identifier, a system date / time, and a description of the corresponding trap.
상기 NVRAM(26)은 시스템에서 발생한 오류를 저장할 수 있는 영역으로 실시간(Real Time)을 지원하는 RAM인데, 모듈 식별자, 인덱스, 디스크립트, 날짜, 시간 등을 저장할 수 있다.The NVRAM 26 is an area for storing real-time errors in the system. The NVRAM 26 may store a module identifier, an index, a descriptive value, a date, a time, and the like.
본 발명의 실시예에 따른 네트워크 시스템에서 시스템 오류 관리 방법을 설명하면 다음과 같다.A system error management method in a network system according to an embodiment of the present invention is as follows.
먼저, 시스템 및 RMON에서 트랩 및 로그 파일을 발생하는 메카니즘을 도 3의플로우챠트를 참고하여 살펴보면, NMS(22)에서는 관리하고자 하는 통계 그룹에 대한 세션 요구를 SNMP(21)에 인가해 준다. 또한, 트랩과 로그 파일을 통해서 망 관리를 수행하기 위해서 알람/이벤트 세션을 생성해야 하는데, 이때 해당 NMS(22)는 알람/이벤트 세션 요구를 해당 SNMP(21)에 인가해 준다(단계 S1).First, the mechanism for generating traps and log files in the system and RMON will be described with reference to the flowchart of FIG. 3. The NMS 22 authorizes the SNMP 21 session request for a statistical group to be managed. In addition, in order to perform network management through traps and log files, an alarm / event session must be created. At this time, the NMS 22 grants an alarm / event session request to the corresponding SNMP 21 (step S1).
이에, 상기 SNMP(21)는 상기 NMS(22)로부터 통계 그룹 또는 알람/이벤트의 세션 요구를 인가받아 통계 세션 생성 요구 또는 알람/이벤트 세션 생성 요구를 RMON 처리 모듈(23)에 인가해 준다(단계 S2).Accordingly, the SNMP 21 receives a session request of a statistics group or an alarm / event from the NMS 22 and then applies a request for creating a statistics session or an alarm / event session to the RMON processing module 23 (step). S2).
그러면, 상기 RMON 처리 모듈(23)은 상기 SNMP(21)로부터 통계 세션 또는 알람/이벤트 세션의 생성 요구를 인가받아 해당 생성 요구의 정보가 올바른지를 확인하는데(단계 S3), 해당 제3단계(S3)에서 해당 생성 요구 정보가 올바르지 않으면 세션 생성 실패를 상기 SNMP(21)에 통보해 주며(단계 S4), 해당 제3단계(S3)에서 해당 생성 요구 정보가 올바른 경우에 통계 세션 또는 알람/이벤트 세션을 생성시켜 줌과 동시에 각각의 타이머를 지정하여 가동시켜 준다(단계 S5).Then, the RMON processing module 23 receives a request for generating a statistical session or an alarm / event session from the SNMP 21 and checks whether the information of the corresponding generation request is correct (step S3). If the corresponding generation request information is not correct, the SNMP 21 is notified of the failed session creation (step S4), and the statistics session or alarm / event session is performed when the generation request information is correct in the third step (S3). In addition, each timer is designated and operated at the same time (step S5).
즉, 해당 통계 세션의 테이블을 생성하는 경우에는 상기 생성 요구 정보 내에 세션 번호, 포트 번호, 세션 소유자 등의 정보가 있는지를 확인하고 이를 이용해 해당 통계 테이블을 생성하게 되며, 해당 알람/이벤트 세션의 테이블인 경우에는 상기 생성 요구 정보 내에 간격 시간, 임계값, 이벤트 식별자, 탭 식별자 및 샘플 타입의 변수(Variables; Source, MIB), 세션 번호 등의 정보가 있는지를 확인하고 이를 이용해 해당 알람/이벤트 테이블을 생성하게 된다.That is, in the case of generating a table of the corresponding statistics session, it is checked whether there is information such as a session number, a port number, a session owner, and the like in the generation request information and generates the corresponding statistics table by using the table of the corresponding alarm / event session In the case of, check whether there is information such as an interval time, a threshold value, an event identifier, a tap identifier, a variable of a sample type (Variables; Source, MIB), and a session number in the generation request information, and use the corresponding alarm / event table. Will be created.
그런 후, 상기 통계 또는 알람/이벤트의 타이머가 기설정된 시간이 경과되었는지를 확인하며(단계 S6), 또한 통계 타이머 식별자 또는 알람/이벤트 타이머 식별자가 있는지를 확인한다(단계 S7).Then, the timer of the statistic or alarm / event checks whether a predetermined time has elapsed (step S6), and also checks whether there is a statistic timer identifier or an alarm / event timer identifier (step S7).
그리고, 상기와 같이 정상적으로 세션이 생성되면, 주기적으로 통계 MIB를 수집하고 알람/이벤트 그룹도 설정된 값에 의해서 주기적으로 값들을 모니터링하면서 그 정보를 수집하여 업데이트한다(단계 S8).When the session is normally generated as described above, the statistics MIB is periodically collected and the alarm / event group is also periodically monitored for the values according to the set values, and the information is collected and updated (step S8).
이 때, 상기 수집한 값들이 기설정된 임계값을 벗어나는지, 즉 라이징 임계값의 경우에 현재의 MIB 값이 알람 값보다 큰지를 확인하는데(단계 S9), 해당 제9단계(S9)에서 수집한 값들이 기설정된 임계값을 벗어난 경우에 상기 RMON 처리 모듈(23)에서는 오류 처리 모듈(24)에게 알람/이벤트 생성을 수행하도록 요구한다(단계 S10).At this time, it is checked whether the collected values deviate from a preset threshold value, that is, the current MIB value is larger than the alarm value in the case of a rising threshold value (step S9), and collected in the ninth step S9. If the values deviate from the preset threshold, the RMON processing module 23 requests the error processing module 24 to perform alarm / event generation (step S10).
그러면, 상기 오류 처리 모듈(24)은 상기 RMON 처리 모듈(23)로부터 알람/이벤트 생성 요구를 인가받아 알람/이벤트를 생성하며(단계 S11), 트랩 또는 로그 파일의 생성을 수행한다(단계 S12). 여기서, 해당 트랩은 트랩 식별자와 이벤트 식별자를 가지고 있으며, 해당 로그의 테이블이 가지는 정보로는 테이블 인덱스, 디스크립트, 날짜, 시간, 모듈 식별자 등이 있는데, 해당 날짜와 시간은 관리가 정확하지 않은 타임 틱이 아닌 해당 날짜와 시간을 정확히 표현해 주는 RTC를 사용하도록 한다. 이때, 해당 트랩 또는 로그 파일의 저장 여부를 결정하여 해당 트랩 또는 로그 파일을 NVRAM(26)에 저장시켜 준다(단계 S13).Then, the error processing module 24 receives an alarm / event generation request from the RMON processing module 23 to generate an alarm / event (step S11), and generates a trap or log file (step S12). . Here, the trap has a trap identifier and an event identifier, and the information of the table of the log includes a table index, a descriptive value, a date, a time, a module identifier, and the date and time are not managed correctly. Use an RTC that accurately represents the date and time, not the tick. At this time, it is determined whether to store the trap or log file, and the trap or log file is stored in the NVRAM 26 (step S13).
다시 말해서, 상기 트랩 식별자와 이벤트 식별자의 속성(Attribute)이 RAM에만 저장되어야 하는 로그 파일인지를 확인하여 해당 로그 파일을 주메모리(MainMemory) 내에 저장시켜 준다. 다르게는, 상기 트랩 식별자와 이벤트 식별자의 속성이 상기 NVRAM(26)에만 저장되어야 하는 로그 파일인지를 확인하여 해당 로그 파일을 상기 NVRAM(26) 내에 저장시켜 준다. 다르게는, 상기 트랩 식별자와 이벤트 식별자의 속성이 트랩만을 생성해야 하는 것인지를 확인하여 상기 SNMP(21)에게 해당 트랩을 생성시켜 주며, 상기 SNMP(21)는 상기 NMS(22)의 요구 시에 해당 트랩을 상기 NMS(22)에 인가하게 되어 상기 NMS(22)는 화면으로 그래픽화하여 보여주도록 해 준다. 다르게는, 상기 트랩 식별자와 이벤트 식별자의 속성이 상기 NVRAM(26)에 저장되어야 하는 로그 파일이고 트랩을 생성해야 하는 것인지를 확인하여 해당 로그 파일을 상기 NVRAM(26) 내에 저장시켜 줌과 동시에 상기 SNMP(21)에게 해당 트랩을 생성시켜 주며, 상기 SNMP(21)는 상기 NMS(22)의 요구 시에 해당 트랩을 상기 NMS(22)에 인가하게 되어 상기 NMS(22)는 화면으로 그래픽화하여 보여주도록 해 준다.In other words, it checks whether the attribute of the trap identifier and the event identifier is a log file which should be stored only in RAM and stores the log file in main memory. Alternatively, it is determined whether the attributes of the trap identifier and the event identifier are log files that should be stored only in the NVRAM 26, and the log files are stored in the NVRAM 26. Alternatively, it is determined whether the attribute of the trap identifier and the event identifier should generate only a trap, and generates a corresponding trap to the SNMP 21, and the SNMP 21 corresponds to a request of the NMS 22. The trap is applied to the NMS 22 to allow the NMS 22 to be graphically displayed on the screen. Alternatively, it is checked whether the attribute of the trap identifier and the event identifier is a log file to be stored in the NVRAM 26 and a trap should be generated to store the log file in the NVRAM 26 and at the same time the SNMP A corresponding trap is generated to the 21, and the SNMP 21 applies the trap to the NMS 22 at the request of the NMS 22 so that the NMS 22 is displayed graphically on a screen. To give.
상술한 바와 같은 동작을 통해서 트랩 또는 로그 파일을 생성하게 되는데, 해당 로그 파일을 상기 NVRAM(26)에 저장하고 RTC를 사용하여 정확한 날짜와 시간을 표현해 주고 해당 정보들의 저장 여부를 결정해 줌으로써 시스템 리셋이 된 경우에도 로그 파일을 그대로 유지할 수 있고 중요한 오류의 원인을 알 수 있도록 해 준다.Through the above operation, a trap or log file is generated. The log file is stored in the NVRAM 26 and the system is reset by expressing the correct date and time using the RTC and determining whether to store the corresponding information. If this happens, you can keep the log file intact and find out the cause of the critical error.
한편, 다른 실시예로, RMON과 무관한 시스템 오류, 즉 리부팅되거나 중요한 오류가 발생하는 경우에도 디바이스(25)에서 상기 RMON 처리 모듈(23)을 통해 상기 오류 처리 모듈(24)에 모듈 식별자, 트랩 식별자 및 트랩 레벨을 가지는 로그파일/트랩을 생성시켜 준 후에 상술한 바와 동일한 동작으로 로그 파일을 상기 NVRAM(26)에 저장하고 상기 NMS(22)의 요구 시에 언제든지 리턴(Return)해 준다.Meanwhile, in another embodiment, even when a system error irrelevant to the RMON, that is, a reboot or a significant error occurs, the device 25 may transmit a module identifier or a trap to the error processing module 24 through the RMON processing module 23 in the device 25. After generating a log file / trap having an identifier and a trap level, the log file is stored in the NVRAM 26 in the same operation as described above and returned at any time when the NMS 22 requests it.
이상과 같이, 본 발명에 의해 트랩과 로그 파일을 NVRAM에 저장하여 중요한 오류로 인해 시스템 리셋이 발생하더라도 오류의 원인을 알 수 있도록 해 주며, 종래의 RMON에서 지원하던 오퍼레이션 틱을 RTC를 사용하여 날짜 및 시간을 구분해서 정확하게 알려 줄 수 있다.As described above, trap and log files are stored in NVRAM according to the present invention, so that even if a system reset occurs due to a critical error, the cause of the error can be known. And time can be distinguished accurately.
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990061238A KR20010057827A (en) | 1999-12-23 | 1999-12-23 | Method of Managing System Errors in the Network System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990061238A KR20010057827A (en) | 1999-12-23 | 1999-12-23 | Method of Managing System Errors in the Network System |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20010057827A true KR20010057827A (en) | 2001-07-05 |
Family
ID=19628885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990061238A KR20010057827A (en) | 1999-12-23 | 1999-12-23 | Method of Managing System Errors in the Network System |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20010057827A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115264B (en) * | 2006-07-24 | 2010-09-01 | 中兴通讯股份有限公司 | Communication terminal failure monitoring system and implementing method thereof |
US9253023B2 (en) | 2011-08-10 | 2016-02-02 | International Business Machines Corporation | Network management system with a switchable flood revention mode pregarding fault events for a managed device |
CN105843852A (en) * | 2016-03-16 | 2016-08-10 | 汉柏科技有限公司 | Log storage management method and system |
-
1999
- 1999-12-23 KR KR1019990061238A patent/KR20010057827A/en not_active Application Discontinuation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115264B (en) * | 2006-07-24 | 2010-09-01 | 中兴通讯股份有限公司 | Communication terminal failure monitoring system and implementing method thereof |
US9253023B2 (en) | 2011-08-10 | 2016-02-02 | International Business Machines Corporation | Network management system with a switchable flood revention mode pregarding fault events for a managed device |
CN105843852A (en) * | 2016-03-16 | 2016-08-10 | 汉柏科技有限公司 | Log storage management method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7016955B2 (en) | Network management apparatus and method for processing events associated with device reboot | |
US7213179B2 (en) | Automated and embedded software reliability measurement and classification in network elements | |
US7149917B2 (en) | Method and apparatus for outage measurement | |
US6269401B1 (en) | Integrated computer system and network performance monitoring | |
EP0831617B1 (en) | Flexible SNMP trap mechanism | |
US20030225876A1 (en) | Method and apparatus for graphically depicting network performance and connectivity | |
CN105610648A (en) | Operation and maintenance monitoring data collection method and server | |
KR100908131B1 (en) | Fault detection device and method using log filtering and fault detection system using the device | |
KR20010057827A (en) | Method of Managing System Errors in the Network System | |
Cisco | Monitoring the System | |
KR20020039554A (en) | Method of Managing System Errors in the Network System | |
Cisco | Monitoring the System | |
KR100500836B1 (en) | Fault management system of metro ethernet network and method thereof | |
Cisco | Introduction | |
Cisco | Monitoring Routers | |
Cisco | Monitoring Routers | |
Cisco | Monitoring Routers | |
Cisco | Monitoring Routers | |
Cisco | Introduction | |
Cisco | Introduction | |
Cisco | Introduction | |
Cisco | Monitoring Routers | |
Cisco | Monitoring Routers | |
Cisco | Monitoring Routers | |
Cisco | Router and Network Monitoring Commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 19991223 |
|
PG1501 | Laying open of application | ||
PC1203 | Withdrawal of no request for examination | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |