🚀
Incheol's TECH BLOG
  • Intro
  • Question & Answer
    • JAVA
      • JVM
      • String, StringBuffer, StringBuilder
      • JDK 17일 사용한 이유(feat. JDK 8 이후 훑어보기)
      • 스택 오버 플로우(SOF)
      • 블럭킹 | 논블럭킹 | 동기 | 비동기
      • 병렬처리를 이용한 이미지 리사이즈 개선
      • heap dump 분석하기 (feat. OOM)
      • G1 GC vs Z GC
      • JIT COMPILER
      • ENUM
      • STATIC
      • Thread(쓰레드)
      • hashCode()와 equals()
      • JDK 8 특징
      • break 와 continue 사용
      • STREAM
      • Optional
      • 람다와 클로저
      • Exception(예외)
      • Garbage Collector
      • Collection
      • Call by Value & Call by Reference
      • 제네릭(Generic)
    • SPRING
      • Spring 특징
      • N+1 문제
      • 테스트 코드 어디까지 알아보고 오셨어요?
      • 테스트 코드 성능 개선기
      • RestTemplate 사용시 주의사항
      • 동시성 해결하기(feat. TMI 주의)
      • redisson trylock 내부로직 살펴보기
      • DB 트래픽 분산시키기(feat. Routing Datasource)
      • OSIV
      • @Valid 동작 원리
      • mybatis @Builder 주의사항
      • 스프링 클라우드 컨피그 갱신 되지 않는 이슈(feat. 서비스 디스커버리)
      • ImageIO.read 동작하지 않는 경우
      • 카프카 transaction 처리는 어떻게 해야할까?
      • Spring Boot 특징
      • Spring 5 특징
      • JPA vs MyBatis
      • Filter와 Interceptor
      • 영속성 컨텍스트(Persistence Context)
      • @Transactional
      • @Controlleradvice, @ExceptionHandler
      • Spring Security
      • Dispatcher Servlet
      • @EnableWebMvc
      • Stereo Type(스테레오 타입)
      • AOP
      • JPA Repository 규칙
    • DATABASE
      • Database Index
      • SQL vs NoSQL
      • DB 교착상태
      • Isolation level
      • [MySQL] 이모지 저장은 어떻게 하면 좋을까?
      • SQL Hint
      • JOIN
    • INFRA
      • CLOUD COMPUTING
      • GIT
      • DOCKER
      • 카프카 찍먹하기 1부
      • 카프카 찍먹하기 2부 (feat. 프로듀서)
      • 카프카 찍먹하기 3부 (feat. 컨슈머)
      • JENKINS
      • POSTMAN
      • DNS 동작 원리
      • ALB, NLB,ELB 차이는?
      • 카프카 파티션 주의해서 사용하자
      • DEVOPS
      • JWT
      • OSI 7 Layer
      • MSA
      • 서비스 디스커버리는 어떻게 서비스 등록/해제 하는걸까?
      • 핀포인트 사용시 주의사항!! (feat 로그 파일 사이즈)
      • AWS EC2 도메인 설정 (with ALB)
      • ALB에 SSL 설정하기(feat. ACM)
      • 람다를 활용한 클라우드 와치 알림 받기
      • AWS Personalize 적용 후기… 😰
      • CloudFront를 활용한 S3 성능 및 비용 개선
    • ARCHITECTURE
      • 객체지향과 절차지향
      • 상속보단 합성
      • SOLID 원칙
      • 캡슐화
      • DDD(Domain Driven Design)
    • COMPUTER SCIENCE
      • 뮤텍스와 세마포어
      • Context Switch
      • REST API
      • HTTP HEADER
      • HTTP METHOD
      • HTTP STATUS
    • CULTURE
      • AGILE(Feat. 스크럼)
      • 우리는 성장 할수 있을까? (w. 함께 자라기)
      • Expert Beginner
    • SEMINAR
      • 2022 INFCON 후기
        • [104호] 사이드 프로젝트 만세! - 기술만큼 중요했던 제품과 팀 성장기
        • [102호] 팀을 넘어서 전사적 협업 환경 구축하기
        • [103호] 코드 리뷰의 또 다른 접근 방법: Pull Requests vs. Stacked Changes
        • [105호] 실전! 멀티 모듈 프로젝트 구조와 설계
        • [105호] 지금 당장 DevOps를 해야 하는 이유
        • [102호] (레거시 시스템) 개편의 기술 - 배달 플랫폼에서 겪은 N번의 개편 경험기
        • [102호] 서버비 0원, 클라우드 큐 도입으로 해냈습니다!
  • STUDY
    • 오브젝트
      • 1장 객체, 설계
      • 2장 객체지향 프로그래밍
      • 3장 역할, 책임, 협력
      • 4장 설계 품질과 트레이드 오프
      • 5장 책임 할당하기
      • 6장 메시지와 인터페이스
      • 7징 객체 분해
      • 8장 의존성 관리하기
      • 9장 유연한 설계
      • 10장 상속과 코드 재사용
      • 11장 합성과 유연한 설계
      • 12장 다형성
      • 13장 서브클래싱과 서브타이핑
      • 14장 일관성 있는 협력
      • 15장 디자인 패턴과 프레임워크
      • 마무리
    • 객체지향의 사실과 오해
      • 1장 협력하는 객체들의 공동체
      • 2장 이상한 나라의 객체
      • 3장 타입과 추상화
      • 4장 역할, 책임, 협력
    • JAVA ORM JPA
      • 1장 JPA 소개
      • 2장 JPA 시작
      • 3장 영속성 관리
      • 4장 엔티티 매핑
      • 5장 연관관계 매핑 기초
      • 6장 다양한 연관관계 매핑
      • 7장 고급 매핑
      • 8장 프록시와 연관관계 관리
      • 9장 값 타입
      • 10장 객체지향 쿼리 언어
      • 11장 웹 애플리케이션 제작
      • 12장 스프링 데이터 JPA
      • 13장 웹 애플리케이션과 영속성 관리
      • 14장 컬렉션과 부가 기능
      • 15장 고급 주제와 성능 최적화
      • 16장 트랜잭션과 락, 2차 캐시
    • 토비의 스프링 (3.1)
      • 스프링의 이해와 원리
        • 1장 오브젝트와 의존관계
        • 2장 테스트
        • 3장 템플릿
        • 4장 예외
        • 5장 서비스 추상화
        • 6장 AOP
        • 8장 스프링이란 무엇인가?
      • 스프링의 기술과 선택
        • 5장 AOP와 LTW
        • 6장 테스트 컨텍스트 프레임워크
    • 클린코드
      • 1장 깨끗한 코드
      • 2장 의미 있는 이름
      • 3장 함수
      • 4장 주석
      • 5장 형식 맞추기
      • 6장 객체와 자료 구조
      • 9장 단위 테스트
    • 자바 트러블슈팅(with scouter)
      • CHAP 01. 자바 기반의 시스템에서 발생할 수 있는 문제들
      • CHAP 02. scouter 살펴보기
      • CHAP 03. scouter 설정하기(서버 및 에이전트)
      • CHAP 04. scouter 클라이언트에서 제공하는 기능들
      • CHAP 05. scouter XLog
      • CHAP 06. scouter 서버/에이전트 플러그인
      • CHAP 07. scouter 사용 시 유용한 팁
      • CHAP 08. 스레드 때문에(스레드에서) 발생하는 문제들
      • CHAP 09. 스레드 단면 잘라 놓기
      • CHAP 10. 잘라 놓은 스레드 단면 분석하기
      • CHAP 11. 스레드 문제
      • CHAP 12. 메모리 때문에 발생할 수 있는 문제들
      • CHAP 13. 메모리 단면 잘라 놓기
      • CHAP 14. 잘라 놓은 메모리 단면 분석하기
      • CHAP 15. 메모리 문제(Case Study)
      • CHAP 24. scouter로 리소스 모니터링하기
      • CHAP 25. 장애 진단은 이렇게 한다
      • 부록 A. Fatal error log 분석
      • 부록 B. 자바 인스트럭션
    • 테스트 주도 개발 시작하기
      • CHAP 02. TDD 시작
      • CHAP 03. 테스트 코드 작성 순서
      • CHAP 04. TDD/기능 명세/설계
      • CHAP 05. JUnit 5 기초
      • CHAP 06. 테스트 코드의 구성
      • CHAP 07. 대역
      • CHAP 08. 테스트 가능한 설계
      • CHAP 09. 테스트 범위와 종류
      • CHAP 10. 테스트 코드와 유지보수
      • 부록 A. Junit 5 추가 내용
      • 부록 C. Mockito 기초 사용법
      • 부록 D. AssertJ 소개
    • KOTLIN IN ACTION
      • 1장 코틀린이란 무엇이며, 왜 필요한가?
      • 2장 코틀린 기초
      • 3장 함수 정의와 호출
      • 4장 클래스, 객체, 인터페이스
      • 5장 람다로 프로그래밍
      • 6장 코틀린 타입 시스템
      • 7장 연산자 오버로딩과 기타 관례
      • 8장 고차 함수: 파라미터와 반환 값으로 람다 사용
      • 9장 제네릭스
      • 10장 애노테이션과 리플렉션
      • 부록 A. 코틀린 프로젝트 빌드
      • 부록 B. 코틀린 코드 문서화
      • 부록 D. 코틀린 1.1과 1.2, 1.3 소개
    • KOTLIN 공식 레퍼런스
      • BASIC
      • Classes and Objects
        • Classes and Inheritance
        • Properties and Fields
    • 코틀린 동시성 프로그래밍
      • 1장 Hello, Concurrent World!
      • 2장 코루틴 인 액션
      • 3장 라이프 사이클과 에러 핸들링
      • 4장 일시 중단 함수와 코루틴 컨텍스트
      • 5장 이터레이터, 시퀀스 그리고 프로듀서
      • 7장 스레드 한정, 액터 그리고 뮤텍스
    • EFFECTIVE JAVA 3/e
      • 객체 생성과 파괴
        • 아이템1 생성자 대신 정적 팩터리 메서드를 고려하라
        • 아이템2 생성자에 매개변수가 많다면 빌더를 고려하라
        • 아이템3 private 생성자나 열거 타입으로 싱글턴임을 보증하라
        • 아이템4 인스턴스화를 막으려거든 private 생성자를 사용하라
        • 아이템5 자원을 직접 명시하지 말고 의존 객체 주입을 사용하라
        • 아이템6 불필요한 객체 생성을 피하라
        • 아이템7 다 쓴 객체 참조를 해제하라
        • 아이템8 finalizer와 cleaner 사용을 피하라
        • 아이템9 try-finally보다는 try-with-resources를 사용하라
      • 모든 객체의 공통 메서드
        • 아이템10 equals는 일반 규약을 지켜 재정의하라
        • 아이템11 equals를 재정의 하려거든 hashCode도 재정의 하라
        • 아이템12 toString을 항상 재정의하라
        • 아이템13 clone 재정의는 주의해서 진행해라
        • 아이템14 Comparable을 구현할지 고려하라
      • 클래스와 인터페이스
        • 아이템15 클래스와 멤버의 접근 권한을 최소화하라
        • 아이템16 public 클래스에서는 public 필드가 아닌 접근자 메서드를 사용하라
        • 아이템17 변경 가능성을 최소화하라
        • 아이템18 상속보다는 컴포지션을 사용하라
        • 아이템19 상속을 고려해 설계하고 문서화하라. 그러지 않았다면 상속을 금지하라
        • 아이템20 추상 클래스보다는 인터페이스를 우선하라
        • 아이템21 인터페이스는 구현하는 쪽을 생각해 설계하라
        • 아이템22 인터페이스 타입을 정의하는 용도로만 사용하라
        • 아이템23 태그 달린 클래스보다는 클래스 계층구조를 활용하라
        • 아이템24 멤버 클래스는 되도록 static으로 만들라
        • 아이템25 톱레벨 클래스는 한 파일에 하나만 담으라
      • 제네릭
        • 아이템26 로 타입은 사용하지 말라
        • 아이템27 비검사 경고를 제거하라
        • 아이템28 배열보다는 리스트를 사용하라
        • 아이템29 이왕이면 제네릭 타입으로 만들라
        • 아이템30 이왕이면 제네릭 메서드로 만들라
        • 아이템31 한정적 와일드카드를 사용해 API 유연성을 높이라
        • 아이템32 제네릭과 가변인수를 함께 쓸 때는 신중하라
        • 아이템33 타입 안전 이종 컨테이너를 고려하라
      • 열거 타입과 애너테이션
        • 아이템34 int 상수 대신 열거 타입을 사용하라
        • 아이템35 ordinal 메서드 대신 인스턴스 필드를 사용하라
        • 아이템36 비트 필드 대신 EnumSet을 사용하라
        • 아이템37 ordinal 인덱싱 대신 EnumMap을 사용하라
        • 아이템38 확장할 수 있는 열거 타입이 필요하면 인터페이스를 사용하라
        • 아이템 39 명명 패턴보다 애너테이션을 사용하라
        • 아이템40 @Override 애너테이션을 일관되게 사용하라
        • 아이템41 정의하려는 것이 타입이라면 마커 인터페이스를 사용하라
      • 람다와 스트림
        • 아이템46 스트림에는 부작용 없는 함수를 사용하라
        • 아이템47 반환 타입으로는 스트림보다 컬렉션이 낫다
        • 아이템48 스트림 병렬화는 주의해서 적용하라
      • 메서드
        • 아이템49 매개변수가 유효한지 검사하라
        • 아이템50 적시에 방어적 본사본을 만들라
        • 아이템53 가변인수는 신중히 사용하라
        • 아이템 54 null이 아닌, 빈 컬렉션이나 배열을 반환하라
        • 아이템56 공개된 API 요소에는 항상 문서화 주석을 작성하라
      • 일반적인 프로그래밍 원칙
        • 아이템56 공개된 API 요소에는 항상 문서화 주석을 작성하라
        • 아이템57 지역변수의 범위를 최소화하라
        • 아이템 60 정확한 답이 필요하다면 float와 double은 피하라
      • 예외
        • 아이템 73 추상화 수준에 맞는 예외를 던지라
        • 아이템 74 메서드가 던지는 모든 예외를 문서화하라
      • 동시성
        • 아이템78 공유 중인 가변 데이터는 동기화해 사용하라
        • 아이템79 과도한 동기화는 피하라
        • 아이템 80 스레드보다는 실행자, 태스크, 스트림을 애용하라
      • 직렬화
        • 아이템 87 커스텀 직렬화 형태를 고려해보라
    • Functional Programming in Java
      • Chap 01. 헬로, 람다 표현식
      • Chap 02. 컬렉션의 사용
      • Chap 03. String, Comparator, 그리고 filter
      • Chap 04. 람다 표현식을 이용한 설계
      • CHAP 05. 리소스를 사용한 작업
      • CHAP 06. 레이지
      • CHAP 07. 재귀 호출 최적화
      • CHAP 08. 람다 표현식의 조합
      • CHAP 09. 모든 것을 함께 사용해보자
      • 부록 1. 함수형 인터페이스의 집합
      • 부록 2. 신택스 오버뷰
    • 코틀린 쿡북
      • 2장 코틀린 기초
      • 3장 코틀린 객체지향 프로그래밍
      • 4장 함수형 프로그래밍
      • 5장 컬렉션
      • 6장 시퀀스
      • 7장 영역 함수
      • 9장 테스트
      • 10장 입력/출력
      • 11장 그 밖의 코틀린 기능
    • DDD START!
      • 1장 도메인 모델 시작
      • 2장 아키텍처 개요
      • 3장 애그리거트
      • 4장 리포지터리와 모델구현(JPA 중심)
      • 5장 리포지터리의 조회 기능(JPA 중심)
      • 6장 응용 서비스와 표현 영역
      • 7장 도메인 서비스
      • 8장 애그리거트 트랜잭션 관리
      • 9장 도메인 모델과 BOUNDED CONTEXT
      • 10장 이벤트
      • 11장 CQRS
    • JAVA 8 IN ACTION
      • 2장 동작 파라미터화 코드 전달하기
      • 3장 람다 표현식
      • 4장 스트림 소개
      • 5장 스트림 활용
      • 6장 스트림으로 데이터 수집
      • 7장 병렬 데이터 처리와 성능
      • 8장 리팩토링, 테스팅, 디버깅
      • 9장 디폴트 메서드
      • 10장 null 대신 Optional
      • 11장 CompletableFuture: 조합할 수 있는 비동기 프로그래밍
      • 12장 새로운 날짜와 시간 API
      • 13장 함수형 관점으로 생각하기
      • 14장 함수형 프로그래밍 기법
    • 객체지향과 디자인패턴
      • 객체 지향
      • 다형성과 추상 타입
      • 재사용: 상속보단 조립
      • 설계 원칙: SOLID
      • DI와 서비스 로케이터
      • 주요 디자인 패턴
        • 전략패턴
        • 템플릿 메서드 패턴
        • 상태 패턴
        • 데코레이터 패턴
        • 프록시 패턴
        • 어댑터 패턴
        • 옵저버 패턴
        • 파사드 패턴
        • 추상 팩토리 패턴
        • 컴포지트 패턴
    • NODE.JS
      • 1회차
      • 2회차
      • 3회차
      • 4회차
      • 6회차
      • 7회차
      • 8회차
      • 9회차
      • 10회차
      • 11회차
      • 12회차
      • mongoose
      • AWS란?
    • SRPING IN ACTION (5th)
      • Chap1. 스프링 시작하기
      • Chap 2. 웹 애플리케이션 개발하기
      • Chap 3. 데이터로 작업하기
      • Chap 4. 스프링 시큐리티
      • Chap 5. 구성 속성 사용하기
      • Chap 6. REST 서비스 생성하기
      • Chap 7. REST 서비스 사용하기
      • CHAP 8 비동기 메시지 전송하기
      • Chap 9. 스프링 통합하기
      • CHAP 10. 리액터 개요
      • CHAP 13. 서비스 탐구하기
      • CHAP 15. 실패와 지연 처리하기
      • CHAP 16. 스프링 부트 액추에이터 사용하기
    • 스프링부트 코딩 공작소
      • 스프링 부트를 왜 사용 해야 할까?
      • 첫 번째 스프링 부트 애플리케이션 개발하기
      • 구성을 사용자화 하기
      • 스프링부트 테스트하기
      • 액추에이터로 내부 들여다보기
    • ANGULAR 4
      • CHAPTER 1. A gentle introduction to ECMASCRIPT 6
      • CHAPTER 2. Diving into TypeScript
      • CHAPTER 3. The wonderful land of Web Components
      • CHAPTER 4. From zero to something
      • CHAPTER 5. The templating syntax
      • CHAPTER 6. Dependency injection
      • CHAPTER 7. Pipes
      • CHAPTER 8. Reactive Programming
      • CHAPTER 9. Building components and directives
      • CHAPTER 10. Styling components and encapsulation
      • CHAPTER 11. Services
      • CHAPTER 12. Testing your app
      • CHAPTER 13. Forms
      • CHAPTER 14. Send and receive data with Http
      • CHAPTER 15. Router
      • CHAPTER 16. Zones and the Angular magic
      • CHAPTER 17. This is the end
    • HTTP 완벽 가이드
      • 게이트웨이 vs 프록시
      • HTTP Header
      • REST API
      • HTTP Method 종류
        • HTTP Status Code
      • HTTP 2.x
  • REFERENCE
    • TECH BLOGS
      • 어썸데브블로그
      • NAVER D2
      • 우아한 형제들
      • 카카오
      • LINE
      • 스포카
      • 티몬
      • NHN
      • 마켓컬리
      • 쿠팡
      • 레진
      • 데일리 호텔
      • 지그재그
      • 스타일쉐어
      • 구글
      • 야놀자
    • ALGORITHM
      • 생활코딩
      • 프로그래머스
      • 백준
      • 알고스팟
      • 코딜리티
      • 구름
      • 릿코드
Powered by GitBook
On this page
  • 스레드 단면으로 어떤 문제를 확인할 수 있을까?
  • 스레드 단면으로 문제를 확인하기 불가능한 케이스
  • 시스템이 느릴 때도 스레드와 관련이 있을까?
  • 시스템 응답이 없을 때에는 스레드 단면이 가장 효과적이다
  • 메모리 관련 문제가 발생하였을 경우 확인 방법
  • 예외가 지속해서 발생할 때도 스레드 단면이 도움이 될까?
  • 사례 하나. CPU 사용량이 갑자기 올라가서 안 내려와요
  • > 상황
  • > 접근 방법
  • 사례 둘. 스레드 풀의 스레드 개수가 계속 증가해요
  • > 상황
  • > 접근 방법
  • 원인 분석
  • 사례 셋. 시스템 응답이 없어요
  • > 상황
  • > 접근 방법

Was this helpful?

  1. STUDY
  2. 자바 트러블슈팅(with scouter)

CHAP 11. 스레드 문제

자바 트러블슈팅: scouter를 활용한 시스템 장애 진단 및 해결 노하우를 챕터 11을 요약한 내용입니다.

스레드 단면으로 어떤 문제를 확인할 수 있을까?

1장에서 알아본 문제 중 스레드 단면으로 확인할 수 있는 문제는 무엇일까?

구분

장애

확인 가능 여부

시스템이 느려요

전체적인 시스템이 항상 느린 경우

O

특정 기능(화면)이 느린 경우

O

특정 시간대(기간)에 전체 애플리케이션이 느린 경우

O

특정 시간대(기간)에 특정 애플리케이션이 느린 경우

O

특정 기능(화면)이 점점 느려질 경우

O

특정 사용자만 애플리케이션이 느린 경우

O

시스템이 응답이 없어요

모든 애플리케이션이 응답하지 않는 경우

O

특정 기능이 응답하지 않는 경우

O

예외가 계속 발생해요

모든 사용자가 특정 기능을 수행하면 예외가 발생하는 경우

△

특정 사용자의 특정 기능에서만 예외가 발생하는 경우

△

특정 시간대에만 전체 애플리케이션에 예외가 발생하는 경우

△

특정 시간대에 특정 애플리케이션에 예외가 발생하는 경우

△

시스템이 죽어요

시스템의 프로세스가 죽는 경우

X

스레드 단면으로 문제를 확인하기 불가능한 케이스

시스템이 죽는 경우에는 스레드 단면이 기본적으로 생성되지 않기 때문에 좋은 단서가 될 수 없다. 하지만 문제가 발생했을 때마다 명령어를 수행하도록 하는 OnError 옵션을 추가하면 실마리가 남을 수도 있다.

// 에러가 발생했을 때 수행되는 명령어
-XX:OnError="명령어"
// 에러가 발생했을 때 에러 로그 파일 지정
-XX:OnErrorFile=파일 경로
// 에러 발생 시 자동으로 스레드 단면 생성(%p는 프로세스의 아이디를 의미)
-XX:OnError="Kill -3 %p"

시스템이 느릴 때도 스레드와 관련이 있을까?

시스템이 느리다고 무작정 스레드 단면을 뜨는 것은 좋은 해결 방법은 아니지만 근거를 찾을 수도 있으니 남겨놓는 것이 좋다. 시스템이 느릴 때에는 다음과 같은 순서로 점검하는 것이 좋다.

  1. CPU, 메모리와 같은 리소스 사용량 점검

  2. 외부와 연동하는 리소스 사용량 점검

  3. WAS 메모리 및 스레드 설정 및 사용량 점검

  4. Web 서버 설정 점검

  5. OS 설정 점검

  6. 스레드 상태 점검

  7. 메모리 상태 점검

대부분의 웹 기반의 애플리케이션의 응답 시간이 느려지는 원인 중 대부분(약 80% 정도)은 DB와 같은 WAS와 연동되는 외부 서버들 때문이다. 따라서, 관련된 DB쿼리가 느린지, DB 서버의 CPU 사용량은 어떤지, DB에 록(lock)이 발생하지는 않았는지, 다른 외부 연동 서버들의 상태는 괜찮은지를 먼저 확인해 보는 것이 우선이다.

시스템 응답이 없을 때에는 스레드 단면이 가장 효과적이다

시스템이 응답하지 않을 때에는 보통 WAS가 정해 놓은 스레드 풀이나 DB 커넥션 풀이 꽉 찼을 확률이 높다. 이러한 경우에는 스레드 단면을 30초에서 1분 단위로 발생시킨 후 스레드 단면 분석 도구로 열어서 스레드 단면을 확인해 보면 된다. 응답이 없을 때 분석 도구를 활용하여 어떤 순서로 봐야하는지 정리해 보면 다음과 같다.

  1. 전체 스레드의 개수가 몇 개인지 확인한다.

  2. Java 6 이상일 경우 스레드 단면의 루트 노드를 클릭하여 메모리 사용량을 확인해 보고, 여러 개의 단면 파일을 비교해 가면서 그 값이 어떻게 변하는지 확인해 본다.

  3. Monitor 목록에서 빨간색으로 표시되어 여러 스레드를 잡는 녀석이 없는지 찾아본다.

  4. 1번에 해당하는 스레드가 보이지 않을 때에는 Runnable인 스레드들을 살펴보자

  5. 지속해서 수행 중인 스레드가 존재하지 않는지 "Long running threads detect" 기능을 사용하여 확인한다.

  6. 그래도 원인이 없어 보인다면 다른 원인을 찾아보자

다른 원인도 있을 수 있다.

  • 웹 서버의 설정이 잘못되었거나 웹 서버에 문제가 있어도 응답이 없을 수 있다.

  • JVM의 힙 메모리가 부족하여 시스템이 응답하지 않을 수도 있다.

메모리 관련 문제가 발생하였을 경우 확인 방법

  1. 스레드 단면을 주기적으로 떠놓는다.

  2. 스레드 단면을 뜰 때 ps -Lf -p pid 명령어도 같이 수행하여 주기적으로 떠놓는다.

  3. 2번에서 점검한 스레드 중 CPU 사용 시간이 지속해서 증가하는 스레드가 있다면, 그 스레드의 아이디를 확인한 후 스레드 단면 분석 도구를 열어 방금 만든 스레드 단면에서 해당 스레드가 어떤 스레드인지 확인해 본다.

  4. 만약 3번의 스레드가 GC 관련 스레드라면, 메모리가 부족하거나 DC 알고리즘에 문제가 발생했을 확률이 높다. 따라서 jstat 명령어로 메모리 사용량을 확인한후 메모리가 부족하면 메모리 단면을 떠서 어떤 객체가 메모리를 가장 많이 잡고 있는지를 확인해 본다.

    > jstat -gcutil 5s
  5. 3번에서 GC 관련 스레드가 아닌 다른 스레드라면 해당 스레드가 지속해서 수행되고 있는지 확인해 본다.

예외가 지속해서 발생할 때도 스레드 단면이 도움이 될까?

일반적으로 예외가 발생하는 원인은 애플리케이션 코딩상의 실수나 예상치 못한 입력값을 등록하는 것이 대부분이다. 예외가 발생하는 시점은 스레드 단면으로 확인하기는 쉽지 않다. (운이 좋으면 예외가 발생하는 시점에 스레드 단면을 생성할수도 있다.) 이 경우에는 자바의 로그가 찍히는 시스템 로그를 확인하는 것이다.

코딩 문제로 지속해서 예외가 발생할 수 있지만, 그밖의 이유로 예외 상황이 이어질수도 있다. 그중 하나가 TimeoutException이다. TimeoutException은 애플리케이션의 설정에 지정해 놓은 Timeout 시간 동안 응답이 없을 때 발생한다. WAS 설정에도 있을 수 있고, DB, 각종 외부 연동 시스템에서 응답이 없을 경우에도 이러한 예외가 발생할 수 있다.

만약 GC 때문이라면, jstat 명령어나 verbosegc 옵션을 사용하여 확인해 보기 바란다. 만약 연동 시스템에서 응답을 주지 않는 것이 원인이라면, 연동 시스템에 응답 시간 로그를 찍도록 하여 응답이 느린 원인을 찾아본다.

예외가 지속해서 발생할 때, 원인을 찾는 또 한 가지 방법은 scouter의 XLog에서 빨간 점들을 확인하는 것이다. 이 점들을 드래그하여 문제가 발생한 요청의 어느 부분에서 예외가 발생하는지 확인하면 보다 빠르게 문제의 원인을 찾을 수 있을 것이다. scouter의 메서드 프로파일링 옵션이 제대로 설정되지 않은 경우에는 정확한 위치를 찾기 어려우므로 예외 로그의 스택 트레이스 로그를 확인하는 것이 좋다.

사례 하나. CPU 사용량이 갑자기 올라가서 안 내려와요

> 상황

A 시스템에 서버들의 CPU 사용량이 불규칙적으로 증가한 후 떨어지지 않는 현상이 발생하고 있다.

> 접근 방법

CPU 사용량을 봐야 하는데 그냥 보는게 아니라, 각 CPU가 어떻게 점유하는지를 확인해야 한다. 예를 들어, 네 개의 CPU 코어가 있는 장비가 25%를 점유하고 있는 상황을 생각해 보자. 이때 일반적인(정상적인) 경우라면 네개의 CPU 코어가 고르게 25% 내외로 사용하고 있을 것이다. 하지만 비정상적인 경우라면 네 개의 CPU 코어 중에서 세 개는 놀고 있고(약 0~3% 정도 사용), 나머지 코어가 100%를 사용하고 있을 수도 있다.

이렇게 하나의 CPU 코어 사용량이 급증하는 원인은 여러 가지다.

  • 애플리케이션 로직상의 잘못으로 무한 루프에 빠졌을 떄

  • XML 라이브러리의 문제로 특수문자가 들어왔을 때 parsing을 제대로 못 하고 무한 루프에 빠졌을 때

  • 정규 표현식을 잘못 사용하여 무한 루프에 빠졌을 때

  • 메모리가 부족하여 GC 관련 스레드만 반복적으로 수행하고 있을 때

문제 해결 방법

  1. 장애가 발생한 장비에서 스레드 덤프를 30초나 1분 간격으로 5~10회 정도 생성한다.

    kill -3 pid
  2. 스레드 덤프를 생성할 때 동시에 각 스레드별 사용 시간에 대한 덤프도 생성한다.

    ps -Lf -p pid
  3. 스레드 단면 분석 도구로 스레드 덤프 파일을 연다

  4. ps 명령어를 사용하여 수집한 덤프에서 수행 시간이 가장 오래 걸린 스레드를 확인한다.

  5. 스레드 단면 분석 도구에서 해당 스레드에서 어떤 작업을 하고 있는지 스택 정보를 확인해 본다.

  6. 결과를 공유한다.

사례 둘. 스레드 풀의 스레드 개수가 계속 증가해요

WAS와 같은 멀티 스레드 작업을 하는 프로그램에서는 스레드 풀을 사용한다. DB Connection pool 처럼 미리 스레드를 생성해 놓고, 그 스레드를 재사용하는 방식이다. 매번 스레드를 생성할 필요가 없기 때문에 성능은 좋아지겠지만 스레드가 중단되지 않아 풀 내의 여유 스레드가 부족해질 수도 있다는 것이다.

> 상황

B 서비스는 WAS의 스레드 풀을 최대 1,024개로 설정하여 사용하고 있다. 그런데 이 스레드 풀이 꽉 차는 현상이 발생했다. 그런데 특이한 것은 여 대의 장비 중 다른 장비는 이상이 없는데 한 장비에서만 이러한 현상이 발생한다는 것이다.

> 접근 방법

일단 스레드 개수가 증가하는 상황이기 떄문에 스레드 덤프를 뜬다. 스레드 덤프는 한두 번만 떠서는 안 되며 주기적으로 여러 번 떠야만 한다.

스레드 덤프를 스레드 단면 분석 도구를 통해서 분석해 본 결과 록에 잠겨 대기하고 있는 스레드의 종류가 다양했다.

록을 발생시킨 스레드 이름

대기 스레드 개수

A

405

B

212

C

15

D

10

원인 분석

스레드들을 살펴보면 대부분 I/O와 관련되어 있는 부분이다. java.io.File.lastModified() 메서드와 java.io.File.exists() 메서드에서 호출된 부분에서 록이 걸려 있는 것을 발션할 수 있다. 그리고 록이 가장 많이 걸려 있는 부분은 JMX의 데이터를 처리하기 위해서 객체를 복사하는 작업(Object.clone())을 수행 중이다.

첫 번째 록이 발생한 원인은 이 스레드 단면만 갖고는 분석하기가 어렵다. 객체 복사 부분에서 계속 록을 잡고 있는지, 몇 초 뒤에는 록이 모두 해제되었는지를 알 수가 없기 때문이다.

두 번째에서 세 번째, 네 번째 록이 발생한 원인은 해당 I/O 관련 장비 때문이었다. 장비가 노후되어 다른 장비로 교체한 것이었는데, 만약 해당 장애 상황에서 스레드 정보 외에 시스템의 리소스 정보를 수집해 놓았다면 조금 더 빨리 원인을 찾았을 것이다. 다시 말해서, 장애가 발생했을때 애플리케이션상의 문제가 아닌 다른 원인 때문에도 장애가 발생할 수 있다는 것을 반드시 명심하자

사례 셋. 시스템 응답이 없어요

> 상황

C 시스템의 WAS가 응답을 하지 않는다. 각 서버의 CPU는 하나만 줄기차게 사용하고 있으며, 스레드 덤프와 ps -LF 명령어를 사용하여 어떤 스레드가 CPU를 계속 사용하고 있는지에 대한 자료는 모아 두었다.

> 접근 방법

ps -Lf 명령어로 수집한 데이터를 토대로 확인해 보자

user 2250 1 2250 0 608 sep15 ? 00:00:00 java ...
user 2250 1 2252 0 608 sep15 ? 00:00:06 java ...
user 2250 1 2253 1 608 sep15 ? 06:12:06 java ...
user 2250 1 2254 1 608 sep15 ? 06:12:00 java ...
user 2250 1 2255 6 608 sep15 ? 1-07:48:00 java ...
user 2250 1 2256 0 608 sep15 ? 03:24:22 java ...
user 2250 1 2257 0 608 sep15 ? 00:00:00 java ...

이 결과를 보면 다섯 번째 열의 값이 2255라는 숫자를 가진 스레드가 지금도 사용중이고 매우 오랜 시간 동안 수행되어 온 것을 확인할 수 있다. 2254도 비슷한 상황이다. 이 세 개의 스레드의 아이디를 확인하려면 스레드 단면 분석 도구를 열어 Native ID를 확인해 보면 된다.

즉, CPU를 혼자 점유하고 있는 것은 바로 GC 관련 스레드였다. 이러한 상황에서 장애를 발생시킨 가장 유력한 용의자는 바로 메모리 릭(leak)이다. 메모리 릭이라는 것은 말 그대로 메모리가 부족해지는 것을 말하는데, JVM을 지속해서 사용하면서 어떤 애플리케이션에서 메모리를 풀어주지 않고 야금야금 먹는다면, 이 애플리케이션은 언젠가 할당해 놓은 메모리가 부족해질 것이다.

PreviousCHAP 10. 잘라 놓은 스레드 단면 분석하기NextCHAP 12. 메모리 때문에 발생할 수 있는 문제들

Last updated 4 years ago

Was this helpful?