[JVM] 메모리 사용량 줄이기 - Canonical Object (정규 객체) / String.intern()
힙 메모리를 관리하는데 있어, 힙 크기를 늘리는 것과 비슷한 효과를 받을 수 있는 것이 메모리를 적게 사용하는 것이다.
기본적인 개념을 먼저 알아보고, 문자열을 많이 사용하는 어플리케이션의 경우 String을 사용할 때 어떠한 것을 조심해야하는지 살펴보자
객체 크기 줄이기
인스턴스 변수 개수 줄이기, 변수의 크기 줄이기
Ex. double -> float
객체의 크기는 항상 8byte 배수이다.
객체에서 실제로 사용하는 변수의 크기가 9byte이거나10byte이거나 모두 18byte크기의 객체로 잡히고, 나머지는 빈 값으로 채워진다. 때문에 변수의 크기나 개수를 줄인다고 이점이 있을수도 있고 없을 수도 있지만 시도하지 않을 이유는 없다.
시간 vs 공간
인스턴스 변수를 무조건 줄인다고 좋을까?
계산의 중간값을 저장하는 인스턴스 변수는 없애는 것이 좋을까?
C라는 인스턴스 변수가 A,B라는 인스턴스 변수를 이용해서 복잡한 계산을 한 결과값을 저장한다면
C라는 인스턴스 변수를 없애는 것이 좋을까?
없애면 물론 객체의 크기는 줄어들 수 있지만, 나중에 C라는 결과값을 가져오기 위해 매번 복잡한 계산을 다시 수행해야 한다.
인스턴스 변수를 줄여서 메모리 공간을 절약 VS 계산하기 위한 CPU 타임 절약?
인스턴스 변수를 줄이면 메모리 공간 뿐만 아니라, 나중에 GC에서의 CPU타임도 절약된다.
그렇다고 해서 인스턴스 변수를 줄이는 것이 모두 좋은 것은 아니고 상황에 따라 잘 판단하자.
GC 타임을 줄이는 것이 목표라면, 인스턴스 변수를 줄이는 것이 좋을 것이다.
Shallow / Deep / Retained
객체는 참조 값을 인스턴스 변수로 포함하고 있는 경우가 많다.
Shallow 크기 - 참조 값의 크기 8byte만 계산한 값이다.
Deep 크기- 참조 값이 가리키고 있는 객체의 크기를 포함한 값이다.
Retained 크기 -인스턴스 변수가 단순히 참조가 아닌, 객체를 포함하고 있을 경우 Retained 보유 크기로 포함된다.
문자열 연결
프로그램에서 가장 흔히 쓰이는 자바 객체는 문자열일 것이다.
대부분의 힙은 문자열로 가득 차있다.
문자열의 내용이 동일한 것이 여러개 있다면, 그 영역을 낭비하고 있는 것이다.
Eclipse MAT을 이용해서 힙 덤프 내의 String 객체들의 Retained Heap Size(보유 힙 크기)를 확인할 수 있다.
String 클래스의 보유 크기가 같다면, 같은 문자열일 가능성이 높으므로 같은 문자열인지 아닌지 확인해봐야 한다.
MAT에서 아래와 같이 String의 인스턴스 리스트를 확인할 수 있다.
리스트에서 Retained Heap 으로 된 크기가 2696으로 같은 String 인스턴스들이 의심의 대상이다.
같은 문자열일 경우 두 String 문자열을 연결하면 메모리를 절약할 수 있다.
문자열 연결은 String.intern()을 이용하여 할 수 있다.
Canonical Representation : 정규 표현
어떤 특정한 리소스 타입의 값이 여러가지 방법으로 표현될 수 있다.
그리고 가장 널리 사용되는 표현방법을 canonical 하다고 한다.
파일을 예로 들면, myFile.txt라는 리소스는 아래와 같이 네 가지 표현 방식으로 표현될 수 있다.
하지만 맨 아래의 절대경로를 사용한 방법이 누구나 파일의 위치를 이해하기 쉽기 때문에 Canonical 한 표현방식으로 선택될 수 있다.
동일한 방식의 원리가 자바 인스턴스에도 적용된다. 자바 오브젝트가 특정 리소스 타입을 나타낸다고 하자.
리소스 타입을 나타낼 수 있는 방법은 다양하다.그만큼 자바 오브젝트도 다양하게 나타날 수 있다.
예를 들어, 정규화 되기 전 사람을 나타내는 Person객체는 두 가지가 존재할 수 있다.
Ex. Class Person1 { String fullName }
Ex. Class Person2 { String lastName, String firstName }
하지만 어짜피 같은 종류의 리소스(사람)를 표현할 것이라면, Canonical 하게 만들어서 (정규 객체로 만든다)
하나의 대표적인 오브젝트 타입으로 리소스를 표현하는 것이 좋다.
예를들어, 여기서는 성과 이름을 나눠서 표현하는 것이 좋다고 판단하여,
Person2을 사람을 표현하는 정규 표현(Canonical Representation)으로 결정했다.
Ex. Class Person { String lastName, String firstName }
정규 객체가 좋은 이유
정규 객체의 대표적인 예로, String이 있다. String의 예를들어보자.
1. 메모리 절약
- "abc"라는 문자열 값을 가리키기 위해 하나의 String 인스턴스만 존재하면 된다.
2. 시간 절약
- "==" 연산자를 사용해서 인스턴스 비교를 할 수 있다.
- 그렇지 않으면 equals()메소드를 이용해서 비교해야하는데, 이 과정은 "==" 보다 오래걸린다.
※ String.intern()
- 같은 문자열을 나타내는 두 개의 다른 String 인스턴스를 정규화 시켜서 하나의 인스턴스로 나타낸다.
- intern() 정규화 과정을 거친 문자열은 두 개의 Aliases가 된다.
문자열 연결을 너무 많이 할 경우 주의할 점이 있다.
연결된 문자열은 네이티브 메모리 내에 구성된 고정 크기 해시 테이블에 저장된다.
간단히 예를들어, 정규화된 String 객체의 경우 아래와 같이 두 개를 할당하면 자동으로 정규화가 진행되어 하나의 문자열만 유지한다.
String a = "abc";
String b = "abc";
a==b : true
a,b가 같은 문자열 "abc"를 가리키고 있다는 정보를 고정 크기 해시테이블에 저장한다.
예를들어 a,b의 해시 값이 "1"이라고 할 때 아래와 같이 같은 해시 값을 갖는 것들을 네이티브 메모리 내에 구성된 고정 크기 링크드 리스트로 관리한다.
Ex. { "1" : [a,b, ... 해쉬 값이 겹치는 것들은 링크드 리스트(고정크기 N)로 관리] }
따라서 "abc"라는 값을 갖는 인스턴스가 너무 많을 경우 고정 크기 리스트가 꽉차게 될 것이다.
만약 위의 a,b 가 정규화 String이 아니고, 아래와 같이 String1, String2라고 하자.
String1 a = "abc";
String2 b = "abc";
그리고 a의 해쉬값은 "1", b의 해쉬값은 "2"라고 하자. 그러면 아래와 같이 다른 리스트에 분산되어 저장되므로 많은 양의 데이터를 저장할 수 있으나, 정규화가 안되어있기 때문에 "abc" 하나를 표현하기 위해 많은 양의 메모리를 차지하며, 비교연산 또한 equals를 사용하므로 느려진다. (많이 느리지는 않음..)
Ex. { "1" : [a("abc")]
"2" : [b("abc")]
a==b : false
a.equals(b) : true
String 정규 객체의 단점
문자열 값이 고정 크기 해시 테이블에 저장된다. 해시 테이블에 저장될 때, 특정 계산과정을 거쳐서 중복된 해시값을 저장할 링크드 리스트 내의 인덱스를 결정한다. 만약 해시 값이 같아서 같은 리스트 내에 저장되는데, 리스트 내의 인덱스도 같다면 충돌이 발생한다.
같은 값을 갖는 정규화된 String 인스턴스의 개수가 네이티브 메모리의 고정 크기 리스트 보다 커지게되면 문제가 발생한다. 고정 크기 해시 테이블의 디폴트 크기는 64bit 자바 7u40이후 버전의 경우 60,013 버킷이다. 보통 리스트 내에 충돌이 발생하려면 그의 절반인 30,000개 정도 찼을 때이다. 충돌도 문제가 되지만, 점점 리스트가 길어질수록 링크드 리스트를 조회하기 위한 시간이 길어진다.
String이 아닌 객체의 경우 충돌이 발생하지 않도록 버킷의 크기를 자동적으로 조절하도록 구현할 수 있다.
자바의 Hashtable, HashMap은 동적으로 크기를 변경하도록 구현되었다.
하지만 String은 재조정할 수 없다. JVM에 의해 맵이 생성될 때 고정된다.
커스텀 정규 객체 (Customizing)
String의 단점을 극복하려면 HashTable의 고정크기를 커스터마이징해서 크기를 동적으로 늘릴 수 있게 만들어야 한다. 이렇게 객체를 정규화 만드는 방식이 코딩 스타일로 이미 존재한다.
정규 객체 생성하기
String 과 같이 자주쓰는 객체에 대해서는 intern()과 같은 메소드를 제공한다
객체를 정규화 시키는 패턴의 스켈레톤(추상 슈퍼 클래스)은 다음과 같다.
해시맵에 같은 값을 갖는 객체의 정규화 버전을 모두 저장시킨다.
이와 같은 정규화 패턴을 구현한 다양한 서드 파티 구현체들이 존재한다
-XX:StringTableSize=N (default : 60,013)
64bit 7u40이상일 경우 문자열 고정크기 해시 테이블의 디폴트 크기가 60,013으로 어느정도 넉넉하다.
하지만 이전에는 비교적 작았기 때문에 튜닝이 필요한 경우가 많았다.
위의 플래그를 사용해서 JVM이 시작할 때 고정크기를 지정할 수 있다.
어플리케이션이 문자열을 많이 사용한다면 이 크기를 조절해야 한다.
intern() 메소드가 매우 느려진다면 위 플래그를 튜닝해야할 것이다.
천만개의 문자열을 생성하고 intern()을 이용해서 연결할 때 총 걸리는 시간을 테스트해본 결과
문자열 테이블의 크기 1000 - 2.3시간
문자열 테이블의 크기 백만 - 30.4초
문자열 테이블의 크기 천만 - 25.2초
커스텀 메서드 - 26.4초
위에서 보는 것과 같이 문자열 테이블의 크기에 따라 동일한 값을 갖는 문자열이 천만개정도라면 이를 연결하는데 2.3시간이 걸릴 수도 있고, 30초가 걸릴 수도 있다.
커스텀 메서드는, 커스텀 정규 객체를 이용해서 String의 해시 테이블 배열 크기를 동적으로 늘릴 수 있도록 구현했을 때 나온 결과값이다.
너무 큰 초기 값을 지정한다면?
발생하는 불이익은 사소하다. 각 버킷은 4~8byte만 차지하고,
무엇보다 힙의 크기가 아닌 네이티브 메모리의 크기를 지정하는 것이기 때문이다.
네이티브 메모리가 많다면 많이줘도 상관없음!
'JAVA > JVM' 카테고리의 다른 글
레지스터 기반 vs 스택 기반 VM (0) | 2021.12.16 |
---|---|
[JVM] CPU 분석 (0) | 2021.12.16 |
[JVM] OS 와 튜닝 (0) | 2021.12.16 |
[JVM] 객체 재사용 - Reference 종류, WeakHashMap (0) | 2021.12.16 |
[JVM] WANR! Collections & Memory Leak (0) | 2021.12.16 |
[JVM] jcmd & jmap 힙 히스토그램 - 가장 많은 메모리를 소모하는 인스턴스 찾기 (0) | 2021.12.16 |
[JVM] G1 Collector - 더! 큰 객체 할당 (0) | 2021.12.16 |
[JVM] G1 Collector - 큰 객체 할당, TLAB 튜닝 (0) | 2021.12.16 |