YOUSINSA
[#12] YOUSINSA, 이대로 괜찮은가?
[#12] YOUSINSA, 이대로 괜찮은가?
2022.11.11개요 마지막 개선사항까지 포스팅을 완료했지만 그동안 면접, 포트폴리오 피드백을 다양하게 받으면서 알게 된 부분과 더불어서 이미 알고 있는 개선 필요 지점, 아쉬운 부분을 기록하기 위해 "이대로 괜찮은가" 편을 남기려고 합니다. 그리고 이렇게 기록된 사항을 바탕으로 다시 프로젝트를 이어서 진행하면서 개선해나가면서 최종적인 목표인 Version 4까지 달려가기 위한 증거로 남기고 싶었습니다. YOUSINSA 프로젝트 테스트 시나리오의 한계 개선을 진행해서 목표한 동시 사용자 500명을 기준으로 각각의 API에 대해서 1250 TPS는 달성했습니다. 하지만 실서비스에서도 정상적으로 돌아갈 것이라 낙관할 수 있을까라는 의문이 들었습니다. 실서비스에서도 정상적으로 문제없이 돌아갈 것이라고 확신하게 되는 경우는 무..
[#11] 재고 관리는 어떻게 해야될까? - 2. Lua Script
[#11] 재고 관리는 어떻게 해야될까? - 2. Lua Script
2022.11.07개요 이전 포스팅에서는 Redis의 Transaction을 사용하여 Cache Layer에서의 데이터 일관성을 보장하려고 시도했지만 Redis의 Transaction과 관련된 동작에서 Read-Write 패턴의 사용은 지원하지 않는 한계점이 있었습니다. 이런 한계점을 다시 해결해보기 위해서 Redis와 관련된 동작을 분석해보았습니다. 재고 관리와 관련된 Redis의 동작을 정리하면 크게 3가지로 요약할 수 있습니다. - Redis에 해당 제품의 재고가 없으면 Database에서 재고를 갖고 온 뒤 검증한다. - Redis에 해당 제품의 재고가 있다면 재고 수에 대해 검증한다. - 재고수를 차감한 뒤 Database에도 차감된 재고를 동기화한다. Redis에서 지원하지 않는 동작은 수행하지 못하는 것일까?..
[#11] 재고 관리는 어떻게 해야될까? - 1. Redis Transaction
[#11] 재고 관리는 어떻게 해야될까? - 1. Redis Transaction
2022.10.27개요 지금까지 데이터의 무결성을 위해 해결을 시도한 영역은 백엔드를 구성하는 부분 중 Database였습니다. 데이터 베이스에서 Transaction들을 Serial하게 수행하여 무결성을 확보하고 성능과 Trade-Off 했습니다. 하지만 E-Commerce 분야에서 하나의 상품을 많은 사람들이 구매하는 상황은 빈번하게 발생한다고 생각했었을 때 성능 또한 향상시킬 필요성이 있습니다. 왜냐하면 구매를 하기 위해 오랜 시간 대기하였지만 실패되는 경험은 유저에게 서비스의 신뢰도를 떨어뜨린다고 판단했습니다. 그렇다면 어떻게 재고 데이터의 무결성을 보장하면서 성능 또한 올릴 수 있을지 방안을 고안해보았습니다. 구매 주문 과정 분해하기 현재는 '재고'라는 상태를 모두 데이터 베이스에 저장하기 때문에 발생하는 문제라..
[#10] 재고 관리 Integrity 문제 - 2
[#10] 재고 관리 Integrity 문제 - 2
2022.10.15개요 이번 포스팅에서는 재고 관리 Integrity 문제 1편의 마지막에 '왜 Database Lock이 Distributed-Lock보다 TPS 성능이 좋겠나왔는가?'를 다뤄보려고 합니다. 주의🚫 : 해당 테스트에서 Distributed-Lock이 DB Lock보다 성능이 안 좋게 나왔지만 Database Lock은 항상 Distributed-Lock보다 좋다라는 관점은 적절하지 않습니다. Distributed-Lock은 왜 사용할까? 처음 예상하기로는 In-memory DB를 통해서 Lock을 수행하므로 막연히 더 빠르겠지(?)라는 생각을 갖고 있었습니다. 더불어 분산 락으로 인해 Database에서 해당 Row에 대한 Update 동작을 경합할 Transaction의 수가 적어지니 Database에..
[#10] 재고 관리 Integrity 문제 - 1
[#10] 재고 관리 Integrity 문제 - 1
2022.10.13개요 구매 부분은 대부분 서비스들의 핵심이고 커머스 도메인에서 재고 관리의 경우 비즈니스와 밀접한 연관이 있다고 생각합니다. 관리측면에서 보면 100개 밖에 없는 상품을 120개 판매했다고 기록한다면 추후 실제 재고를 관리하는 팀에서는 추가 발주를 진행해야 될 수도 있고 만약 추가 발주를 통해 재고가 확보가 안된다면 구매했던 고객들의 상품을 취소해야 합니다. 결국 이런 일들이 반복되면 비즈니스적으로 악영향을 끼칠 것이 분명합니다. 도메인마다, 서비스마다 다를 수도 있습니다! 결국 Trade-Off가 핵심 10개의 제품을 10명이 1개씩 구매했지만 2개가 남아있는 상황같이 반대의 경우는 어떨지 생각해보았습니다. 현재 구매를 진행한 고객들은 상품을 잘 받았지만 재고가 있어 추가적으로 구매하려 했지만 실패하는..
[#9] Scale-Out 테스트 결과 분석하기
[#9] Scale-Out 테스트 결과 분석하기
2022.10.11개요 Scale-Out에 필요한 사전 준비 사항들은 모두 Infra에 반영하여 구성을 완료했습니다. Pinpoint를 Scale-Out 시킨 Server에 모두 설치하여 Application Server를 모니터링할 수 있도록 구성하였고 Database Server의 경우 이전과 마찬가지로 Prometheus, Grafana를 통하여 테스트 결과를 확인했습니다. TPS 비교 이번 테스트의 목표는 Scale-Out을 도입하였을 때 어느정도의 성능 향상이 이루어지는지와 또 다른 병목지점을 찾기 위한 목적입니다. Scale-Out을 위한 사전 작업을 적용하기 전과 Scale-Out 적용된 Infra를 비교했습니다. 그래프를 확인해보면 전반적으로 Scale-Out시 성능이 향상 된 것을 볼 수 있습니다. 비교를..
[#7] DeadLock 발생 해결하기
[#7] DeadLock 발생 해결하기
2022.10.04개요 Scale-Out을 위한 사전 작업을 진행하기 전에 구매 API를 정상화할 필요성이 있었습니다. 이전 #1[구매주문] 에서 다뤘듯이 같은 품목 옵션을 많은 사람들이 동시에 구매하는 경우 DeadLock이 발생하며 CannotAquireLockException이 발생했습니다. 그리고 쿼리 최적화에서 인덱스가 영향을 줄 수 있을지 몰랐다는 부분과 연관됩니다. 정확히는 제약 조건이 어떤 영향을 줄지 몰랐다는 점입니다. 그럼 어떻게 DeadLock의 원인과 해결했는지에 대한 설명을 진행해보겠습니다. 어디서 DeadLock이 발생할까? Pinpoint를 사용하여 StackTrace를 볼 수 있어 문제의 실마리는 쉽게 찾을 수 있었습니다. MySQL에서 DeadLock이 발견되어 Exception이 발생하게 ..
[#6] Connection 점유 시간 단축시키기 - HikariCP와 LazyConnectionDataSourceProxy 적용하기
[#6] Connection 점유 시간 단축시키기 - HikariCP와 LazyConnectionDataSourceProxy 적용하기
2022.10.01개요 이전 포스팅에서 auto commit 설정을 통해 Connection의 획득을 지연시키는 설정을 추가하여 성능을 개선하려고 했습니다. 하지만 이 부분에 있어서 간과한 것이 있었습니다. Auto Commit 전에 이미 Connection이 필요하다면 어떻게 될까요? 당연히 지연된 획득이 아니라 기존과 동일하게 작동할 것입니다. 이전 포스팅에서는 Auto Commit을 기준으로 Bean들을 살펴보았다면 이번 포스팅에서는 Transaction부터 HikariCP까지의 동작을 살펴보면서 Auto Commit을 적용했을 때 달라지는 부분과 LazyConnectionDataSourceProxy의 동작도 살펴보겠습니다. Transaction부터 HikariCP까지 이전 포스팅에서도 Connection을 언제 가..
[#5] Scale-Up으로 검증
[#5] Scale-Up으로 검증
2022.09.27개요 #4를 통해서 Application Server의 Resource 부족으로 병목이 발생한다는 것을 알게 되었습니다. 만약 해당 가정이 참이라면 Application Server의 Resource를 Scale-Up 한다면 성능이 오르는 것은 자명합니다. Scale-Up을 진행한 이후에도 Pool Size에 대한 변화를 관찰하여 예상했던 가정을 재검증하는 작업을 거쳤습니다. 그동안 진행된 실험에서 JVM Heap Size로 인해 문제가 발생되지는 않았으므로 vCPU만 Scale-Up 하여 실험을 진행했습니다. Scale-Up 예상 결과 먼저 사용 가능한 Resource들에 대해서 다시 한번 점검하고 실험 결과를 보여드리겠습니다. Heap Memory - 2GB CPU - 4vCPU 예상하는 실험 결과는..
[#3 ~ #4] Database Connection PoolSize 최적화
[#3 ~ #4] Database Connection PoolSize 최적화
2022.09.26개요 Index를 적용하여 쿼리 최적화를 진행한 뒤에 N + 1 문제도 해결했습니다. 하지만 N + 1 문제를 개선한 뒤에 분리하여 테스트를 기록하지는 않았습니다. 왜냐하면 가장 오래 걸렸던 테스트 TOP 3안에 뽑히는 Database Connection PoolSize를 조정해보며 실험을 하게 되면 자연스럽게 기본 Pool 사이즈에서 N + 1 문제의 개선 결과도 볼 수 있을 것이기 때문입니다. 이 부분에서 가장 고생했던 부분은 Pool Size를 최적화 실험에서 더 효율적으로 테스트 하는 방법이었습니다. 예를 들면 '어느 정도의 테스트 시간을 설정하면 Connection Pool Size에 대한 변화를 잘 볼 수 있을까?', 'Connection Pool Size의 간격을 어느 정도로 진행해야 최적의..
[#2] 쿼리 문제 최적화
[#2] 쿼리 문제 최적화
2022.09.22개요 [#1](인프라 개선하기 작업)을 통해 이제 정상적으로 테스트는 가능했지만 전반적으로 개선의 필요성이 있다는 것을 절실히 느꼈습니다. 'Postman으로 응답 오면 잘 만들어졌군!' 하던 스스로가 너무 부끄러웠지만 이제 시작이니 차근차근 해결해 나가 보자는 생각을 갖고 가장 쉽게 고칠 수 있는 부분부터 접근해 나가려는 계획을 세우고 시작했습니다. 가장 먼저 눈에 띄는 것은 바로 '쿼리의 수행 시간'이었습니다. Database라는 것을 학습하면서 인덱스를 통해 빠른 속도를 통해 데이터를 갖고 올 수 있고 왜 빠른지에 대해서 알고 있었지만 '정말 빨라?'라는 의문과 '나는 실행 계획(EXPLAIN)을 통해 쿼리를 개선할 수 있을까?'라는 의구심으로써 Primary Key와 Foreign Key를 제외하..