Bitmex 1m bucketed
대용량 시계열 데이터를 안정적으로 수집하려면 신뢰성 있는 반복 호출과 일관된 저장 방식이 필요합니다. 이 문서에서는 Java의 HttpURLConnection과 GSON을 사용해 Bitmex 1m bucketed 캔들 데이터를 주기적으로 가져와 로컬에 보관하는 실무적인 방법을 설명합니다.
1. 📦 필요한 라이브러리 (pom.xml)
HTTP 호출과 JSON 파싱, 파일 출력을 위해 최소한의 의존성을 선언합니다. 아래 라이브러리로 안정적인 데이터 파이프라인을 구성할 수 있습니다.
<dependencies>
<!-- (1) Apache POI: 엑셀 파일 처리용 (현재 코드에서 직접 사용되진 않으나, 목적에 부합) -->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.17</version>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.17</version>
</dependency>
<!-- (2) Google GSON: JSON 문자열을 Java 객체로 변환 (필수) -->
<dependency>
<groupId>com.google.code.gson</groupId>
<artifactId>gson</artifactId>
<version>2.8.6</version>
</dependency>
</dependencies>
2. 💻 데이터 수집 로직 분석 (`setExcel()` 메소드)
이 구현은 재귀 호출로 구간별 데이터를 이어 받아 파일로 축적합니다. 특히 Bitmex 1m bucketed 엔드포인트를 연속 조회해 1분 단위 캔들 시계열을 완성합니다.
2.1. 핵심 파라미터 및 API 구조
- `START`: API의 `start` 파라미터로 데이터를 탐색할 초기 인덱스입니다. 주석 기준으로 2019-01-01 이후 데이터를 가리킵니다.
- `MAX`: 수집을 종료할 최종 인덱스.
- `STEP`: 한 호출에서 읽어오는 레코드 수 (`count=1000`).
- **API URL:** `https://www.bitmex.com/api/v1/trade/bucketed?binSize=1m&symbol=XBTUSD&count=1000&start=`
- `binSize=1m`: 분 단위(1분) 캔들 데이터를 요청합니다.
- `symbol=XBTUSD`: 비트코인 US 달러 무기한 스왑의 거래 데이터를 조회합니다.
2.2. 재귀 호출을 통한 반복 크롤링
한 블록을 성공적으로 쓰면 시작 인덱스를 옮겨 다음 블록을 가져옵니다. 재귀 구조는 구현이 단순하고 연속 수집을 자연스럽게 처리합니다. 다만 호출 빈도를 제어하지 않으면 API 제한에 걸릴 수 있습니다.
// 현재 인덱스를 STEP만큼 증가시켜 다음 데이터 블록을 준비
START = START + STEP;
con.disconnect();
// API 요청 제한(Rate Limit)을 피하기 위한 지연 시간
Thread.sleep(3000);
// 재귀 호출
setExcel();
2.3. 데이터 처리 및 파일 저장
API 응답은 GSON으로 VO 배열로 변환됩니다. 각 요소에서 타임스탬프, 시가, 고가, 저가, 종가를 추출해 탭으로 구분된 텍스트로 저장하면 이후 분석 도구에서 쉽게 불러올 수 있습니다.
// JSON 응답을 Java 객체 배열로 변환
bucketedVO[] vo = gson.fromJson(sb.toString(), bucketedVO[].class);
// ... 반복문 내에서 데이터 형식 지정 ...
String txt = item.getTimestamp()+"\t"+item.getOpen()+"\t"+item.getHigh()+"\t"+item.getLow()+"\t"+item.getClose()+"\n";
// 탭(\t)으로 구분하여 BufferedWriter에 추가 (엑셀에서 쉽게 가져올 수 있는 형태로 저장)
writer.append(txt);
3. 🌟 요약 및 활용 방안
요약하면, 이 패턴은 안정적인 연속 수집을 목표로 설계되어 있습니다. Bitmex 1m bucketed 데이터를 단계적으로 수집하면서 파일에 누적 저장하는 방식은 분석 파이프라인에 적합합니다.
- 안전성: 요청 간 인터벌을 두어 Rate Limit을 회피합니다.
- 확장성: 재귀 기반 흐름으로 API가 한 번에 제공하는 범위를 넘어선 데이터를 이어 받습니다.
- 호환성: 탭 구분 텍스트로 저장하면 Excel, Python Pandas 등 다양한 도구에서 바로 활용할 수 있습니다.
수집된 Bitmex 1m bucketed 시계열은 백테스트, 지표 생성, 시계열 모델 학습에 직접 활용할 수 있습니다. 구현 시 예외 처리와 백오프 전략을 추가하면 안정성이 더 높아집니다.
함께 보면 좋은 엔터프라이즈 사례
🚀 이 주제, 우리 서비스에 어떻게 적용할까요?
Bitmex 1m bucketed를 실제 서비스와 조직에 녹여보고 싶다면, 현재 아키텍처와 운영 방식을 한 번 점검해 보는 것부터 시작해 보세요. 팀 위키나 기술 블로그, 사내 스터디 주제로도 아주 좋습니다.
이 글이 도움이 됐다면, 비슷한 엔터프라이즈 사례 글들도 함께 살펴보면서 우리 조직에 맞는 운영 상용구를 정의해 보세요.
댓글
댓글 쓰기