스크래핑3 hometax 데이터 형식 xml -> json 변경 사항 최근 몇 주 전에 hometax 의 데이터 형식이 돌연 xml 에서 json 으로 변화하였다.하루아침에 데이터 형식의 변화라니... 빠르게 전체가 변한거 보면 자체 framework 에서 xml/json 을 선택할 수 있게 되어있었나 보다. 데이터 용량 줄일려고 json 으로 바꿨나... 기본적으로 request 의 경우 XML + hometax 자체 무결성 검증 (무결성이 맞나... 체크섬이 더 맞는 표현일듯... 근데 의미없이 왜 이상한 코드를 넣었는지... 이해가 안되긴 함...) 형식이었는데, 무결성 검증 알고리즘 등은 그대로이고, url 들도 그대로인걸 보아 하니 딱 데이터 형식만 바뀐 듯 하다. 하튼.. 덕분에- https://x.com/pakyoungrok/status/185332953517.. 2024. 11. 19. Captcha Solver 개발기 특정 데이터를 스크래핑 하려는데 로그인 후 캡챠가 있어 이를 우회 및 자동화 하기 위해 captcha solver 을 만들어야 했다.머신러닝을 이용해서 captcha solver 을 만들었다. captcha solver 을 만드는 과정은 다음과 같다. 1. 사용하는 라이브러리 파악.- 어떤 라이브러리를 사용했는지 파악한다. 모양 혹은 소스를 통해 유추 가능하다. 2. 파라미터 탐색 및 generator 제작- 폰트, 폰트사이즈, 노이즈 방식 등 파라미터를 찾는다.- 여러 방식으로 유추하여 파라미터를 찾고, 원본과 동일한 값을 재-생성해 유사한지 확인한다.- 해당 사이트는 simplecaptcha 을 사용했지만, noise, font rotate, overlap 등 추가 기능을 자체적으로 개발한 듯 했다... 2024. 8. 7. Java 정부 사이트 공인인증서 로그인, 스크래핑 포트폴리오 (korea-scraper) Golang 구현은 : https://jsty.tistory.com/351 (korea-pki) 에 있습니다. korea-scraper 는 Java 로 개발 된 정부 사이트 스크래핑을 위한 기본 구현 라이브러리입니다.비동기 호출 기반의 스크래핑 및 headless 공인인증서 로그인이 구현되어 있습니다.개발 의뢰 요청 시 해당 라이브러리를 바탕으로 세부 구현을 만들어 드립니다. 특징비동기 HTTP 호출 사용apache http clients 5 의 CloseableHttpAsyncClient 와 CompletableFuture 을 사용하여 non-blocking 구현 사용으로 인해 I/O 및 Thread 에 대해 효율적으로 동작 가능하다. SequenceMachine 구조 사용 StateMachine 과 .. 2024. 2. 18. 이전 1 다음 반응형