목록Project/데이터 크롤링 (6)
불친절한 블로그
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/kybPk/btrdzN1b7N2/PUwp1n87YkpVdaTZMK2IPK/img.png)
한국전력에서도 뭔가 새로운 서비스를 하기위해서 움직이는게 보인다. 그 중에 살펴보고 싶은 것이 전력데이터 서비스 마켓(EDS)이다. 전력데이터 서비스 마켓은 공급기업이 서비스를 등록하면 일반 사용자가 그 서비스에 들어가서 정보제공동의를 해서 공급기업의 서비스를 이용할 수 있게된다. 서비스라고만 설명이 되었지만 앱처럼 다운 받아서 사용하거나 웹페이지에 접속해서 서비스를 이용한다. 그럼 자세하게 알아보자!! 우선 한전 엔터 에너지마켓플레이스에 접속한다. https://en-ter.co.kr/main.do 한전 엔터 에너지마켓플레이스 EN:TER www.en-ter.co.kr 상단 메뉴 중에 에너지데이터 탭을 살펴보면 전력데이터 서비스(EDS)가 있다. 선택을 하게되면 새창으로 전력데이터 서비스 마켓이 켜진다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/OkrX9/btqReP05vyq/YXQ7JOJYecP7GO4IHqns2k/img.png)
주소를 전처리하고 있는 과정에서 지번주소에 도로명 주소가 무작위로 들어가 있었다. 분기처리로 도로명 주소를 찾아서 지번주소에 들어가지 않게 .find()를 사용해서 '번길' 이라고 들어가는 위치를 다 날렸다. 이제 '번길'이 포함된 도로명 주소들은 무시하고 지번 주소들만 영향을 줄수 있게 되었다. 이 방법은 dataframe형태로 하지 못하고 문자열 형식일때만 사용할 수 있었다. 다른 상황의 예제도 있었다. 두개의 엑셀 파일이 있는데 같은 주소를 확인해서 매칭을 시켜야했다. pandas의 기능중 isin()이 있는데 두개의 dataframe을 한번에 비교해서 같은 값이 있으면 true값을 출력한다.
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/tTWv1/btqRcGXzShh/bwKXEnAFdGxFkKEOjZSdsk/img.png)
공장주소를 가져와서 양식에 맞게 수정하기 위해서 특정 문자를 제거하기 위해 split() 함수를 사용하면서 에러가 발생했다. AttributeError: 'float' object has no attribute 'split' 실수형 문장은 없었는데 float형을 찍어서 주소를 확인해보았다. 주소를 읽으면서 에러가 난 위치의 주소를 확인해보니까 공백이였다. 구글링을 해보았을때는 string으로 형변환을 해주라고 해서 해보았지만 AttributeError: 'str' object has no attribute 'split' 에러를 찍을뿐 문제는 해결되지 않았다. 조건문으로 "" 공백을 찾아넣었지만 True 값을 출력하지 않아서 빈간으로 되어있는 주소셀에 뭔가 지정되어 있다고 생각이 들어서 엑셀을 읽어올때 ...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/t3UST/btqC3NKBpCb/Si7KWPYVZZThfPBlLTU260/img.png)
주소검색하는 대부분 웹페이지는 이렇게 구성되어 있다. 시.도, 시.군.구, 도로명!! 어떤 자료를 넣어볼까 고민중에 공공데이터로 학교 정보를 받아왔다. [출처] 공공데이터 포털 https://www.data.go.kr/ 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr 주소 칼럼에 보면 XX구랑 도로명이 있다. 괄호에 있는 구주소는 버릴꺼다. 괄호('(')를 split로 잡으면 '(' 중심으로 배열로 나뉘게 된다. 여기서 0번째 애만 가져올꺼니까 address[0]..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/IvbY5/btqC6RdUXdu/F3yOJ0kP2DD0p5jqhm0sx1/img.png)
1. selenium 다운 https://selenium.dev/downloads/ Downloads Firefox GeckoDriver is implemented and supported by Mozilla, refer to their documentation for supported versions. Internet Explorer Only version 11 is supported, and it requires additional configuration. Safari SafariDriver is supported directly by Apple, www.selenium.dev 2. geckodriver 다운 https://github.com/mozilla/geckodriver/releases mo..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/DnQF1/btqC49GqDuh/a8jLKkGZedyZGwmBdaTPx0/img.png)
1. cran 설치 https://www.r-project.org/ R: The R Project for Statistical Computing The R Project for Statistical Computing Getting Started R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN m www.r-project.org 경로수정 필요 2. R studio 설치 https://rstudio.com..