본문 바로가기

캡스톤디자인

보조 데이터 분석 및 전처리

https://repository.kisti.re.kr/bitstream/10580/6325/1/2016-112%20딥러닝을%20활용한%20날씨%20빅데이터와%20소상공인%20매출%20분석.pdf

< 딥러닝을 활용한 날씨 빅데이터와 소상공인 매출 분석>

- 해당 보고서에 의하면 날씨와 매출은 관련이 깊음.

 

→ 우리 프로젝트에도 베이커리 POS 데이터만 활용하는 것이 아니라, 날씨 데이터를 보조 변수로 활용하자!

 

1. 날씨 데이터 

<프랑스>

1안: 아래와 같은 공공데이터 참고

https://www.aeris-data.fr/en/projects/observation-data-from-the-meteo-france-ground-based-observation-network/

 

Observation data from the Météo-France ground-based observation network – aeris

Observation data from the Météo-France ground-based observation network Data access AERIS provides access to observation data from the Météo-France ground weather observation network (RADOME and extended network) in France. Observation data from the gr

www.aeris-data.fr

- 이 데이터는 시간 당 날씨 데이터라 너무 광범위하고 보조변수 데이터의 크기가 지나치게 커져버릴 수 있음

 

2안: 아래와 같은 연도별 기온, 강수량 데이터 참고해서 날씨 테이블을 따로 제작하여 활용

https://weatherspark.com/countries/FR

 

France Climate, Weather By Month, Average Temperature - Weather Spark

Climate and Average Weather Year Round in France We show the climate in France by comparing the average weather in 5 representative places: Paris, Marseille, Brest, Strasbourg, and Bordeaux. You can add or remove cities to customize the report to your liki

weatherspark.com

 

 

<한국>

1안: 기상 자료 개방 포털 활용

https://data.kma.go.kr/cmmn/main.do

 

기상자료개방포털

전세계 170여개국 8,700여지점의 기상관측 데이터를 제공합니다.

data.kma.go.kr

https://data.kma.go.kr/api/selectApiList.do?pgmNo=42

 

기상자료개방포털[데이터:오픈 API]

 

data.kma.go.kr

- api 로도 활용 가능

 

 

 

<전처리 계획>

1. null값 처리

- drop하지 말고 인접한 날짜의 평균으로 interpolation, 혹은 이전 날짜 값으로 채우기

- 강수량의 경우 0으로 대체

 

2. 이상치 처리

- 이상치 있는지 확인하고(IQR 방식 활용) 있다면 합리적인 max, min값으로 이상치 조정

 

3. grouping

- 메인 데이터를 어떻게 grouping하였는가에 따라 달라짐.

아래는 예시.

if) 메인 베이커리 데이터를 날짜별로 grouping 

→ 날짜별로 기온 및 강수량 평균 구해서 merge

 

if) 메인 베이커리 데이터를 요일별로 grouping 

→ 요일별로 기온 및 강수량 평균 구해서 merge (예측하기로..날씨는 계절의 영향을 많이 받으므로 이 경우는 패턴이 관찰되지 않을 것 같음, 날짜별로 grouping한 경우에만 날씨 보조변수를 활용하는 방식으로 가는 건 어떨지)

 

4. (필요한 경우) 정규화/ scaling 진행

 

 

 

2. 유동 인구수 데이터

<서울시 생활 인구 데이터>

https://data.seoul.go.kr/dataVisual/seoul/seoulLivingPopulation.do

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

 

<경기도 시군별 유동인구 데이터>

https://www.data.go.kr/data/15077704/fileData.do?recommendDataYn=Y

 

경기도_시군별 유동인구 데이터_20210114

시군별 월 단위 일일 평균 유동인구 데이터입니다. 연령대 별 유동인구 수 정보를 제공합니다.<br/> <br/>유동인구의 단위는 (명)이며, 계산에 시장점유율이 반영되어 소수점 단위로 표시됩니다.<br

www.data.go.kr

 

 

- POS 데이터를 date 기준으로 group했다면, 유동인구도 동일한 날짜 기준으로 평균 or 합계를 구해 merge

- (위치 정보가 있다면, 매장 근처 지역 단위 유동인구만 추출해 사용하면 더 정밀함)

- 아침/점심/저녁의 유동 인구수 grouping을 통해 변화 관찰 가능

- 요일별 평균 대비 편차 관찰 가능