< 딥러닝을 활용한 날씨 빅데이터와 소상공인 매출 분석>
- 해당 보고서에 의하면 날씨와 매출은 관련이 깊음.
→ 우리 프로젝트에도 베이커리 POS 데이터만 활용하는 것이 아니라, 날씨 데이터를 보조 변수로 활용하자!
1. 날씨 데이터
<프랑스>
1안: 아래와 같은 공공데이터 참고
Observation data from the Météo-France ground-based observation network – aeris
Observation data from the Météo-France ground-based observation network Data access AERIS provides access to observation data from the Météo-France ground weather observation network (RADOME and extended network) in France. Observation data from the gr
www.aeris-data.fr
- 이 데이터는 시간 당 날씨 데이터라 너무 광범위하고 보조변수 데이터의 크기가 지나치게 커져버릴 수 있음
2안: 아래와 같은 연도별 기온, 강수량 데이터 참고해서 날씨 테이블을 따로 제작하여 활용
https://weatherspark.com/countries/FR
France Climate, Weather By Month, Average Temperature - Weather Spark
Climate and Average Weather Year Round in France We show the climate in France by comparing the average weather in 5 representative places: Paris, Marseille, Brest, Strasbourg, and Bordeaux. You can add or remove cities to customize the report to your liki
weatherspark.com
<한국>
1안: 기상 자료 개방 포털 활용
https://data.kma.go.kr/cmmn/main.do
기상자료개방포털
전세계 170여개국 8,700여지점의 기상관측 데이터를 제공합니다.
data.kma.go.kr
https://data.kma.go.kr/api/selectApiList.do?pgmNo=42
기상자료개방포털[데이터:오픈 API]
data.kma.go.kr
- api 로도 활용 가능

<전처리 계획>
1. null값 처리
- drop하지 말고 인접한 날짜의 평균으로 interpolation, 혹은 이전 날짜 값으로 채우기
- 강수량의 경우 0으로 대체
2. 이상치 처리
- 이상치 있는지 확인하고(IQR 방식 활용) 있다면 합리적인 max, min값으로 이상치 조정
3. grouping
- 메인 데이터를 어떻게 grouping하였는가에 따라 달라짐.
아래는 예시.
if) 메인 베이커리 데이터를 날짜별로 grouping
→ 날짜별로 기온 및 강수량 평균 구해서 merge
if) 메인 베이커리 데이터를 요일별로 grouping
→ 요일별로 기온 및 강수량 평균 구해서 merge (예측하기로..날씨는 계절의 영향을 많이 받으므로 이 경우는 패턴이 관찰되지 않을 것 같음, 날짜별로 grouping한 경우에만 날씨 보조변수를 활용하는 방식으로 가는 건 어떨지)
4. (필요한 경우) 정규화/ scaling 진행
2. 유동 인구수 데이터
<서울시 생활 인구 데이터>
https://data.seoul.go.kr/dataVisual/seoul/seoulLivingPopulation.do
열린데이터광장 메인
데이터분류,데이터검색,데이터활용
data.seoul.go.kr
<경기도 시군별 유동인구 데이터>
https://www.data.go.kr/data/15077704/fileData.do?recommendDataYn=Y
경기도_시군별 유동인구 데이터_20210114
시군별 월 단위 일일 평균 유동인구 데이터입니다. 연령대 별 유동인구 수 정보를 제공합니다.<br/> <br/>유동인구의 단위는 (명)이며, 계산에 시장점유율이 반영되어 소수점 단위로 표시됩니다.<br
www.data.go.kr
- POS 데이터를 date 기준으로 group했다면, 유동인구도 동일한 날짜 기준으로 평균 or 합계를 구해 merge
- (위치 정보가 있다면, 매장 근처 지역 단위 유동인구만 추출해 사용하면 더 정밀함)
- 아침/점심/저녁의 유동 인구수 grouping을 통해 변화 관찰 가능
- 요일별 평균 대비 편차 관찰 가능
'캡스톤디자인' 카테고리의 다른 글
| 수요예측을 위한 머신러닝, 딥러닝 모델 (0) | 2025.05.21 |
|---|---|
| 요약 (0) | 2025.05.21 |
| 메인 데이터 분석 및 전처리 (0) | 2025.05.21 |
| [논문 리뷰] Efficient Vision-Language Pre-training by Cluster Masking (1) | 2025.05.11 |
| [논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey (0) | 2025.05.11 |