파이널 프로젝트
24.03.11 (월)
주제 선정을 위한 회의(1)
- 다양한 아이디어가 나왔지만 실현 가능한 것인지에 대한 확신이 필요했기 때문에 각자 마음에 드는 주제에 대해서 사용할 데이터 탐색이나 분석 방향 등 구체적인 내용을 채워서 화요일에 투표로 선정하기로 결정
- 내가 마음에 들었던 주제는 교통사고 피해 예측 모델 구현
- 데이콘에 있었던 경진대회 주제로, 해당 데이터는 대구에 국한되지만 가능하다면 서울시 데이터로 구현해보고 싶은 마음이 있었기 때문에 공공데이터포털에서 관련 데이터를 찾아봄
- 데이터를 찾아보면서 어떤식으로 데이터를 머지하고, 어떤 가설을 세울 수 있을까를 고민해봄
- 교통사고는 우리의 생각보다 훨씬 많이, 자주 일어나는 일이기 때문에 데이터를 분석하여 어떤 요소들이 사고 발생에 연관이 있는지를 알아보고 해결책을 도출해내는 것이 목표.
- 예측 모델을 구현하며 어떤 특성들이 피해량이 더 크고 위험한 사고를 발생시키는지를 파악하고 이를 줄이기 위한 방법을 모색하는 것이 전체적인 흐름
- 문제점은 데이콘에서 제공하는 데이터를 그대로 사용한다면 정답이 있기 때문에 지도 학습이 원할하게 되고, 실제 모델의 성능 평가를 할 수 있는데 따로 데이터를 사용한다면 성능 평가를 제대로 할 수 없음.
- 또한 스토리텔링이 조금 부실할 수 있음 (가설에 대한 답이 굳이 분석을 하지 않아도 보이는 것이 아닐까하는 걱정)
24.03.12 (화)
주제 선정을 위한 회의(2)
- 팀원 모두 다시 한번 모여서 주제를 총 3가지로 좁힘 : 대구 교통사고 예측 모델 구현, 이커머스 분석, 시니어 소비패턴 분석
- 각자 마음에 드는 주제에 대해서 데이터도 찾아보고, 실현 가능성이나 구체적인 분석 방향을 다시 세워오기로 결정함
24.03.13(수)
주제 선정을 위한 회의(3)
- 나는 시니어 소비패턴 주제에 대해서 찾아보기로 결정
- 이 과정에서 필요한 것이 연령별 소비 트렌드를 분석할 수 있는 데이터인데, 보통 이런 데이터는 카드사 쪽에서 제공하지 않으면 찾을 수 없기 때문에 한계점이 존재했음
- 대신 데이터안심구역이나 빅데이터캠퍼스라는 곳에서 삼성카드 같은 기업들이 무료로 데이터를 제공해주는 곳이 있다는 것을 발견
- 하지만 원본 데이터를 해당 지점 내에서만 열람과 분석이 가능한 듯 했음
- 따라서 조금 더 명확한 답변을 위해 문의를 해봄 → 답변 기다리는 중
- 내가 생각한 방향은 제 3자의 입장에서 시니어들의 소비시장에서의 임팩트와 포텐셜을 설명하고, 그들의 소비 패턴을 파악해서 기업들에게 맞춤형 마케팅 전략을 제시하는 것
- 이 과정에서 군집화를 통해 머신러닝을 사용하고, 군집 분석을 추가로 하여서 시니어 내에서의 분석뿐만 아니라 청년들과의 소비 인식 차이도 찾아낼 수 있으면 흥미로울 것 같다고 생각함
- 일단 그 외에 지금 당장 접근이 가능한 데이터들에 대해서 각자 확인해보고 어떻게 쓸지 파악해보기로 결정
24.03.14(목)
주제 선정을 위한 회의(4)
- 같은 주제를 선택한 팀원과 함께 각자 데이터 탐색을 해본 것을 한번에 합쳐서 멘토님과의 회의 때 보여드리기 위해 작업을 함
- 팀회의 때 주제 선정에 대해 각 조가 발표를 하고 선정을 어떻게 해야할지에 대한 공통된 질문이 있었음
- 멘토님의 피드백 :
- 개인 프로젝트와 기업에 소속된 사람의 프로젝트 진행 과정은 비슷한 점도 있지만 가장 큰 차이점은 "데이터"
- 기업은 데이터 확보가 수월하지만 개인은 그렇지 않음
- 따라서 프로젝트 주제를 선정할 때는 우선 데이터를 먼저 확보를 한 후, 그 데이터를 탐색하면서 떠오르는 문제를 정의해야 함
- 데이터가 없다면 그 뒤의 모든 과정을 밟아도 언젠가는 다시 돌아오게 되어있음
- 실제로도 데이터 수집에 가장 많은 시간을 사용하기 때문에 각 조가 다음주에 다시 만날 때까지 주제 선정 + one pager EDA를 준비해오기로 함
- 멘토님과의 회의 이후에 바로 팀원들과 의논한 결과 일요일까지 각자 데이터를 찾아보고 데이터 한 개를 선정하여 수요일까지 EDA를 완료하는 것으로 결정함
- 데이콘이나 케글 데이터 모두 좋으니 좋은 데이터이기만 하면 된다는 말을 듣고, 경진대회 쪽 데이터를 살펴보기로 했음
24.03.15(금)
주제 선정을 위한 데이터 탐색
- 17일까지 데이터 탐색을 위해 오늘은 데이콘과 케글에서 지난 대회들을 위주로 탐색해보고 있다.
- 최신 대회는 대부분 NLP나 LLM 쪽 대회들이 많은데 이 분야는 우리의 능력 밖이지 않을까하는 의견이 있어서 이걸 제외하고 찾다보니 많지가 않아서 걱정이 된다.
- 멘토님이 분석을 위주로 갈 것인지 아니면 모델을 위주로 갈 것인지를 정하면 지원하는 회사가 달라진다고 하셨는데 개인적으로는 모델을 위주로 가고 싶은 마음이 있다.
- 너무 예전 데이터를 사용하고 싶지는 않고 최대한 대회에서 주어진 것과 더불어 외부 공공 데이터를 함께 사용할 수 있는 데이터면 좋을 것 같다.
매일 추가 예정
'Data Science > TIL (Today I Learned)' 카테고리의 다른 글
| 프로그래머스 데이터분석 데브코스 1기 - 파이널 프로젝트 3주차 (0) | 2024.03.26 |
|---|---|
| 프로그래머스 데이터분석 데브코스 1기 - 파이널 프로젝트 2주차 (0) | 2024.03.18 |
| 프로그래머스 데이터분석 데브코스 1기 - 75일차 (0) | 2024.03.08 |
| 프로그래머스 데이터분석 데브코스 1기 - 74일차 (0) | 2024.03.07 |
| 프로그래머스 데이터분석 데브코스 1기 - 73일차 (0) | 2024.03.06 |