다음 분기에 어떤 비디오 게임을 설계해야 할까?
- 발표를 듣는 사람은 비데이터 직군
- 참고
- Sprint 1 : EDA, Feature Engineering, Data Manipulation, Data Visualization
- Sprint 2 : Hypothesis Test(가설 검정), CI(신뢰 구간), Bayesian
- Sprint 3 : DR, PCA, Cluster
- 필수내용
- 지역에 따라서 선호하는 게임 장르가 다를까
- 연도별 게임의 트렌드가 있을까
- 출고량이 높은 게임에 대한 분석 및 시각화 프로세스
- 내가 생각하는 문제 (혹은 풀었으면 좋겠는 문제) 제시
- 그 문제에 대한 가설 및 사용한 데이터셋에 대한 설명
- 작업 결과 및 결론
전체적 목표
- 전처리
- 주어진 Feature에 대한 시각화
- 피력해 볼 아이디어 선정
- 아이디어 검정 및 시각화
- 발표자료 및 대본
- 촬영
- 제출
EDA(전처리 과정)
Data Import
1 |
|
Data Cleansing
- Sales data에 M과 K라는 문자열이 곳곳에 포함되어있다. 숫자로 변환시켜도 되겠지만, 사라질 열 비율이 미미했기 때문에 없애주었다.
1
2
3
4
5
6drop_values = ['M','K'] df = df[~df['NA_Sales'].str.contains('|'.join(drop_values))] df = df[~df['EU_Sales'].str.contains('|'.join(drop_values))] df = df[~df['JP_Sales'].str.contains('|'.join(drop_values))] df = df[~df['Other_Sales'].str.contains('|'.join(drop_values))] #df
- Sales Data에 대해 숫자형으로 타입 변경을 해주었다.
1 |
|
- 결측값 확인
1 |
|
- 결측값 또한 전체 DF 크기에 비해 미미하므로 제거해주었다.
1 |
|
- Year column에 네자리로 표기되어있지 않은 데이터가 있었다. 함수를 이용해 변형시켜주었다.
1 |
|
- describe 확인
1 |
|
- Platform, Year, Genre, Publisher에 대해 그룹 확인
1 |
|
시각화
- Sales Feature에 대해 합쳐 Total Sales를 만들어주었다.
1 |
|
대륙별 장르 총 판매량
1 |
|
- 전체적으로 1위는 액션, 2위는 스포츠, 3위는 슈팅이다.
- 예외적으로 일본만 1위가 롤플레잉이다.
연도별 게임 트렌드
1 |
|
- 2000년 까지는 대체적으로 매년 다양하게 수요가 있었다.
- 게임 수요가 급증하는 2001년 부터 액션게임의 수요가 압도적이었다.
- 눈여겨 볼 점은 수요가 폭발적이었던 2006년과 2009년에는 스포츠장르의 수요가 액션 장르를 이겼다.
- 2006년의 FIFA 월드컵과 2009년의 FIFA U-20 월드컵의 영향이 큰 것으로 보인다.
개별 인기 게임
1 |
|
1 |
|
- ‘Wii Sports’의 판매량이 압도적으로 높았다.
- 전체적인 판매량에서는 액션장르가 높았는데, 20위 랭크중에 액션장르가 두 개 밖에 없다는 점이 의아했다.
- GTA(Grand Theft Auto) 게임이 너무 많은 시리즈로 나뉘어서 그렇다는 정보를 알게 됐다.
- 먼저 Wii Sports에 대해 분석 뒤, GTA 게임에 대한 분석을 해 볼 예정이다.
1위의 ‘Wii Sports’ 대륙별 판매량
1 |
|
- 미국전역에서 총 판매량의 절반 이상을 차지한 것을 알 수 있다.
GTA 게임 분석
- GTA에 대해 필터링해보니 무려 25가지의 시리즈 및 멀티플랫폼을 지원했다.
- 그래서 총 합이 얼마나 될지 알아 본뒤, Wii Sports와 비교해보고자 했다.
1 |
|
1 |
|
- 예상했던 대로 GTA의 총 판매량이 Wii 보다 압도적으로 많았다.
- 액션 장르가 수요가 많았다는 점과 이 분석 결과를 토대로 멀티 플랫폼 출시가 경쟁력이 있을 지 GTA에 대한 심층 분석을 해보기로 했다.
출시년도 별 판매량
1 |
|
- 이 그래프를 보면 출시년도에 따라서 판매량에 차이가 있는 것으로 보인다. 다음으로 플랫폼 별 판매량을 보자.
플랫폼 별 판매량
1 |
|
- 총 11가지나 되는 플랫폼으로 출시한 GTA는 유독 PlayStation에서 높은 판매량을 보였다.
- 플랫폼 회사별로 판매 비율이 타 게임과도 유사할 지, 멀티 플랫폼 전략이 의미가 있는지 알아보려한다.
GTA 해당 플랫폼의 회사별 판매량 비율 비교
1 |
|
- 그래프상으로만 보면 플랫폼 회사별로 판매 비율이 그리 다르지 않음을 알 수 있다.
- 하지만 멀티 플랫폼 판매전략이 타 게임에 비해 판매량 평균이 동일하거나 유의하게 차이가 큰 지 알아보기 위해 각 플랫폼 회사별로 T-test를 진행했다.
Nintendo사에 대한 평균 T-test
1 |
|
PC 대한 평균 T-test
1 |
|
Playstation사에 대한 평균 T-test
1 |
|
Xbox사에 대한 평균 T-test
1 |
|
- Nintendo사나 PC의 판매량의 경우 신뢰구간 95% 기준으로 Pvalue의 값이 0.05보다 높으므로 평균의 값이 차이가 없다고 할 수 있다.
- Playstation사나 Xbox사의 경우 Pvalue의 값이 0에 수렴하므로 GTA의 판매량이 유의하게 높다고 할 수 있다.
해석 및 인사이트
식지 않을 액션 열풍
- 2001년도부터 중간 몇몇 때를 제외하고 액션 장르가 꾸준히 판매 1위를 차지하고 있다.
- 액션게임을 설계하는 것이 좋은 판매전략이 될 것이다.
멀티 플랫폼 출시
- 하나의 플랫폼에서 출시하는 것 보다 여러가지 플랫폼에 출시하는 것이 경쟁력이 높다고 볼 수 있다.
- 주요 플랫폼인 닌텐도, 플레이스테이션, 엑스박스 시장이 각각 나름대로 활성화되어있기 때문에 멀티플랫폼 출시가 좋은 판매전략이라는 생각이 든다.
발표 Keynote 제작
피드백
좋았던 점
- ppt가 굉장히 임팩트 있었고, 목소리 전달력도 상당했습니다. 논리적으로 전개되는 스토리가 아주 인상 깊었고, 또 wii sports 와 gta를 비교 분석한 것이 아주 좋았습니다.
- 깔끔하게 ppt를 잘 활용하시면서, 발표 하시면서 필요할 타이밍에 자료를 추가로 보여주시는 점과 보여주시는 자료에 포인트를 넣어서 보여주셔서 보기가 쉬웠습니다. 멀티-플랫폼에 대해 확인해보고 판매량을 비교 분석하신 점과, 이를 바탕으로 방향성을 잡고 가설검정을 진행 하신 것이 인상깊었습니다. 그리고 가설검정을 진행하시면서 이에 대한 설명 또한 달아주신 점이 좋았습니다.
- 목소리톤이 좋아 전달력이 높았던것같습니다. 발표자료 또한 직관적이어서 발표내용을 이해하는데 도움이 됐습니다. EDA에 과정에 대한 설명이 이해하기 쉬웠고 월드컵과 같이 특정연도의 배경을 설명해주셔서 좋았습니다. 특히 멀티플랫폼에 대한 접근은 신거했고 가설 검정으로 근거 또한 명확해서좋았습니다.
- 윤민님, 발표 정말 잘 들었습니다. 발표 자료도 너무 가독성이 좋았고, 발표 내용도 필요한 요점만 간결하게 잘 드러났다고 생각합니다. 특히, 분석의 결과를 윤민님이 따로 근거를 들어주셔서 뒷받침 해주시니 더 신뢰가 가는 분석 결과였습니다.
- 전달력 : 어투가 편안한 것같습니다. 편하게 상대방과 얘기하는 듯한 느낌이 들었습니다. / 발표주제 : 필수 주제에서 자연스럽게 어떤게임을 설계하는지에 대한 최종 주제로 자연스럽게 넘어가신 점이 인상깊습니다. / 발표자료 : 그래프가 많고 코멘트도 옆에 있어 5분이라는 발표제한시간이 없다면 보는사람이 이해하는데에 쉬운 자료같습니다. / 데이터 : 특히나 제일많이 팔린 wii sports와 인기 많은 action 장르의 대표게임인 GTA 를 비교한다. 라는 것이 충분히 이해가 가는 선정이었습니다. / 기타 : 멀티플랫폼은 허를찌르는 결론이었습니다.
- 전달력 : 발음이 정확하고, 음량, 속도도 적당해서 전달하고자 하는 내용이 잘 전달되었습니다. / 발표주제 : Section1에서 배운 내용을 바탕으로 게임 데이터 분석을 잘 진행하셨습니다. / 발표자료 : 군더더기 없이 깔끔한 파워포인트가 눈에 띄었습니다. 특히 전처리와 주제별 분석, 결론까지 내용이 골고루 포함되어있고, 시간이 고르게 잘 분배되었습니다.
- 깔끔하게 정돈된 매무새가 믿음직한 인상을 줬습니다. / 데이터 전처리를 시각적으로 명확하게 설명해주셔서 좋았습니다. / 인기 시리즈를 자세하게 분석한 부분이 저에게는 새로운 관점이었습니다.
아쉬운 점
- 비데이터 직군이 듣는다고 가정했을 때, 전처리나 결측값에 대한 얘기는 빼주셔도 좋을 것 같습니다. 또 마지막 부분에 ttest 검정을 부득이하게 설명해야하는 상황이라면 ttest 가 뭔지 , p-value가 뭔지 요약설명을 해주셨다면 아주 완벽한 발표가 되었을 것이라고 생각합니다. 이미 저희가 너무 익숙해진 용어들이라 아마 설명해야 된다는 것을 잊으신것으로 보여집니다 :)
- 가설검정 자체에 대한 설명이 p-value로만 하는 것이 아니라 이 p-value 값으로 인해 어떠한 결과가 나온다 라는 식으로 기반지식이 없는 사람 입장에서도 이해가 쉽도록 설명하면 더 좋지 않았을까 아쉽습니다. 그리고 설명을 진행하실 때, 목이 타신지 설명하시는 중간 중간 입을 ‘짭’ 거리시는 소리를 내는게 자주 보여서 이 점만 조금 더 의식하신다면 설명할 때 더 깔끔하게 말을 전달할 수 있지 않을까 싶습니다.
- 결측치와 이상값을 삭제하게된 배경을 추가 설명해주시면 더욱 완벽할것같습니다.
- 아쉬운 점은 발표를 듣는 대상이 비데이터 직군이라 통계 부분을 잘 모를 수도 있다고 생각합니다. 그래서 발표 일부 중에 t-test를 이용해서 설명해주시는 부분이 있었는데, t-test를 진행하시기 전에 t-test가 무엇인지 간략한 언급이 있었다면 더욱 좋았을 것 같습니다. 그러나 굳이 꼽자면 이렇다는 것이지 정말 완벽한 발표였습니다:)
- 전처리의 경우 비데이터직군이 보기에는 관심없는 내용이라 더 간략화해도 좋았을 것 같습니다.
- 장르별 게임 트렌드를 line그래프로, 연도별 게임 트렌드를 막대그래프로 표현하셨는데, 장르끼리는 서로 독립적이기 때문에 막대그래프로, 연도별 게임 트렌드는 시간의 흐름에 따라 변화하는 모습을 표현해야 하기 때문에 line그래프를 사용하는게 더 적절할것이라고 생각됩니다. 또한 GTA시리즈 전체와 Wii Sports의 판매량을 비교하신것으로 보이는데, 그보다는 GTA V와 Wii Sports를 비교하여 단일 타이틀끼리 비교하시는게 더 적절할것이라고 생각됩니다.더 깊이있게 분석하셨겠지만 제한된 데이터와 비전공자에게 발표한다고 가정하는 발표 조건, 5분의 발표 시간때문에 모든 내용을 담지 못했을것이라고 생각합니다.
- t-test에서 통계 용어들을 게임 데이터에 녹여서, 그것이 어떤 의미를 가지는지 조금 더 설명해주셨으면 좋았을 것 같습니다. / ‘플랫폼 회사별 평균을 비교하는 t-test 결과’와 멀티플랫폼의 필요성이 이어지지 않는 느낌이 있었습니다. …제가 잘 이해를 못하고 있는 걸까요? 개인적으로 궁금한 부분인데 혹시 괜찮으시다면 부연설명 부탁드립니다. / ‘해석 및 인사이트’가 결론인 것 같은데, 제목에 ‘결론’이라는 말이 있었으면 더 확실한 마무리가 되지 않았을까 생각합니다.