5주 차(Linear Models): 기초
머신러닝의 첫 시작, 선형회귀부터 로지스틱 회귀까지 배우면서 쉽진 않았다.(근데 솔직히 넘 재밌,,,)
지금까지 배운 건 몇몇 개를 제외하고는 그렇게 많이 쓰이진 않는다하고 더 많은 모델링 방법을 배우게 되겠지만 기대를 해봐도 될 것 같다.
솔직히 교육 처음에 부트캠프만 하세요. 다른 일은 수료 후의 나에게 양보하세요
라는 문구를 보고 약간 콧방귀를 꼈었다.
섹션 1 때는 좀 공부가 끝나도 시간이 널널하고 할 거 다 했다!(그래서 내가 지금 이 모양 이 꼬라진가..?)
근데 섹션 2가 시작되고 그 문구의 의미를 절실히 깨달았다.
이번 주는 정말 정규 시간뿐 아니라 늦은 밤까지 학습을 했는데, 이게 아니였다면 진도를 따라가기 쉽지 않았을 것 같다.
그 때문에,,, 이번주는 저녁을 두번이나 걸렀다. 오늘 몸무게 재보니 살이 많이 빠져있어서 기분은 좋은데, 앞으로는 절대 한끼도 거르지 말도록!
섹션 2로 넘어오면서 1을 공부할 때의 방법과 완전 다르게 학습을 진행해보았다.
원래 강의를 보자마자 바로 과제를 진행하며 여러 가지를 익혔었는데, 이번엔 개념 학습이 모두 되었을 때만 과제를 시작했다.
과제를 늦게 시작하기 때문에 제출 시간이 살짝은 빡빡해지는 단점도 있었지만, 개념 정리가 다 되고 과제에 적용해보니 훨씬 이해도가 높고 과제를 수월하게 해결할 수 있어서 좋았다.
앞으로 이런 학습 형태를 유지해나가며 공부할 생각이다.
현재 내가 느낀 나의 제일 큰 문제점이 ‘무엇’을 물어봤을 때 그게 바로바로 머릿속에서 떠오르지 않고, 설명할 수 없는 점이었다. 겉핥기식으로 빨리빨리 넘어가니까 일어나는 문제라고 생각하고, 기초부터 복습에 재복습을 해야겠다.
동기들 자체적으로 생각해볼만한 것들을 토의할 스터디 그룹을 만들었다. 오늘부터 시작하는데 서로에게 좋은 도움이 되었으면 한다!
6주 차(Tree Based Models): 흥미
머신러닝 2주차 Tree Based Model을 배웠다.
전에 많이 언급되었던 RandomForest를 배운다니 기대가 됐다.
Pipeline까지 배우고나니 모델 학습이 비교적 간편해서 많은 모델 기법을 만든 개발자에게 감사했다(ㅋㅋㅋ)
사실 이번주부터 학습내용이 재밌어졌다.
전까지는 ‘이걸 왜배우지?’의 연속이었는데,
‘이걸 왜배우지?’들이 ‘아 결국 이거 하려고 배운거구나’가 되어서 흥미가 올랐다.
사실 캐글을 진행하며 점수에 욕심이 나서 많은 시간을 특성공학과 하이퍼파라미터 튜닝에 쏟았다.
많은 시간을 쏟다보니 자연스럽게 모델링에 대한 감이나 이해도가 굉장히 올랐다.
조금이라도 만지면 올라가는 점수에 짜릿함을 많이 느꼈는데 특히 생각했던 논리가 들어맞았을 때의 짜릿함이란… 말로 설명할 수가 없다…
때문에 더 좋은 논리가 생기기 위해선 기초를 탄탄히 해야겠다고 생각했다.
주말을 이용해서 섹션1에서 배웠던 내용을 쭉 훑어보면서 복습했는데 그 당시에 볼 때보다 확실히 이해가 더 잘되고 머리에 잘 들어왔다.
배웠던 RandomForest 말고도 다양한 부스팅 방법도 구글링을 통해 맛봤는데 좋은 모델들이 많았던 것 같다.
아마 앞으로 배우게 될텐데 굉장히 기대가 된다.
캐글에 미쳐서 기본 새벽 2시까지하다 잠들었다…
피로는 점점 쌓였고 금요일엔 졸음을 참을 수 없었다.
아무리 흥미로워도 그만둘 줄 알아야 할 것 같다.
또 시간 분배를 잘 해서 개념 정리도 놓치지 않아야겠다.
이번에 해본 것 처럼 많이 만져볼수록 실력이 늘 것이라는 확신이 생겼다.
지금 h1n1 데이터가 너무 지겨워서 꼴도 보기 싫은데, 다양한 좋은 데이터가 널리고 널렸으니 맛보면서 여러가지를 잘 모델링 할 수 있도록 노력해야겠다.
7주 차(Applied Predictive Modeling): 약점
드디어 머신러닝의 마지막 Sprint가 끝났다.
이번 주차는 새로운 Boosting과 시각화 방법 등을 배우면서 개념보다 실전에 관해 공부한 것 같다.
머릿속에서 흐름을 파악하고 그 흐름에 따라 모델링을 해가는 과정이 재밌었다.
EDA와 Feature Engineering에 약하다는 것을 깨달았다.
Data가 주어지면 바닥이 보일 때까지 파고드는 습관을 길러야겠다.
확실히 정형화된 과제를 풀기보다 내가 선택한 데이터를 끊임없이 이리저리 굴리다 보니 어디까지가 한계인지 확인하기 어려워서 계속 붙잡고 있었다.
논리대로만 결과가 나온다면 만족할 줄도 알아야겠다.
이제 프로젝트 시작하는데 마음에 쏙 드는 Dataset을 골랐으니, 이 Data가 닳아 해질 때까지 해볼 수 있는 모든 것들을 해볼 것이다.
저번 프로젝트에서 지적받았던 것을 토대로 신경 써서 남에게 잘 전달할 수 있게끔 진행을 해볼 것이다.
8주 차(Machine Learning): 점검
현재 시각 아침 7시 37분…
밤샌 상태로 쓰는 섹션2 회고록이라니ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
프로젝트가 끝나자마자 제주도 휴가를 다녀오고 + 어제 만취 술파티를 보내고 나니 눈이 말똥말똥 잠이 너무 오지 않더라…
어쩔 수 없이 배고파서 짜파게티 하나 끓여 먹고 다행히 이번 섹션3 교육 자료가 일찍 열려 있어서 미리 예습 좀 했다.
conda와 git은 사실 익숙해져있는 터라 오늘 수업은 힘들 부분은 없을 느낌이다.
말로만 듣던 어마어마 해보이던 ML이 끝났다.
쉽지 않은 과정이지만 이렇게 빨리 끝나버리니 아쉽다. 제대로 배운 지도 잘 모르겠다.
정말 많은 지식이 필요로 할텐데 발만 담궜다가 다른 곳으로 달리는 기분이라 해야하나…
잊지 않도록 꾸준히라도 모델링을 해야겠다.
아무튼 정말 이번 한 달은 내가 데이터 과학에 흥미를 느끼게 해주는 값진 달이었다.
모델링도 해보고, 캐글도 해보고, 점수를 찔끔찔끔 올리며 캐글뽕에도 취해보고,
무엇보다 codestates 통틀어 1등을 한 경험이 오래도록 잊히지 않을 것 같다.
이 경험 덕분에 더욱 학습에 매진할 수 있었고 순탄하고 재미를 크게 느끼며 공부를 한 것이 참 좋았다.
마지막에 Project를 할 때도 재밌었다.
내가 선택한 데이터로 이리저리 굴리며 모델을 만들어가는 과정이 뿌듯했다.
잘 하지도 못했고, 성능이 그렇게 좋지도 않았으며 내 단점을 더욱 파악하는 계기가 되었지만,
그래서 더 좋은 거 아닐까 싶다.
벌써 두 달이라는 시간이 지나니까 확실히 처음 시작할때와 많은 것들이 바뀌었다.
바이오리듬을 제대로 잡지 못하고, 체력이 떨어짐을 절실하게 느끼고 있다.
부득이하게 운동을 못 한 탓도 있는데 아무리 바쁘고 학습량이 많더라도, 무조건 운동은 해야겠다.
밥도 많이 거른다. 남들은 다 살이 찐다고하는데, 나는 뭔가 일이 끝나지 않으면 식사를 하지 않는 버릇이 있어서 살이 쪽쪽 빠진다.
시작할때보다 5kg 가량 빠졌다.
점검할 때가 왔다. 어쩌면 생활하며 놓치고 있는 부분이 없는지 잘 살펴야겠다.
진정 처음에 내가 시작한 이유를 계속 상기하고, 그 마음을 잃지 않으려 노력해야겠다.
시작은 밤샌 뒤 아침이었지만, 지금은 자기 전 심야다ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
오늘 캐글 그랜드마스터의 강연을 들었는데 또 가슴이 두근거렸다…!
지금은 커리큘럼이 바빠서 힘들겠지만, 조금이라도 여유날 때마다 연습해야겠다.
(제주 본가에서 공부할 때 좋은 점… 간식히 전복회🥰)