ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [삼성 SDS Brightics] 개인 분석 프로젝트 : 마무리 및 정리
    삼성 Brightics 서포터즈 2022. 11. 16. 07:03

     

     

     

    안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다.

    벌써.. 포스팅 마지막을 장식하네요ㅠ

    경쟁률이 어마하다는 소식을 듣고

    과연 할 수 있을까..? 면접을 보던 순간부터

    저희를 따뜻하게 응원해주셨던 사무국

    그리고 열정 넘쳤던 HI:FIVE

     

    브라이틱스로 나도 모르게 계속 이것저것 시도했던..ㅎㅎ

    그만큼 소중해서 경험을 넓히고 도전하고 싶었던

    지난날이 휘리릭 지나가는데요,

     

    먼저 개인분석 프로젝트를 정리한 후,

    그간의 활동을 살펴보며 소감을 적어보겠습니다.ㅎㅎ


    저는 앞서 말했듯

    '도서'라는 커다란 주제로

     

    1) 도서의 리뷰

    2) 평점과 줄거리의 관계

    3) 줄거리로 장르 예측하기

    위와 같은 3가지 분석을 시도했는데요

     

     

    1) 도서의 리뷰

     

    전처리된 리뷰들을 TF-IDF를 통해

    자주 등장하는 어휘를 분석했죠

     

    긍정과 부정에서 나타나는 어휘의

    순위가 어떻게 다른지 보며

     

    pos VS nag

    '즐겁다' '추천한다' / '무료하다' '실망스럽다'

    '진짜같다(real)' '쉽다(easy)' / '어렵다(hard)'

     

    어떤 단어로 리뷰가 되는지를 살펴봤어요.

     

    이어서 감정분석 시도!!

     

    약 68% 정도로 맞췄죠ㅎㅎ

     

    ▶ 도서리뷰는 다른 문화생활에 비해

    더욱 블로그나 SNS에서

    기다란 리뷰를 볼 수 있잖아요

     

    그렇게 더 긴 리뷰들을 분석했을 때는

    어떤 결과가 나올까 궁금한 한편

     

    확장해 다른 리뷰들(ex. 영화, 공연 등)과 비교하면

    각각의 특징을 분석할 수도 있을거에요!

     

    그러면 지금은 판매순을 기준으로

    '베스트셀러'가 정해지지만

    리뷰순 또는 리뷰테마로

    더 다양하게 도서를 소개하는 기준이 되지 않을까 합니다.ㅎㅎ

     

     

     

    2) 평점과 줄거리의 관계

     

    그 다음으로는 평점과 줄거리의 관계!!

    어떤 종류의 도서가 평점이 높을까? 였죠.ㅎㅎ

     

    description(줄거리)가 간단히 적혀있는 데이터셋을 확보해

    LDA로 주제를 나누고

    ANOVA로 주제별 평점의 관계를 살펴보았는데요,

     

     

    business, new, work sucess, make, first

    경제경영, 자기계발서에서 볼 법한 주제들의 평점이

    유의미한 차이를 보였어요.(낮은 쪽으로!)

     

    ▶ 요 분석은 더 정밀한 검증이 필요해보이지만

    나중에 장르를 기준으로

    평점을 분산분석해보는 것도 재밌겠다 생각했어요.

     

    그러면 단순히 저 책의 리뷰가 높으니

    '좋다'고 평가하는 것보다

    우리가 좋다고 평가하는 것이 무엇인가? 라는

    질문으로 넘어가

    시대의 흐름과 가치관을 알 수 있겠죠.ㅎㅎ

     

     

    혹시 느끼셨나요?

    모두 인기도서를 소개할 때

    '베스트셀러'만이 기준이 되는 것의 아쉬움에서 비롯되었어요.

    텍스트분석으로 또다른(새로운) 기준을 제시해보는거죠!

     

     

     

    3) 줄거리로 장르 예측하기

     

    마지막으로 word2vec을 통해

    줄거리를 train하여 장르를 predict하는 과정이었는데요,

     

     

    장르별로 구분하는데까지 나아가지 못했지만

    먼저 fiction(소설)의 여부를 살펴보는데에

     

    XGBoost 모델로

    약 68~72%의 정확도를 달성했죠!

     

     

    ▶ 사실 장르라는게 출판되면서 정해지는 거라

    호기심에 시도해보았지만

    음.. 목적없이 시도한 분석임을

    나중에 더 느꼈는데요ㅎㅎ

     

    최근 증가하고있는 웹소설과 같이

    특정 출판사보다 인터넷에서

    더욱 많은 작품들이 생겨나는 점을 고려한다면

     

    추후 이들을 자동분류하는데에

    사용할 수 있겠다는 전망이에요!ㅎㅎ

     

     

    나아가 앞서 장르별 구분이 아닌

    fiction(소설)인지 아닌지

    이분법적 예측이었기에

     

    더 넓혀 mystery(추리물), business(경영)...

    각 장르 별 예측 알고리즘을 만든다면

     

    장르가 하나로 설명되기보다

    더 여러갈래로 소개될 수 있겠죠?

     

    예를 들어, 소설같으면서도 산문의 느낌을 갖고있는 도서가

    출판 시 소설로 분류된다면

    지금은 소설이라는 단 하나의 카테고리를 갖지만

     

    줄거리로 장르를 복합적으로 예측한다면

    'fiction(소설) & prose(산문)'

    요렇게 분류가 되는거죠ㅎㅎ

     

    경계가 모호해지는 현대사회에 맞춰 상상해봐요!!

     


    Review

     

    ㅋㅋ이렇게!! 결과와 결론을 도출하며

    개인분석 프로젝트를 마치는데요,

     

    저는 브라이틱스 서포터즈를 도전하며

    목표했던 바가

    더 다양한 데이터분석을 시도하기 였어요.

     

    그리고 실제로 브라이틱스 서포터즈가

    그 목표에 너무 어울렸던 것이

    간단한 이용 + 튜토리얼 제공으로

     

    일단, 일단.

    여기에 있는 함수들의 종류만 살펴봐도

    통계 지식이 넓어진답니다.♥

     

    저는 그래서 저것도 해보고싶고, 이것도 해보고싶은데

    어느새 끝나버린게..시원섭섭하더라구요.

     

    그 소감을 정리하자면

    또 포스팅이 길어져서 다음으로 넘어가

     

    그럼 진짜 마지막,

    서포터즈 일대기와 마무리 느낌으로 만나요!ㅎㅎ

     

     

    ※본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다

     

Designed by Tistory.