분류 전체보기
-
[삼성 SDS Brightics] 나의 서포터즈 일대기♥삼성 Brightics 서포터즈 2022. 11. 16. 09:12
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 이번 포스팅이 저의 Brightics 끝이자 마지막이 될텐데요, 이미 저번주부터 저의 서포터즈 일대기를 쭉 돌아보며 역시, 하기를 잘했다. 혼자 감동에 벅차하는 중이에요ㅋㅋ 자세한 피드백과 답변의 멘토님부터 단연코 최고였던 HI:FIVE 친구들과 데이터분석을 스스로 정리해볼 수 있던 시간들 서포터즈 활동은 크게 3가지로 나눠지는데 같이 돌아보며 저의 마지막 고백까지 함께해주세요!!ㅋㅋ 1) Mini_개인 분석 프로젝트 처음은 브라이틱스에 적응겸 간단한 미니분석 프로젝트를 진행해보는거 였어요. 그리고 각 분석은 제게 나름의 의미를 가지는데요, ① 지역별 산업재해 현황 지역별 피해자수/사망자수를 나누어보며 피해자수는 경기에 많은 것에 비해, 사망..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : 마무리 및 정리삼성 Brightics 서포터즈 2022. 11. 16. 07:03
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 벌써.. 포스팅 마지막을 장식하네요ㅠ 경쟁률이 어마하다는 소식을 듣고 과연 할 수 있을까..? 면접을 보던 순간부터 저희를 따뜻하게 응원해주셨던 사무국 그리고 열정 넘쳤던 HI:FIVE 브라이틱스로 나도 모르게 계속 이것저것 시도했던..ㅎㅎ 그만큼 소중해서 경험을 넓히고 도전하고 싶었던 지난날이 휘리릭 지나가는데요, 먼저 개인분석 프로젝트를 정리한 후, 그간의 활동을 살펴보며 소감을 적어보겠습니다.ㅎㅎ 저는 앞서 말했듯 '도서'라는 커다란 주제로 1) 도서의 리뷰 2) 평점과 줄거리의 관계 3) 줄거리로 장르 예측하기 위와 같은 3가지 분석을 시도했는데요 1) 도서의 리뷰 전처리된 리뷰들을 TF-IDF를 통해 자주 등장하는 어휘를 분석..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : word2vec삼성 Brightics 서포터즈 2022. 11. 9. 01:41
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 어느덧 활동이 다음주면 끝나는데요, 여름부터 겨울까지 호다닥 지나가니 이렇게 서포터즈 마지막을 앞두고 있네요 그럼 저번주에 이어 개인분석 마지막 과정을 오늘 정리해보겠습니다!ㅎㅎ 들어가기 앞서, 제가 도서 data를 살펴보면서 줄거리로 장르 예측하기를 도전해보고 싶어했죠!ㅎㅎ 그런데 제가 가져온 데이터를 살펴보았을 때 genres(장르)가 또렷하게 구분되어있기보다 Fiction & Mystery & ... 요런식으로 해당되는 장르가 모두 체크되어있는 형태더라고요. 그래서 그중 'Fiction'을 기준으로 다시말해, 장르 중 소설을 구분해보는 것을 목표로!! python 코드를 이용해 fiction / not fiction 나누어놓은 col(열..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : 감정분석 및 분류삼성 Brightics 서포터즈 2022. 11. 2. 05:15
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 저번주에는 '책 리뷰에는 어떤 단어가 등장할까?'라는 첫번째 궁금증으로 긍/부정 리뷰를 비교해보았는데요, 감정분석을 이어가보고, 가져오는데에 성공했었던 다른 dataset을 봤어요. 더 흥미로운 주제를 이어갈 수 있어서 좋았답니다 :) 그럼 시작할게요!! 1) Extract Sentimental Words 감정어휘를 추출해주는 함수가 Brightics에는 구현되어있어요. 해당 함수를 위와 같이 실행하면 너무 신기하게도 긍정/부정 어휘가 추출되고 그에 따른 점수가 계산되어요. total(총합)부터 avg(평균)까지 얼핏 옆에 있는 긍부정 emotion 라벨링과 비교해보니 0을 기준으로 양수면 pos, 음수면 nag 인게 느껴지더라고요! 그래..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : TF-IDF삼성 Brightics 서포터즈 2022. 10. 26. 01:25
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 조금씩 활동이 막바지를 향해 달려가고 있어요. 개인분석 프로젝트도 절반 가량 지나각 즈음에, 저번주에 간략하게 포스팅했었죠! TF-IDF와 그 결과를 이번주에 본격 분석하려해요, "도서리뷰에는 어떤 단어가 등장할까?" 시작하며 던졌던 -가장 궁금했던- 질문을 파헤치러 GO GO!!ㅎㅎ ** 보완 1) 불용어 전처리 ** 일단, 저번주에 짧게 언급했었지만 실제 결과를 살펴보면서 보완하고 싶은 점이 있었는데요, 바로 불용어 전처리!! 보시다시피 가장 위에 book, read 단어가 도서리뷰에서 많은 비중을 차지함을 볼 수 있어요. 하지만 그 두 단어가 긍정/부정의 의미를 내포하고있는가? 그렇지 않죠! 리뷰를 쓰다보면 당연히 자주 등장하는 단어..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : 데이터 EDA삼성 Brightics 서포터즈 2022. 10. 19. 00:01
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 지지난주부터 계속 하고있는 저의 개인 분석 프로젝트!! 이어 포스팅합니다.ㅎㅎ 저번주까지 전처리를 시도했다면 조금씩 분석하는 곳까지 나아갔어요! 그럼 시작합니다아 1) 긍정/부정 리뷰 분류 먼저 rating(점수) 기준으로 각 리뷰를 긍정/부정으로 나누는 작업을 진행했어요 'Add Cloumn' 기능을 통해 조건을 주어 emotion을 추가! 1~5점 분류로 3점이 '보통'이자 딱 정중앙이 되는 애매한 지점이 있는데요, 분석을 진행하면서 3점을 pos/nag 또는 so-so 어떻게 분류할때 적합할지 더 살펴볼 거 같아요. 일단은 갯수를 고려해서 4-5점 pos(긍정), 1-3점 nag(부정)으로 카테고리화! ** 연도 분류 ** 위에 em..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : 데이터 전처리삼성 Brightics 서포터즈 2022. 10. 11. 23:47
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 저번주에 이어 개인 분석 프로젝트를 진행하고 있는데요, 주제 선정을 거치고 이번주는 간략하게 전처리를 시도했어요. 아마 분석을 더 더 진행하면서 필요한 전처리가 또 생겨날 수 있겠다 싶어 요번이 완전한 전처리는 아니겠지만, 그래도 조금씩 시도하고 나아가고 있는 저의 Brightics 분석 소개를 시작합니다~ 1) Delete Missing Data 가장 기본적으로 null 값 비어있는 데이터를 없애줍니다..!! 딱히 빈 칸이 보이지 않았는데요, 곳곳에 숨어있었는지 12,001 -> 11,997개로 4개의 데이터가 사라진 것을 확인할 수 있어요! 2) Tokenizer 그리고 자연어처리를 할 때 반드시 해야하는 작업, Tokenizer(토큰..
-
[삼성 SDS Brightics] 개인 분석 프로젝트 : 주제 선정삼성 Brightics 서포터즈 2022. 10. 4. 23:53
안녕하세요.ㅎㅎ Brightics 서포터즈 3기 정민경입니다. 이제 활동의 막바지로 접어들어서 개인 분석 프로젝트를 진행할 예정이에요. 아무래도 길게 프로젝트를 가져가는만큼 재밌고 흥미로운 분석을 해보고싶다는 바람에 주제 선정이 쉽지 않았어요 먼저 예전부터 찜꽁해두었던 데이터를 간략하게 살펴보려고요! 1) 데이터셋 https://www.kaggle.com/datasets/bilalyussef/google-books-dataset Google Books Dataset If you are a book lover, you would be interested in this data set. www.kaggle.com ① kaggle에서 발견한 도서 관련 데이터입니다. 제가 지금까지 정말 꾸준히..ㅎㅎ 책을 ..