ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [삼성 SDS Brightics] 지역별 산업재해 현황 분석
    삼성 Brightics 서포터즈 2022. 6. 28. 23:33

     

     

    안녕하세요. Brgitics 서포터즈 3기 정민경입니다.

     

    Brightics에서 지금까지 배워왔던 통계용어 보면 반갑고

    그 복잡한 과정을 쉽게 구현하는게 신기해서

    이번주 이것저것 만져봤어요!ㅋㅋ 어렵다가도 해내면 뿌듯해요.

     

    이번에는 간단히 진행해본 개인분석 과제입니다 :)

     


     

     

    1) 주제선정 및 데이터 확보

     

     

    저의 이번주 주제는 위의 책에서 시작되었어요. '유퀴즈'에 박주영 판사님이 나오신 인터뷰를 보고

    말씀 하나하나가 와닿아서 도서관에 들려 첫 챕터를 읽었답니다.

    아주 짧게만 읽어도 먹먹해지는 글이었어요.

     

    유퀴즈에서도 간단히 언급되었던 내용이지만,

    자살을 도모했던 3명의 청년 이야기가 나옵니다.

    그리고 내몰렸던 현실의 이면에 '산업재해'가 드러나요.

     

    한국이 이뤄내온 것이 소수의 재능이 아니라,

    여러 사람의 손길이 모여, 작은 것이 쌓여져 있음을 저도 뒤늦게 알게되어서

    '좋은 직업'에 이렇듯 노동의 가치가 더 높아진다면,

    한국이 쫓기고 있는 불안이 한결 나아지지않을까.

    뉴스에서 안타까운 소식을 들을 때 스쳐 지나갔던 생각이에요.

     

    우리의 삶은 그러한 노동에서부터, 사소한 누군가의 하루로부터 시작되기에

    가끔은 옆을 보고 뒤를 바라보기도 하며,

    꾸준히 자리를 지켜내는 노고와 가치에 주목하기를,

     

    그래서 산업재해 데이터를 분석해봤답니다.

     

    고용노동부 산업재해현황  https://www.data.go.kr/data/15002274/fileData.do

     

     

     

    2) 로컬 데이터 Load

    공공데이터를 다운받고

    오류가 적도록 기존에 column명

    숫자+한글 조합을

    영어 + 숫자 조합으로 바꿔주었어요.

     

    본래 데이터에 14년~19년 재해자수/사망자수가

    시기별로 각각 나타나있었다면,

    (ex. 14년 재해자수, 14년 사망자수, 15년 재해자수 ...)

     

    재해자수 -> victima_년도

    사망자수 -> died_년도

     

    위와 같이 변경했답니다!

     

    컴퓨터 내에 저장되어있는 파일을 불러오기때문에

    'Read CSV' 를 클릭해주세요.

     

     

    왼쪽에 'Path'를 입력할 수 있는 칸이 있어요.

    C: 불러올 데이터가 있는 경로\파일명.csv ]

    꼼꼼히 오타없도록 입력해주세요!

     

    참고로 지구본처럼 생긴 icon 클릭하면

    두가지 선택사항이 나와요.

    'Set to path'는 경로 입력창이 따로 한번 더 뜹니다.

    'Set as variable'은 칸에 입력한 경로가 그대로 실행이 돼요.

     

     

    짠! 데이터가 Table 형태로

    Load된 것을 볼 수 있어요.

     

     

     

    2) 열(col) 추가

     

    년도별로 값이 기록되어있다면

    이를 도합해 새로운 열을 추가하고 싶었는데요!

     

    1.재해자수/사망자수 각각의 총합

    (victima_all / died_all)

     

    2. 년도별 재해자+사망자수 총합

    (all_년도)

     

    이를 위해 'Add Function Columns'

    함수 실행합니다.

     

     

     

    가운데에 'Add column' 칸을 클릭해요!

     

    그러면 본래 가지고있던 column 활용해서

    새로운 열을 어떻게 추가할지 정하는 창이 나옵니다.

     

    ① 추가할 col 이름 = ② 값을 계산하는 수식

    예) all_년도 = victima_년도 + died_년도

     

    원래는 복잡하게 코드 명령문을 써야할텐데

    Brightics에서는 중요한 사항만

    (추가할 col 이름 , 값 계산 방법 )

    정의해 바로 사용할 수 있어요!

     

    마저 Run 해주면

    오른쪽에 원하는 열이 추가된 것을 볼 수 있답니다!

     

     

     

    3) 요약 및 시각화 Statistic Summary

     

    마지막으로 위의 데이터에

    다양한 그래프를 적용해보았어요.

     

     

    'Statistic Summary'를 사용할거에요!

     

     

    그 안에 여러 시각화 도구들이 있어요.

    어떤 방법을 적용할지 처음부터 선택해줘도 되고

    진행하면서 얼마든지 다른 방법을 시도할 수 있어요.

     

    전체적으로

    원하는 변수(col) 선택 -> 그래프 세부설정

     

    흐름으로 진행됩니다!

     

    먼저, 그래프에 쓰일 변수를 지정하는 단계에요.

     

    ['Input Column'의 select]

    원하는 변수의 요약통계량을 설정해줍니다.

    (저는 값을 그대로 가져오거나 합치기때문에 'Sum'을 선택했어요.)

     

    ['Group by'의 select]

    기타 분류기준이 될 수 있는 변수를 자유롭게 가져와요.

     

    Table 형태로 위의 과정을 진행하면

    원하는 변수만을 추출한 표를 볼 수 있어요!

     

    어떻게 데이터를 가져와서 시각화를 거치는지 기본이 되는 사항이라

    하다가 '왜 이렇게 되는거지?' 모르겠으면

    Table로 확인해주세요.

     

     

     

    ① 'Line graph'

     

    이후 그래프마다 세부설정하는 icon은 5개중 세번째에 위치해요.

    그리고 설정 사항은 그래프마다 조금씩 달라요!

     

    공통적으로 x축, y축 값을 정하는 것은 물론

    label, title과 같이 그 외 시각적 요소를 간편하게 설정할 수 있어요.

    코드가 아니라 바로바로 확인하면서 스타일을 정하는거에요.

     

     

     

    [지역별 총 피해자수]를 년도별로 비교해보기 위해

    line graph를 적용해보았어요.

     

    x축 : 년도 / y축 : 총 피해자수 / color색 : 지역

     

    위와 같이 설정했답니다.

    (지역별 구분 위해 'Color by'로 'area' 변수 넣었어요)

     

     

    Tip ◆ 그래프를 더 확대해서 보고싶다! 

     

    확대 icon 눌러주시면

    전체화면으로 볼 수 있어요.

     

    [지역별 총 피해자수(14~19년)]

     

    시각화 결과입니다.

     

    💬 가장 위에 초록색이 보이시나요?

    해당 지역이 '경기'에요.

    지역이 넓은 만큼 사고가 많이 발생했으려나?

    추측하면서 분석을 이어갔어요.

     

     

    그리고.. 반전이 있었습니다!

     

    다음으로 [년도별 사망자수만]을

    그래프로 나타내보자하여 아래와 같이 설정했어요.

     

    x축 : 년도 / y축 : 사망자수 / color색 : 지역

     

    (과정은 동일해요. 변수만 다르게 주시면 됩니다)

     

     

    [지역별 사망자수(14~19년)]

     

    💬 그래프를 그려보니 가장 위에 선이 변했거든요!

     

    총 피해자수(사망자수+재해자수)의 다르게

    사망자수는 '태백'에서 가장 많았어요.

     

     

     

     

    ② 'Box plot'

     

     

    그렇게 사망자와 재해자 각각 나누어 본

    지역별 box plot이에요.

     

    x축 : 지역 / y축 : 년도별 재해자,사망자수

     

     

    [지역별 재해자 & 사망자수(14~19년)]

     

    💬 분포가 확연히 다르죠?

     

    재해자수에는 '경기'지역이 눈에 띄고

    사망자수에는 '태백'과 '영원'이 도드라집니다.

     

     

     

    ③ 'Bubble chart'

     

    이와 같은 내용을 더 함축적으로 나태내보고싶어

    Bubble chart를 시도했어요.

     

    x축, y축. 원 size.

    기본적으로 3개의 변수를 담아

    세가지 변수의 상관관계를 함께

    확인할 수 있는 그래프거든요!

     

     

    x축 : 재해자수 / y축 : 사망자수 / size : 총 피해자수

    위와 같이 설정하였어요.

     

     

     

    [지역별 산업재해 현황 (14~19년)]

     

    💬 각 원들이 모여 일정한 line(상관관계) 형성하는 반면

    왼쪽 위에 특이값처럼 '태백'이 위치한거 보이시나요?

    가장 오른쪽 끝에는 '경기'가 위치해요.

     

    앞서 살펴본것과 동일한 맥락으로

    '경기'에 다수의 재해자수가 발생하는 추세와,

    반면 '태백'에서는 다른 지역에 비해 재해자수가 적어도

    사망자수가 많음을 확인할 수 있어요.

     


     

    Review

     

    처음에 사망자수도 '경기'에 가장 많겠지?라 하다가

    예상과 다르게 '태백'이라는 지역이 상위에 위치해서 놀랐어요.

     

    [심슨의 법칙]이라고 변수를 세부적으로 살피지않고

    전체적으로 고려했을때 생길 수 있는 오류가 있는데

    그만큼 산업재해에서는

    사망자수와 재해자수를 나뉘볼것을 시사해요.

     

    나아가 왜 태백에는 사망자수가 많을까

    의료시설의 부족 / 더 위험한 산업과 같은

    원인이 있지않을까, 추측해보며

     

    더 자세하게 파악해 조사해볼 것을 끝으로

    이번주 개인분석 과제 포스팅을 마칩니다 :)

     

     

    ※본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다

     

     

     

     

Designed by Tistory.