ML/LG Aimers 2nd

[LG Aimers] AI 윤리

comalmot_ 2023. 1. 5. 22:28
반응형

* 이 내용의 모든 권리는 LG Aimers에 있으며, 문제가 될 경우 비공개되거나 삭제될 수 있음을 미리 알려드립니다.

 

강의자 : KAIST 차미영 교수

 

 첫 번째 주제답게, 조금은 가벼운 내용이 들어있는 강의였다.

강의하시는 차미영 교수님께서 데이터 사이언티스트이시기 때문에, 데이터에 대한 강의가 주요 내용이었다.

 

간단하게만 정리하였다.

 

데이터를 사용할 때 유의할점

- 데이터를 잘 해석하고 있는가?

: 이 부분에서는 초콜릿과 노벨상에 관한 연구를 예시로 드셨다. 이 재미있는 연구는 초콜렛으 소비량이 높은 국가일수록 노벨상을 받을 확률이 높은가에 대한 주제를 가지고 있는데 이것은 상관관계이지 인과관계가 아니다.

인과관계라고 하는 것은 바로 원인과 결과의 관계를 말한다. 즉 하나의 사건이 다른 사건을 만들어 낼 때, 이것을 인과관계라고 한다. (가령 기계가 멈춤-결과-은 기름 부족-원인-이다. ) 반대로 상관관계는 어떤 변수가 증가할 때, 다른 변수가 함께 증가하는지 (가령 체중과 신장은 양의 상관관계가 있다. 신장이 크면 클수록, 체중은 올라가게 된다.)

이러한 상관관계와 인과관계는 데이터를 분석하는 과정에서 굉장히 중요하다. 비지도 학습 자체는 feature를 뽑을 필요가 없지만 지도학습의 경우 feature의 중요성이 매우 커져 데이터를 어떻게 분석하여 feature를 뽑아내는지에 따라 정확도의 차이가 크기 때문이다.

 

- 데이터 전처리와 분석 방법은 적절한가?

: 여러가지의 예를 드셨다.

 

    - Error bar 추가하기 : Error bar는 막대 그래프 중앙에 선으로 표시된, 우리가 흔히 말하는 플러스 마이너스. 즉 오차를 표시하는 Bar 이다. 가령 A, B, C, D 군에 대한 각 데이터가 막대 그래프로 존재한다고 해보자. 그런데 A, B, C, D 중 D가 가장 Error bar가 크다면, 이 데이터 D는 상대적으로 가장 큰 오차를 가지고 있다고 생각할 수 있다. 이처럼 데이터 분석 과정에서 오차를 깊게 생각해야 한다는 것을 알 수 있었다.

 

    - 적합한 통계 테스트 찾기 

 

    - 아웃라이어 제거하기 : 아웃라이어는 "평균치에서 크게 벗어나서 다른 대상과 확연히 구분되는 표본" 을 의미한다. 한국어로는 "극단치" 라고 한다. 즉 너무 크거나 작은 값을 제거하면 데이터 전처리에 도움이 된다는 말씀을 하셨다. 일례로 최근 우리 학교에서 고등학교 대상으로 진행하는 교육에 튜터로 참가하고 있는데, Zumi라는 인공지능 로봇을 사용하다보니 색을 학습시키는 과정에서 실수로 이미지가 잘못 들어간 경우 제대로 인식을 하지 못하는 부분이 있었다. 이미지가 잘못들어간 경우(가령 Green으로 분류해야할 때 Red나 None으로 결과가 출력)는 Red, Green, None 세가지로 Classification 하는 k-NN 알고리즘이 제대로 작동하지 못하는 모습을 보였다.

 

    - 데이터 표준화하기 

 

    - EDA (Exploratory Data Analysis) 에 충분한 시간을 보내기 : 결국 시간과의 싸움이다. 이상 데이터를 제거하고, 꼭 Kaggle 같은 곳을 보면 정상 데이터가 아닌 것이 하나 둘 꼭 있다. 일전에 올렸던 SVM 모델의 경우 Python으로 스크립트를 작성하여 .csv 파일 내에 있던 이상 데이터(특정 군 데이터가 None으로 표기된 경우)를 삭제했었다. 충분한 데이터 분석이 좋은 결과를 만들어내지 않을까 싶다.

 

학습에 쓰는 데이터가 충분한가?

이에 대해서는 Under-fitting, Appropirate-fitting, Over-fitting의 세 가지 예시를 드셨다.

 

- Under-fitting

 먼저 Under-fitting이다. Under-fitting을 학습이 되어야할 파라미터들이 제대로 학습이 되지 않아 제대로 기능하지 않는 것을 말한다. 가령 동그라미와 네모를 구분하는 모델이 있다고 해보자. 그런데 전혀 감을 잡지 못하고 엉뚱하게 답을 뱉어내는 것이다. 즉 정확도가 낮은 것을 의미한다. 이 경우 데이터를 더 집어넣어야 한다.

 

- Over-fitting

 두 번째는 Over-fitting이다 .Over-fitting은 Under-fitting과는 반대로 훈련 데이터에 대한 학습이 과도하게 진행되어, 파라미터들이 마치 맞춤형 양복처럼 훈련 데이터에 맞추어져 데이터가 조금이라도 달라지면 기능이 제대로 동작하지 않는 상황을 말한다. 간혹 AI 모델을 훈련하고 정확도가 100% 나온다고 하는 사람이 있다. 이 경우는 Over-fitting이 되었다고 말할 수 있다. 

 

- Appropirate-fitting

 적정한 수준의 학습 상태이다. 어떤 데이터가 들어오던지 일정한 결과를 내뱉으며, 간혹 틀리기는 해도 높은 정확도를 보여준다. 교수님께서는 가장 안정적인 상태라고 말씀하셨다.

 

결론적으로 이 Under-fitting과 Over-fitting을 피하기 위해서는 데이터 학습의 결과가 적절한 수준인지(파라미터 학습이 적절하게 진행되었는지), 학습 데이터와 테스트 데이터를 잘못 구분하고 동일하게 넣진 않았는지 생각해봐야 한다.

 

Blackbox Algorithm

- 설명가능한 인공지능의 예시 : 탈세범 적발

 대부분의 AI 알고리즘은 대수적으로 파라미터를 학습하는 과정이 인터넷에 찾아보면 잘 나와있다. 그런데 결국 인간은 어떤 연유로 이 알고리즘이 이러한 결과를 도출해내었는지는 알지 못한다. 따라서 최근 설명력이 중요한 AI, 즉 Explainable AI에 대한 관심이 높아지고 있다고 한다. 가령 탈세범 검출의 경우, 상품 자체가 바로 탈세다! 라고 말하게 되면 세관원의 납득이 쉽지 않다. 따라서 정확도가 조금은 떨어지더라도 스스로 왜 이러한 결과를 도출해냈는지에 대해 설명이 가능한 AI가 세관원의 보조로서 활동하니 더욱 효율이 높아졌다는 이야기를 하셨다. - 이러한 것을 위해서, Salienct Map, SHAP와 같이 Post-hoc Explainability를 제공하는 기술이 생겼다고 한다.

 

- 학습 결과가 바뀔 수 있는 위험성 : One Pixel Attack

 AI 관련 보안 강연에 단골 손님으로 등장하는 One Pixel Attack이다. 예를 들어 강아지 이미지에 픽셀 하나를 바꿨더니 고양이로 인식하는 등의 이상한 결과를 내뱉는 인공지능에 대한 이야기이다. 그런데 항상 이런 강연을 듣다보면 이러한 공격이 있다라는 말씀은 하시는데 막는 방법에 대해서는 언급하시는 분이 거의 없다. 이런 나중에 찾아보고 추가하려고 한다.

 

Handling the Web Data

- 의견의 대표성 : Spiral of Silence

 인터넷 상의 의견이 대표성이 있는 의견이 나리 수 있음을 인지.. 라고 적혀져있었다. 보자마자 삼양라면에 햄맛을 빼달라고 전화를 걸고 그걸 받아들인 삼양라면이 생각났다. 아마 지금도 그 글에 욕이 달리는 걸 확인할 수 있을 텐데... ㅋㅋㅋㅋ 너무 중요한 예시가 한국에 있기 때문에 쉽게 잊진 않을 것 같다.

 

- 오정보의 빠른 확산으로 인한 인포데믹 현상

 인포데믹(Infodemic)은 사실정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상이라고 한다. 최근 연구 결과에 따르면 루머는 점조직처럼 산발하여 퍼진다. 하지만 팩트는 중앙부터 모든 Node들이 연결되어서 퍼진다. 즉 루머가 훨씬 빨리 퍼지게 된다.....고 한다.

 

이 외 내용은 교양 수업 내용이었기 때문에 정리를 하지 않았다. 수료를 위해선 해커톤에서의 활약이 좋아야하기 때문에.. ㅠ.ㅠ 이번 강의는 사실상 초반이 가장 핵심이지 않았나 싶다.

 

오늘 정리 끝!

반응형

'ML > LG Aimers 2nd' 카테고리의 다른 글

LG Aimers 2기 선정  (0) 2023.01.05