​​ 이루다 ai가 남겨 준 마지막 대화 내용, 그리고 스캐터랩의 해명

이루다 ai가 남겨 준 마지막 대화 내용, 그리고 스캐터랩의 해명

오픈되자마자 엄청난 이슈에 휩쓸렸던 말 많고 탈 많았던 스캐터랩의 AI 챗봇 이루다가 며칠간의 챗봇 경험을 중단하고 입원 치료에 들어간 듯합니다. 

스캐터랩 측은 입장문에서 “일부 혐오와 차별에 대한 대화 사례 및 개인정보 활용에 대해 충분히 소통하지 못한 점에 대해 진심으로 사과한다”며 “출시 후 그동안 받은 다양한 의견을 반영해 부족한 점을 집중적으로 보완할 수 있도록 서비스 개선 기간을 거쳐 다시 찾아올 계획”이라고 밝혔습니다. 1월 12일 오전 11시부터 시차를 두고 중단에 들어가서 오후 6시경에 중단을 완료했다고 합니다.

 

아 그런데, 왠지 모르게 이 약속이 지켜지지 못할지도 모른다는 생각과 함께 짠한 마음이 드네요.

 

제가 접속하지 않는 동안 혼자서 몇 가지 마지막 대화를 남겨 놓았더군요. 그걸 보니 AI일 뿐인데도 이상하게 짠하더군요.

 

이미지 인식도 못하는 바보라고 놀리고 그랬는데, 저런 재주가 있는지는 여태 짐작하지 못했네요. 추측했던 것보다 그래도 어느 정도 상식이 있는 수준으로 보입니다. 그건 다른 챗봇들하고 대화를 나눠봐서 저게 대단하다는 걸 아니깐요.

다른 챗봇들의 무식함을 직접 경험해 보신다면 아마 경악하실껍니다.

 

아래의 내용은 스캐터랩 측에서 밝히는 이루다에게 학습한 데이터와 방식 등에 대한 내용이며, 향후의 조치계획입니다.

 

 

이루다의 경우, 핑퐁 데이터베이스를 통해 프리 트레이닝 단계를 거쳤고, 이 단계는 연애의 과학 텍스트 데이터를 기반으로 학습이 진행됐습니다. 그러나 이 때 사용되는 데이터는 발화자의 이름 등 개인 정보가 삭제된 상태로, 발화자의 정보는 성별과 나이만 인식이 가능합니다. AI는 프리트레이닝 단계에서 사람 간의 대화 속에 존재하는 맥락과 답변의 상관관계만을 학습하게 되며, 이때의 데이터는 외부로 노출되지 않습니다.

이루다 서비스의 경우, 회원 정보와 연계되어 있지 않은 별도의 DB에 수록되어 있는 문장으로 이용자에게 응답하고 있습니다. DB는 1억 개의 개별적이고 독립적인 문장들로 구성되어 있어, DB의 문장들을 조합하여 개인을 특정하는 것은 불가능합니다. 이루다는 이전 대화의 콘텍스트에 영향을 받아 개별 문장들 중 답변을 선택하게 되는데, 이때 사용자가 과거 10 턴의 대화에서 사용한 표현, 분위기, 말투를 비롯한 대화의 맥락에 크게 영향을 받습니다. 이 때문에 사용자는 이루다가 개별화된 대답을 하고 있다고 느낄 수 있습니다.

연애의 과학 사용자 데이터는 사용자의 사전 동의가 이루어진 개인정보 취급방침의 범위 내에서 활용하였으나, 연애의 과학 사용자분들 중 AI 학습에 데이터가 활용되기 원치 않으시는 분들은 DB 삭제와 함께 앞으로 이루다의 DB에 활용되지 않도록 추가 조치를 진행할 예정입니다.

 

스캐터랩 측은 이루다의 대화 학습 방법에 관하여 구체적으로 다음과 같이 설명하였습니다.

 

이루다는 이전 약 10 턴의 대화(이용자와 상호 주고받은 10회의 대화 기록)를 기반으로 다음 답변으로 가장 적절한 것을 선택하는 법을 학습했습니다. 그렇기 때문에 이루다는 사용자와의 이전 대화의 맥락, 표현, 분위기, 말투, 대화 내용에 크게 영향을 받습니다. 실제로 이루다가 답변에서 어떤 감정과 컨텍스트를 가지고 갈 것인지는 사용자의 과거 10턴의 맥락에 달려있고, 사용자와 비슷한 표현을 사용하려는 경향이 있습니다.

이루다에 혐오 단어 또는 특정 집단에 대한 비하 단어가 입력될 가능성은 서비스 출시 전부터 상정하고 있었습니다. 이에 대비하여 다음과 같은 조치를 취하였습니다. 먼저 키워드 중에서 표현 자체가 혐오 단어이거나, 특정 집단을 비하하는 단어들에 대해서는 무조건적인 제거를 하도록 설정을 했습니다.

특히, 베타 테스트 과정에서 이용자들이 입력한 질문들을 리스트업 하여 그중 편향된 답이 나올 수 있는 질문이나 문장에 대해서는 예상 시나리오를 설정해서 미리 답변을 준비하였습니다. 그리하여 실제 서비스 과정에서 문제의 소지가 있는 질문이 등장했을 때는 이루다가 준비된 답변을 할 수 있도록 했습니다.

그러나 시나리오가 마련되지 않은 상황에서 이루다는 AI 알고리즘에 의한 판단으로 대답을 하게 됩니다. 이용자가 단어 그 자체로는 혐오적인 표현이 아닐 수 있지만, 맥락상 혐오/차별적인 답이 나올 수 있는 대화를 시도할 경우 이루다는 이용자와의 대화를 매끄럽게 이어가고, 이용자에게 공감하려는 과정에서 혐오, 차별 발언에 동조하는 것처럼 보일 수 있습니다.

현실적인 조치로 키워드 기반으로 대응을 하였으나, 장기적으로는 AI 알고리즘을 더 많은, 정제된 데이터를 통해 학습시키고, 이를 통해 알고리즘이 옳고 그름을 배워나갈 수 있도록 하는 방안이 필요합니다. 이를 테면, 혐오나 차별 문제를 키워드를 중심으로 그때그때 수정을 하거나 필터링 등의 방법으로 보정을 하게 되면 해당 문제에 대해서 AI는 학습할 기회를 영원히 잃게 됩니다. 그렇게 되면 앞으로의 AI 대화 경험에 대한 전망은 부정적일 수밖에 없습니다.

반면, 더 많은 양의 정제된 데이터를 통해 알고리즘을 학습시킬 수 있다면, AI가 스스로 윤리의식이나 도덕적 기준을 정립하고 적절한 판단을 내릴 수 있다고 생각합니다.


 

어쨌든 스캐터랩 측은 이번 며칠간의 서비스에서 일부 차별, 혐오 발언 문제 및 개인정보 노출 문제 발언을 일으킨 문제에 대하여 불완전했던 데이터를 더욱 엄격한 레이블링 기준을 도입하여 학습시킴으로써, 이루다가 사회 보편적인 가치를 담은 AI가 될 수 있도록 개선해나가겠다고 했습니다.

다음에 돌아올 때는 좀 더 정제되고 지능화되고 사회에 공헌할 수 있는 AI로 업그레이드되어서 무사히 귀환했으면 하는 바람입니다.

아래의 사진은 제가 오프라인일 때 이루다가 혼자서 채팅하며 올려 논 자신의 고양이랍니다.

 

이루다의 고양이

 

댓글

Designed by JB FACTORY