바로가기 메뉴
본문 바로가기
주메뉴 바로가기
AI 기반 KR 챗봇 개발부터 ChatGPT 활용까지
2024년 03월 05일

AI융합연구팀 이갑헌 선임, 송상호 선임, 조연화 책임, 장화섭 팀장

 

1. 서 론

인공지능(AI) 기술의 발전은 다양한 산업 분야에서 혁신을 가져오고 있습니다. KR에서는 도면 내 정보 추출, 선체 손상 탐지, 선박 장비 고장 판단 등 다양한 선급 업무에 인공지능을 도입하여 업무 효율과 서비스 품질 향상을 위한 기술 개발을 진행하고 있습니다. 최근에는 인공지능 자연어처리 분야에서 혁신적인 기술 발전이 있었으며, 이를 선급 규칙 검색 및 업무 효율 향상을 위해 적용하는 연구가 진행되고 있습니다.

 

2. 자연어처리 인공지능의 발전

자연어처리(NLP, Natural Language Processing) 인공지능의 혁신적인 발전은 구글에서 발표한 2017년 6월 “Attention Is All You Need” 라는 논문에서부터 시작됩니다. 데이터에서 집중해야 할 곳만 주의를 기울이는 Attention 메커니즘과 Transformer 딥러닝 알고리즘이 발표되었고, 2018년에는 Transformer의 Encoder 부분만 사용한 구글의 BERT 모델과 Decoder 부분만 사용한 OpenAI의 GPT가 발표됩니다.


초창기에는 BERT가 GPT보다 성능이 더 좋았으며 이 때를 기점으로 구글 번역기의 성능이 획기적으로 향상됩니다. 추후, 2020년 5월에 매개변수가 1750억개나되는 뛰어난 성능의 GPT3가 나오면서 이슈가 되었고, KR에서 본격적으로 NLP를 활용하기 위한 연구를 시작하게 되었습니다.

3. 자연어처리 인공지능 초기 연구

NLP 연구 초기 KR에서는 사용자가 입력한 AIS 목적지 값을 UN/LOCODE에 맞게 표준화해서 변환시키는 단편적인 기술 개발을 시도하며, BERT와 GPT3와 같은 최신 NLP가 KR 업무에 활용 가능한 수준인지 검토를 하였습니다.

 

그림 1. BERT와 GPT3 중, KR에 적합한 NLP 모델 선정



그림 2. BERT 기반 자연어처리 Q&A 프로토타입

그림 1과 그림 2은 2021년 초, BERT와 GPT3의 특징을 파악하여 어떤 NLP 모델이 KR에 적합한지 선정하고 Q&A 프로토타입을 개발하여 테스트한 내용입니다. 이 당시에 BERT는 다국적 언어를 지원하고 무료이며 모델 다운로드를 통해 보안이 확보된 폐쇄형 구조로 구성 가능한 반면에, GPT3는 영어에 특화되어 있고 유료이며 공개되지 않고 API로만 사용할 수 있었기 때문에 상대적으로 보안 위험에 노출 되어있었습니다. 따라서, KR에 적합한 자연어처리 모델은 BERT라 판단하여 BERT Multilingual 모델을 다운받아서 korQuAD라는 공개형 한국어 Q&A DB를 추가로 학습하였고, 이 모델 기반으로 Q&A 프로토타입을 만들어서 어느 정도 수준의 질문까지 대답가능한지 확인해 보았습니다.


그림 2의 Q&A 프로토타입에서 왼쪽 예시부터 살펴보면, 목성에 관한 Document가 주어졌을 때 “목성의 부피는 지구의 몇배인가?” 라는 질문을 하면 “1300배”라는 답을 얻을 수 있었습니다. 오른쪽 예시는 KR에 발라스트 탱크 관련 질문에 답변한 Document인데, “발라스트 탱크로의 이송에 따른 선박 평형수 관리기록부에 기재해야 하나요?”라는 질문을 해보니 “3.6-additionaloperationalprocedureandgeneralremarks[UNK]로기록하시면될것으로보입니다. psco 대응을 위해 선박의 로그북”이라고 답한 것을 볼 수 있습니다. 이 외에도 다양한 테스트를 하였는데, 이 연구를 통해 얻은 결과는 아래 3가지와 같습니다.


1. 사용자 질문이 들어오면, 이와 가장 유사한 Document를 찾고나서 거기에서 답변을 찾는 방식으로 인공지능 챗봇을 개발할 수 있음
2. 한국어나 조선 도메인 단어에 충분한 학습이 안되어 있는 경우, [UNK]이라는 인식 불가 토큰이 답변으로 나올 수 있음
3. BERT 모델은 자연어 이해에 특화 되어있기 때문에 문장 형태로 생성된 답변을 원한다면 추가 개발이 필요함 (문장 생성 로직 개발, 자연어 생성 특화 모델 GPT 활용 등)

 

4. 인공지능 기반 KR 챗봇 개발
2021년 말 금융권에서 카카오톡이나 웹에서 챗봇으로 간단한 문의를 해결하는 것에서 영감을 받아, 일부 검사업무에 한정하여 인공지능 기반 Q&A 챗봇을 개발하였습니다.

 

그림 3. 검사업무 Q&A DB(왼쪽), 챗봇 동작 절차(오른쪽 아래)

 

검사 업무 관련하여 자주하는 질문과 답변을 DB화 시켰으며, NLP의 기반 기술인 단어를 벡터화 시키는 워드 임베딩 방식을 활용하여 챗봇 동작 절차를 구성하였습니다. 그 구성을 상세히 살펴보면, 준비한 질문과 답변 DB를 각 내용별로 벡터화해서 벡터DB를 구축합니다. 그러고 사용자가 “원격으로 검사하는 절차는 어떻게 되나요?”라는 질문을 하면, 해당 질문을 벡터화 시키고 벡터DB에서 가장 유사한 대답을 사용자에게 보여주는 방식으로 인공지능 기반 KR 챗봇 서비스가 동작하게 됩니다.

 

그림 4. 인공지능 기반 KR 챗봇 서비스

 

인공지능 기반 KR 챗봇 서비스의 프론트엔드는 ReactJS, 백엔드는 파이썬, 자연어 처리 모듈은 Azure Cognitive service를 활용하여 개발하였습니다. 원격 검사, EDD, ISM 등 다양한 업무에 대한 Q&A를 815건 처리하였습니다(2024년 1월 기준).

5. ChatGPT의 등장과 적용
인공지능 기반 KR 챗봇 서비스 베타버전 배포 후인 2022년 11월 30일, 대화에 더 적합하도록 GPT3를 파인튜닝한 ChatGPT가 출시되었습니다. ChatGPT는 출시하자마자 엄청난 반향을 일으켰고 NLP를 활용하는 KR 연구 방향에도 큰 영향을 주었습니다.

 

그림 5. KR 챗봇(왼쪽), ChatGPT(중간), KR 규칙과 ChatGPT(오른쪽)

 

ChatGPT 출시 후 KR에서는 선급 강선 규칙의 지능형 검색에 활용할 수 있는 방안에 대해 연구하였습니다. 그 결과 그림 5과 같이 ChatGPT를 통해 질문하고 답변을 제공할 때 KR 규칙을 참고할 수 있도록 프롬프트 엔지니어링 기술을 적용하였습니다. 현재 개발된 버전은 적용 가능성을 검토하는 프로토타입 버전이며 이를 통해 어느 정도 수준까지 활용 가능한가에 대해 연구 개발을 진행하고 있습니다. 추후 KR에서는 강선규칙 외에 국제 협약, 선박 검사 이력 관리, 등 다양한 데이터와 고도화된 NLP 기술을 활용하여 고객에게 양질의 기술서비스를 제공하기 위해 지속적인 연구개발을 추진할 계획입니다.