본문 바로가기
E4.Live/프로젝트 소개

[언어서비스 사업본부] AI Data 프로젝트

by E4. 2022. 8. 9.

사업명  AI Data 프로젝트
고객  e2f
담당PM  지미희 부장

 

안녕하세요 지미희 부장입니다.
언어서비스 사업부 e2f AI Data 프로젝트를 소개합니다.

“지니야 오늘 날씨 알려줘”라는 단순 발화문을 넘어서 AI 상담사가 “제주행 비행기 예약을 변경해 주세요.”라는 고객 요구 사항을 처리할 수 있게 트레이닝하는 음성 데이터를 생성하는 프로젝트입니다.
e2f 고객사는 실리콘밸리에 베이스를 둔 회사로 2013년부터 번역 서비스로 함께한 고객인데 2021년부터 AI Data 서비스를 집중해서 진행하고 있습니다. 
AI 데이터 프로젝트는 목적에 맞는 음성 데이터 생성 또는 수집하여, 음성 파일 검수, 세그먼테이션, 전사, 리뷰 단계로 진행이 됩니다. 세그먼테이션은 파일을 한 문장 단위로 분리하는 작업하여 전사할 수 있게 하는 사전 작업입니다. 이 부분은 고객사 엔지니어링 팀에서 진행하고 나머지 과정을 이포넷이 진행하고 있습니다.


고객사에서 위에 사진에 보이는 AI 데이터 생성을 위해 개발한 플랫폼을 사용하여 동시에 80명의 작업자가 전사와 검수 작업을 수월하게 진행하게 됩니다.

우리가 참여한 오디오 생성 프로젝트는 50명의 스피커가 참여해서 숫자와 알파벳 중심의 스크립트를 녹음했습니다. 또한 미국에 거주하는 한국인의 영어 액센트를 수집하는 프로젝트에도 참여했습니다. 여행, 보험, 음식점, 은행 등 관련된 간단한 시나리오를 가지고 고객과 에이전트 역할을 나누어 20명의 스피커가 온라인 Agent 툴을 사용하여 음성 파일을 녹음했습니다.


주요 작업은 이미 수집된 방송 미디어 음성 파일을 한글로 전사하는 작업을 가장 많이 진행했는데 80여 명의 전사자가 작업하였습니다. 가장 어려운 부분은 다수의 스피커가 나오는 경우 분리해서 전사하는 부분입니다.
고객사에서는 다국어가 동시에 진행되고 있어서 이포넷이 한국어 음성 데이터에 대한 전문성과 경험 있는 작업자들을 보유하게 되는 경쟁력을 가지게 되고 있습니다.

댓글0