뉴스홈 > 오피니언 > 세상이야기 기사 인쇄기사 이메일 보내기기사목록 기사오류신고
이기사를 페이스북으로 보내기 트위터 싸이월드 공감 카카오스토리로 보내기 RSS 단축URL
http://abnews.kr/1NjI

장애인 방송 기술의 현황-③

AI기술 등 첨단기술 활용 위한 표준화와 DB 구축 등 시급

에이블뉴스, 기사작성일 : 2019-11-08 09:18:40
1편과 2편에 이어 장애인 관련 방송기술의 현황에 대해 살펴보면, 화면해설방송은 대사, 인물의 움직임, 소리 등 화면에 나타나는 정보를 바탕으로 시각장애인이 해당 상을 이해할 수 있도록 화면해설 작가가 대본을 쓴 뒤 성우가 녹음하고 이를 오디오 엔지니 어가 메인 오디오에 믹싱하여 보조 오디오로 제공하는 서비스를 말한다.

화면해설방송은 화면해설 작가의 작가적 능력과 시각장애에 대한 이해 정도가 중요하며 단순히 자막을 읽는 식으로는 제작되기 어렵다.

화면해설방송 콘텐츠를 제작하는 데 시간적, 경제적 요소를 줄이고, 콘텐츠의 양적 확대를 위한 방법의 하나로 소프트웨어를 이용한 방안을 제시하고 있다.

한편, 지상파를 비롯한 많은 매체에서 해외 화를 시청할 수 있으나 대부분 시각장애인이 감상할 수 없는 자막을 제공하고 있는 경우가 많다.

외국 작품을 보는 데 있어서 자막은 본 작품 그대로를 느낄 수 있는 장점이 있지만, 외국어에 익숙하지 않은 이들에게는 몰입도가 떨어지는 단점이 있다.

한편, 자막을 대체할 수 있는 더빙은 본 작품과 다른 구석이 있지만, 시청 집중도는 더 높일 수 있다.

시각장애인의 입장에서 외화 더빙은 단순히 한 편의 화를 감상하는 데 그치는 것이 아니라 시각장애인의 문화 향유권을 담보하는 중요한 수단으로, 외국의 유수한 외화들을 도움 없이 감상할 수 있는 거의 유일한 수단이다.

이를 극복하는 방법으로서는 대부분의 프로그램에서 자막을 제공하고 있어, Text to Speech(TTS) 기술을 이용하여 자막을 음성합성을 통해 오디오로 제공하는 이른바 음성 자막(Spoken Subtitle)을 고려해 볼 수 있다.

다만, 사용할 수 있는 음성이 제한되어 있고, 대부분이 낭독체이기 때문에 감정을 주고받는 대화체 위주의 방송에 적용하기 위해서는 감정 표현이나 인물의 특성을 어느 정도 반하는 진화된 음성합성기술이 필요하다.

최근 구글과 같은 로벌 기업을 필두로 대용량 음성데이터에 바탕을 둔 딥러닝 기반 음성합성기술이 비약적으로 발전하고 있다.

구글의 Tacotron은 Sequence-to-Sequence 모델에 기반을 두고 있으며 가장 자연스러운 음성을 표현한다.

네이버에서는 음성 데이터양을 1/10로 줄여 적은 음성데이터만으로 음성 합성이 가능하고 웨이브넷 보코더를 결합시켜 음질을 개선한 하이브리드 음성 합성 엔진을 발표하고 있다.

이러한 음성합성기술의 발전은 목소리에 감정을 추가하여 표현할 수 있는 종단 간 감정 음성 합성시스템에 대한 연구로 이어지고 있다.

한국전자통신연구원에서는 Tacotron-2와 Global Style Token을 이용하여 감정 표현을 가능하게 감정 음성 합성기술에 대해 개발을 진행하고 있으며, 향후 딥러닝을 이용한 감정 음성 합성기술과 콘텐츠 저작 도구의 연결로 전문 화면해설작가가 작성한 대본이나 방송 자막을 기반으로 마치 성우가 녹음 한 것과 같은 품질을 갖는 화면해설방송이나 음성 자막을 제작, 서비스할 수 있는 날이 머지않은 것으로 판단된다.

현재의 장애인방송에 있어 편성 목표만 달성하고자 하는 수동적인 자세로는 시·청각장애인의 만족도를 높이기 어렵다. 콘텐츠의 제작에 있어서도 감성적인 측면을 고려하는 것이 질적 만족도를 향상시킬 수 있을 것이다.

또한, 최근 디지털콘텐츠의 폭발적 증가는 효과적인 자료 검색을 위해 특정 자료의 내용 및 성격 등에 대한 메타데이터 구축이 필수적이다.

기존에는 직접 상을 살펴보면서 메타데이터를 입력하지만, 최근에는 딥러닝을 이용하여 상/오디 오/자막을 분석하고, 등장인물의 표정 등을 식별하여 자동으로 메타데이터를 구축하는 서비스도 등장하고 있다.

검색을 위한 메타데이터의 구축과 더불어 콘텐츠에 감성적인 효과를 반함으로써 질적 만족도를 높이기 위해서는 감성 또는 감정과 관련된 정보를 자동으로 추출하고, 이를 서비스 대상 콘텐츠에 적절하게 표현해 줌으로써 앞서 언급한 개량형 자막, 수화, 음성 자막에서 등장인물의 감정과 내용을 효과적으로 시·청각장애인에게 전달할 수 있다.

영상에서 특정 인물을 찾거나 표정 분석을 통해 감정을 인식하는 서비스로 마이크로소프트사의 ‘Cognitive Service’가 알려져 있다.

오디오 분야에서는 복수의 등장인물이 등장하는 오디오에서 화자 구분, 음성역 추출을 위해 딥러닝을 이용한 ‘Speaker Diarizartion’에 대한 연구가 이루어지고 있다.

오디오로부터 추출되는 정보는 음성인식에 의해 생성되는 자막과 함께 내용에 따라 폰트의 크기나 색 등을 다르게 가져가며, 상에서는 등장인물의 구분과 위치, 표정을 인식하고 인물을 가리지 않는 부분에 자막을 표현할 수 있도록 자막 위치를 정의할 수 있다.

이는 상과 오디오로부터 등장인물들의 대화, 캐릭터 특징, 감정과 관련된 정보를 추출하고 이를 시·청각장애인을 대상으로 하는 콘텐츠 생성에 활용함으로써 상황에 대한 이해를 쉽게 전달할 수 있다.

[2020년 에이블뉴스 칼럼니스트 공개 모집]

-장애인 곁을 든든하게 지켜주는 대안언론 에이블뉴스(ablenews.co.kr)-

-에이블뉴스 기사 제보 및 보도자료 발송 ablenews@ablenews.co.kr-

칼럼니스트 김경식 칼럼니스트 김경식블로그 (bioman92@hanmail.net)

칼럼니스트 김경식의 다른기사 보기 ▶
< 네이버에서 에이블뉴스를 쉽게 만나보세요! >
<내손안의 에이블뉴스~ 언제 어디서나 빠른 장애인계 소식~>
에이블뉴스 페이스북 게시판. 소식,행사,뉴스,일상 기타등등 마음껏 올리세요.
[저작권자 ⓒ 에이블뉴스, 무단 전재 및 재배포 금지]
배너: 기사가 마음에 드셨나요? 구독료 1,000원도 큰 힘이 됩니다. 자발적 구독료 내기배너: 에이블서포터즈
기사내용 인쇄기사 이메일 보내기기사목록 기사오류신고 이기사를 페이스북으로 보내기 트위터 싸이월드 공감 RSS
화면을 상위로 이동