영상 또는 음성을 텍스트로, 텍스트를 음성으로 변환하는 방법들
- IT/IT
- 2021. 12. 17.
이번 포스팅에서는 여러 가지 진보된 AI 기반의 speech to text, text to speech 관련 기술들을 살펴보려고 합니다. 즉, 유튜브 등의 영상을 녹화한 다음 녹화된 영상에서 음성을 추출하고 추출한 음성을 텍스트 문장으로 바꾸는 과정과 크롬 브라우저에서 웹 서핑 도중 마우스로 드래그한 문장을 한국어 음성으로 출력하는 방법을 알아보려고 합니다.
아래의 설명들에서는 주로 제가 알고 있는 하나의 앱이나 방법등으로 진행하지만 표준 방법이 아니라 시도할 수 있는 여러 가지의 앱이나 방법들이 존재할 수 있습니다. 아마도 시간이 흐름에 따라 더욱더 정교하고 빠르며 좋은 방법들이 생겨날 것이라고 생각합니다.
1. 영상을 텍스트로(speech to text)
영상에서 직접 텍스트를 추출하는 기술은 아직까지는 음성에서 텍스트를 추출하는 기술에 비해 조금 약한 면이 있습니다. 따라서, 현재 수준에서 확실하게 자리를 잡았다고 생각되는 음성을 텍스트로 바꾸는 방법에 관하여 알아보려고 합니다.
- 영상 녹화후 음성 분리
샘플로 테스트할 유튜브 MBC 뉴스의 한 부분을 모바비 스크린 레코더를 이용해 녹화하였습니다. 녹화된 짧은 길이의 영상을 애니모티카 동영상 편집 소프트웨어에서 불러온 다음 MP3 사운드 파일로 추출하였습니다. 클릭 한 번으로 추출되므로 이 과정에서 특별한 것은 없습니다. 빠른 테스트를 위해 추출한 MP3 파일을 아래에서 다운로드하여 직접 테스트해 보실 수 있습니다.
- 음성을 텍스트로 변환 및 편집
네이버의 클로바노트(ClovaNote beta)로 이동한 다음 이전 단계에서 분리한 MP3 파일을 업로드합니다. 한국어, 영어, 일본어가 가능하며 최대 단일 파일 기준으로 180분 분량의 음성 파일까지 지원됩니다. 업로드하고 나면 즉시 텍스트로 변환되게 됩니다. 이 텍스트 파일을 클로바노트에서 직접 편집하거나 공유할 수 있습니다. 테스트해 본 결과 단 1개의 오탈자도 발견되지 않아 놀랍게도 100%의 정확도를 보여줬습니다. 물론, 더 긴 음성을 테스트해 본 다면 결과가 달라질 수도 있을 것 같습니다.
만일, 음성에서 추출된 문서중 순수한 텍스트만 남기려면 우측 상단의 3점을 누르고 '음성 기록 다운로드'를 클릭한 다음 팝업창에서 시간 기록이나 참석자를 체크 해제하면 순수한 텍스트로만 저장이 가능합니다.
이러한 기술이 좀더 진화하면 이제 기자분들이 취재를 하고 기자석에서 타이핑하는 모습이 점차 사라질지도 모르겠다는 생각이 들었습니다. 취재하면 자동으로 문서화되고 오탈자 자동교정이 이루어지면 거의 노트북을 두드릴 일이 없지 않겠나 하는 생각이 들었습니다.
2. 텍스트를 영상으로(text to speech)
크롬 브라우저의 웹 페이지 또는 메모장에서 마우스로 드래그한 부분을 자동으로 읽어주는 기능인 데 직접 웹 페이지를 방문하여 텍스트를 붙여 넣기 하여 음성으로 변환하는 서비스하고는 조금 다른 면이 있습니다. 직접 특정 웹 사이트를 방문하여 음성 변환을 시도하는 방법으로는 이미 파파고, 구글 번역기, text-to-speech, 보이스웨어 등이 존재하는 데 이들을 1세대라고 한다면, 직접 기존의 텍스트에 마우스 드래그후 우클릭만으로 음성으로 변환되는 방식은 1.5세대쯤으로 불려야 할 것 같습니다.
몇 개의 text to speech 크롬 확장 프로그램을 테스트한 결과 가장 성능이 우수하다고 판단된 Read Aloud: A Text to Speech Voice Reader를 추천해 드립니다.
이 확장 프로그램을 크롬에 설치하면 텍스트가 존재하는 모든 웹 페이지에서 텍스트 부분을 드래그한 다음 마우스 우클릭하여 재생할 수 있습니다. 크롬 우측 상단의 플러그인 모음 부분에 고정한 다음 해당 아이콘을 우클릭하여 옵션을 선택하고 환경을 설정할 수 있습니다. Edit shortcut keys 부분을 누르고 단축키를 설정해 블록 설정 후 단축키를 눌러 재생/일시 정지 기능을 사용할 수도 있습니다.
음성으로 재생되는 사운드를 Audacity 같은 음성 소프트웨어로 녹음하면 사운드 파일로 저장이 가능해 집니다.
이상으로 영상, 음성, 텍스트 사이의 변환에 관한 기술들을 살펴보았습니다. 소프트웨어에 있어서도 기술의 발전 속도가 일반인들의 습득 속도를 추월해 나가는 느낌이 강하게 듭니다. 작가가 말을 하면 책이 나오고, 책을 투입하면 음성이나 영상이 나오는 세상이 이미 거의 다 와 있음을 느낍니다.
'IT > IT' 카테고리의 다른 글
신상 카카오 뷰 대표적으로 궁금한 질문들 10가지 모음 (0) | 2021.12.18 |
---|---|
아이폰 업데이트 15.2 - 유산 관리자 지정에 의한 상속 (0) | 2021.12.17 |
무료로 데이터 백업이 가능한 무료 클라우드 스토리지 용량 비교 (0) | 2021.12.17 |
이미지나 사진속의 글씨를 번역하는 방법 (0) | 2021.12.15 |