파워포인트에서 텍스트 추출하기


네이버 지식iN에 재미난 질문이 올라있어 이 곳 블로그에 정리해봅니다.

질문의 내용은 아래와 같습니다.

 
 

 
 

슬라이드마다 수십개의 텍스트박스로 구성된 아주 큰 파워포인트 파일이 있습니다. 100+ 슬라이드 정도.

여기서 텍스트맡 추출해서 번역을 하려고 합니다.

파워 포인트 다른이름으로 저장에 가면 개요/서식있는 텍스트가 있어 그것을 선택했는데 다 추출되지 않습니다.

한 슬라이드당 맨 앞의 한두개 텍스트 박스안의 텍스트만 추출되고 나머지 텍스트 박스는 무시됩니다.

슬라이드 하나 씩 해보려고 한 슬라이드에서 모든 슬라이드를 선택하고 워드에 텍스트만 가져다 부치려고 하니 그림으로 떠져서 텍스트로 붙지를 않습니다.

 
 

해결책을 알려주시면 감사하겠습니다.

 
 

 
 

질문자께서 여러가지 방법을 시도해 보신 것 같습니다.

Microsoft Office 제품군의 경우 서식에 맞도록 문서를 작성하게되면 Office 프로그램 상호간 문서가 서로 호환이 잘 됩니다.

즉, PowerPoint의 개요부분을 이용하여 작성한 PPT 또는 PPTX 문서의 경우 Word 문서로 변경하거나 Word 문서 역시 PowerPoint 문서로도 잘 변경이 된다는 것입니다.

 
 

하지만 대부분의 사용자들이 PowerPoint 문서 작성 시에 개요를 이용한 작성방법 보다는 직접 텍스트 박스를 삽입한 다음 내용을 채워넣는 방법을 선호해서 작업하고 있습니다.

이럴 경우 위 질문자의 말씀처럼 텍스트 부분을 추출하거나 할 때에 어려움이 있습니다.

다시말하면 PowerPoint 기능으로는 텍스트 부분을 따로 추출할 수 없습니다.

 
 

그렇지만 방법은 있습니다.

조금의 꼼수가 필요합니다.

그 방법에 대해서 설명드리도록 하겠습니다.

 
 

1. 우선 텍스트 추출을 원하는 PowerPoint 문서를 PDF로 변경합니다.

PDF로 변경하는 방법은 이미 잘 알고 계시겠지만, 혹시 잘 모르시는 분들도 계실 것이라 생각되어 간단히 설명드립니다.

PowrPoint를 PDF문서로 변경하기 위해서는 몇가지 방법이 있습니다.

1) PDF 변경프로그램을 이용하는 방법

   – 제일 많이 알려진 프로그램이 Adobe Acrobat 프로그램입니다. Acrobat Reader 라는 뷰어 프로그램이 아니라 문서를 PDF로 
     변경가능한 Acrobat Professional 제품이 있어야 합니다. 이 제품은 상용이며 좀 비쌉니다.

   – 대부분 PDF 변환프로그램이 상용프로그램이지만, 국산 프리웨어도 많이 있습니다.

2) PowerPoint 2007 사용자는 호환팩을 이용하여 변경하는 방법

   –  Microsoft Office 2007 버전에서부터는 PDF파일 변환이 무료로 가능하게 되었습니다.

      별도의 플러그인만 설치해주면 바로 PPT 파일 등을 다른이름으로 저장할 때 PDF 형태로 변환이 가능합니다.

      ( http://www.microsoft.com/downloads/details.aspx?FamilyID=4D951911-3E7E-4AE6-B059-A2E79ED87041&displaylang=en&Hash=VM5qPiVObmsfUbk6fuPsgQfCSxW8qbU6M2cV4ht1%2bRWrQpeafeNQIpDuqlJV5GqeknkrT7yJ4yFv9AHX5IEDhQ%3d%3d 사이트에서 직접 다운로드 받아 설치하셔도 됩니다.)

 
 


 
 

2. 변경된 PDF문서를 Acrobat 프로그램을 이용하여 텍스트 추출을 합니다.

1) Acrobat Reader라는 PDF Viewer 프로그램이 아니라 PDF 편집이 가능흔 Acrobat Professtionl 버전이 필요합니다.

    Acrobat 프로그램에서 변경된 PDF 문서를 연 다음 File > Export > Text 메뉴를 이용하여 변경합니다.

 
 


 
 

2) 위 방법을 하게되면 filename.txt 파일로 원래의 PowerPoint 문서 내용에 포함되어 있는 텍스트 내용이 추출되어 저장됩니다.

 
 


 
 

문서 내의 그림파일은 저장이 되지 않지만, 원래 문서의 텍스트는 모두 포함되어 있습니다.

영문과 한글 모두 잘 추출되어 있으며, 원본 문서의 도해나 도표에 포함되어 있는 텍스트도 추출이 되었습니다.

다만 도해나 도표형식에서 텍스트만 추출되어 있어 원본 문서와 비교해서 보아야 하겠습니다.

그리고 원래의 그림파일 (즉, 텍스트상자에 입력된 것이 아니라 글 자체가 그림인 경우)는 추출이 되지 않았습니다.

 
 

이 방법이 꼭 원하는 방법인지 모르겠지만 개요형식으로 작성된 문서가 아닌 PowerPoint 내에 포함되어 있는 모든 텍스트를 추출하는 데는 이 방법이 가장 쉬운 방법인 것 같습니다.

해외 사이트를 검색해 보니 Miraplacid Text Driver 2010 라는 프로그램이 있더군요.

 
 


사이트 바로가기 : http://www.miraplacid.com/mtd/

 
 

유료프로그램($49.95) 이여서 직접 설치하여 테스트 해보지는 못했지만 필요하신 분들은 다운로드 받아 사용해보십시오.

15일간 Trial로 사용해보실 수도 있습니다.

 
 

▶ 관련링크

파워포인트에서 텍스트 추출하기

댓글 남기기