업스테이지, 차세대 OCR 모델 Document Parse 공개 > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

업스테이지, 차세대 OCR 모델 Document Parse 공개

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 5회 작성일 24-10-17 22:41

본문

[이데일리 김현아 기자] 업스테이지가 17일, 정확하고 빠른 문서 분석이 가능한 차세대 OCR 모델 ‘Document Parse’를 공개했다. 이 모델은 대규모 언어 모델LLM로의 처리가 최적화된 AI 문서 처리 기술로, 현존하는 기술 중 가장 우수한 성능을 자랑한다.

Document Parse는 복잡한 레이아웃과 테이블 구조를 포함한 다양한 형태의 문서에서도 텍스트 정보를 정확히 분석하여 데이터 자산화를 가능하게 한다.
업스테이지, 차세대 OCR 모델 Document Parse 공개
타사 속도 및 성능 비교표


이 기술은 HTML과 같은 구조화된 텍스트 형식으로 변환하여 기업이나 기관에서 바로 활용할 수 있다. 업스테이지는 이 모델이 RAG 시스템의 성능과 LLM의 응답 정확도를 높이는 핵심 요소인 데이터 전처리 과정에서 뛰어난 정확성과 속도, 사용성을 제공한다고 강조했다.


업스테이지는 문서 구조 분석의 성능을 객관적으로 측정할 수 있는 벤치마크 ‘DP-Bench’를 함께 공개했다. 분석 결과에 따르면, Document Parse는 AWS와 MS 등 5개 빅테크의 서비스와 비교해 모든 정확성 지표에서 5% 이상 우수한 성능을 보였다. 속도 측면에서도 Document Parse는 1분에 100장을 처리하며, AWS Texttract보다 10배, LamaParse보다 5배 더 빠른 성능을 기록했다.

이 모델은 DOCX, PDF, PPTX, PNG 등 9종의 문서 형식을 지원하며, 수식 인식 및 이미지 추출과 같은 새로운 기능도 추가되었다. HTML 외에도 헤더와 테이블 요소를 마크다운 형식으로 제공하여 LLM 사용자들이 입력 문서의 토큰 크기를 줄일 수 있는 점도 큰 장점으로 꼽힌다.

PS24101701431.jpg
기능 이미지
업스테이지는 2023년 공식적으로 OCR 서비스를 선보인 후, AI OCR 경진대회 ICDAR에서 아마존과 엔비디아를 제치고 1위를 차지한 바 있다. 향후 금융권 및 제조업 등 보안이 중요한 분야에서 고객을 확보하고, 대규모 문서의 디지털 전환을 통해 LLM 활용이 기대된다.

김성훈 대표는 “Document Parse는 기업이 기존 문서를 가장 정확하게 자산화하여 LLM을 효율적으로 적용할 수 있는 최적의 도구”라며, “다양한 비즈니스에서 활용되어 업무 혁신을 현실화할 것”이라고 밝혔다.

▶ 관련기사 ◀
☞ 영화 공공의적 모티브된 최악의 존속살해[그해 오늘]
☞ ‘4분의 기적 버스서 심정지로 고꾸라진 男, 대학생들이 살렸다
☞ "술만 마시면 돌변..폭력 남편 피해 아이들과 도망친 게 범죄인가요"
☞ "임영웅과 얘기하는 꿈꿔"...20억 복권 당첨으로 고민 해결
☞ 공룡 美남 돌아온 김우빈, 황금비율 시계는[누구템]

[바이오 성공 투자 1%를 위한 길라잡이 팜이데일리]
[새로워진 이데일리 연재 시리즈 취향대로 PICK하기]
[뉴땡 Shorts 아직 못봤어? 뉴스가 땡길 때, 1분 순삭!]
[10대의 뉴스는 다르다. 하이스쿨 커뮤니티 하이니티]
[다양한 미국 주식정보! 꿀 떨어지는 이유TV에서 확인!]
[빅데이터 AI트레이딩 솔루션 매직차트]

<ⓒ종합 경제정보 미디어 이데일리 - 무단전재 amp; 재배포 금지>


김현아 chaos@

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,604
어제
3,067
최대
3,806
전체
627,792
Copyright © 소유하신 도메인. All rights reserved.