YalySeung

그냥 개발자

토글 메뉴

전체 글 수 463 개

AI

AI (1)

Build

Build (2)

CleanCode

CleanCode (1)

BDD (1)

TDD (6)

Database

Database (11)

MariaDB (2)

MSSQL (1)

Oracle (5)

DesignPattern

DesignPattern (2)

DevelopCommon

DevelopCommon (34)

ServerCommon (63)

WebCommon (14)

FrontEnd

FrontEnd (1)

JSP (1)

NextJS (3)

NodeJS (2)

React (3)

ReactStudy (21)

VueStudy (14)

Git

Git (10)

GithubBlog

GithubBlog (3)

ITBusiness

ITBusiness (11)

Idea

메모장 (1)

할일 (2)

Ketogenic

Ketogenic (2)

Markdown

Markdown (1)

OS

OS (8)

CLI (4)

Obsidian

Obsidian (9)

Procreate

Procreate (4)

SourceTree

SourceTree (1)

Spring

Spring (32)

Annotation (30)

AOP (7)

Test (9)

JPA (50)

SpringBoot

SpringBoot (6)

사이드프로젝트 (1)

Unity

Unity (2)

리소스 (1)

Vim

Vim (1)

개발환경

개발환경 (1)

IDE (8)

사이드프로젝트

Server (1)

게임 (2)

알고리즘

알고리즘 (2)

자료구조 (2)

암복호화

암복호화 (3)

재태크

재태크 (4)

통신

통신 (12)

프로그래밍언어

CSharp (2)

Expression (2)

java (13)

Exception (1)

javascript (3)

python (4)

TypeScript (1)

하드웨어

하드웨어 (14)

키보드 (4)

AI OCR NPL

개요

이 문서에서는 OCR(광학 문자 인식) 및 NLP 관련 주요 아키텍처인 CRAFT, TRBA에 대해 정리하였다. 두 모델은 이미지 기반 문자인식에 사용되며, 주로 자연어 기반 시스템에서 사전 텍스트 인식 단계로 사용된다.

🧠 CRAFT (Character Region Awareness for Text detection)

CRAFT는 문자 단위의 위치 정보를 예측해 텍스트 영역을 탐지하는 모델이다.

이미지 내에서 문자 단위의 region map과 link map을 추출
Fully Convolutional Network 기반
연결된 문자들을 그룹핑하여 단어 단위 텍스트 박스를 형성
다국어 텍스트와 비정형 배치에 강인함

입력: 텍스트 이미지
출력: 글자 중심점 + 연결 관계 => 단어 단위 박스

example

Scene Text Detection, 문서 스캔 이미지 전처리 등에서 사용

🧠 TRBA (TPS-ResNet-BiLSTM-Attention)

TRBA는 OCR의 텍스트 인식(Recognition)을 위한 아키텍처 구성 방식이다.

4단계 모듈로 이루어진 파이프라인 구조로, 기존 CRNN의 성능을 강화한 구조이다.

📦 구성 단계

단계	모듈명	설명
1	TPS (Thin Plate Spline)	입력 이미지 정규화 (왜곡 보정)
2	ResNet Feature Extractor	이미지에서 특성 추출
3	BiLSTM	시퀀스 특성 추출 (왼쪽~오른쪽 문맥 고려)
4	Attention Decoder	문자 시퀀스 생성 (유연한 길이 예측 가능)

입력: 단어 영역 이미지
출력: 문자열 (예: "OpenAI")

활용 및 통합 예시

CRAFT는 텍스트 영역을 탐지하고,
TRBA는 해당 영역에서 문자열을 인식하는데 사용됨
이 두 모델을 결합하여 End-to-End OCR Pipeline 구성 가능
사내 NLP 시스템에서 OCR 전처리 단계로 도입 가능

참고

CRAFT: https://arxiv.org/abs/1904.01941
TRBA: https://arxiv.org/abs/1904.01906
구현체: https://github.com/clovaai/deep-text-recognition-benchmark

연결문서

댓글남기기

참고

Docker서버구성

#DevelopCommon #React #SpringBoot

RequestBodyLogging

#Filter #Servlet #Spring

Linux Directories

#Linux #OS

Docker

#DevelopCommon #DevOps