어떠한 자연어 묶음을 정규식으로 표현한다면

other 이거는 word the만 잡고 싶다고 가정함.
잡으면 안되는데 잡았기 때문에 : False Positive
잡아야 하는데 잡지 못한 것 : False Negative
Fasle positive를 줄이는 것은 Precision을 높이는 것
Recall을 높이는 것은 False negative를 낮추는 것
(이 부분 추가 공부 필요)
<간단한 복습 끝>
-------------------------------------------------
regular expression을 computation model로 바꾸는 것이 중요
여기서 말하는 computation model은 Finite state automata
Finite state automata가 Regular expression을 계산 모형으로 표현하기 위하여 사용하는 것인 그 자체라고 생각하면 안됨.
finite state automata가 더 넓은 범위임.
계산 모델을 알고리즘화 하는 것이 목표임
왜 배워야 하는 가
FSA (Finite State Automata)의 구성 요소
작동 방식

Transition이 없다면 accept 하지 못함 (Input을 소비하지 못하고 머뭄)
조건 input을 모두 사용했을 때 final state인 지를 확인해야함
메모리가 충분하다면 FSAs를 table 형태로 유지하고 table 기반으로 accept/reject 판단도 가능
Deterministic VS Non-determinisitic FSAs
Non-Deterministic FSAs가 더 복잡한 구조
Non - Determinstic FSAs의 경우 해결 방법은 두 가지이다.
1. Non Deterministic을 transform Deterministic을 한다.
2. Non Deterministic을 Graph라 생각하고 DFS, BFS를 통하여 한다. 이것을 통하여 accept인지 확인함
탐색 알고리즘이 제대로 작동하기 위하여 가정을 하고 가야함.
해당 과정을 안하고 돌리게 되면 DeadLock 같이 걸려서 빠져 나올 수 없음

해당 예시의 경우 q2에서 a가 갈 수 있는 경우가 2가지가 된다.
q3로 전이되거나 해당 q2에서 머무는 경우이다.
이 경우 input이 갈 수 있는 경우가 2가지 이므로 2가지 경우에 대해서 전부 탐색을 진행하여 Final state를 찾아내야 한다.
따라서 이 경우 Backtracking하여 전이되는 곳을 바꾸며 이 경우 input index 또한 다시 바뀌어야 한다(input 값을 소모시키지 않음)

간단 요약
Finite State Transducer, FSTs (변환기)

q0의 경우 input을 소비할 시 ouput으로 b가 나와야 함


Inversion : 이 부분의 경우 설명이 굉장히 간단함, 한국어 영어 변환기가 존재한다고 할 때 반대로 작동시키면 영어 한국어 변환기로 사용 가능함.
Determinisitc FSAs (=sequential transducers)
Tranducer에선 모든 non-determinstic을 deterministic으로 바꿀 수는 없음
FST는 형태소 분석에도 사용할 수 있다



해당 파트의 간단한 예시는 다음과 같음

epsilon:+N에 대해서 반응하는 경우 input은 소비하지 않고 output +N만을 출력하게 됨
이때 의문 가질 수 있는 부분이 fox + N 이 되게 되는데 이 경우 e가 사라지게 된다. 여기에 대해서 교수님 께서는 Rule base의 방법으로 Rule을 통해서 해결해야 한다고 말씀해주셨다.
FST의 간단한 요약
| [논문리뷰] 피드백 (0) | 2025.10.07 |
|---|---|
| IRCAN: Mitigating Knowledge Conflicts in LLM Generation via Identifying and Reweighting Context - Aware Neurons (0) | 2025.09.27 |
| [자연어처리] 2주차 복습 (0) | 2025.04.02 |
| [자연어 처리] 4주차 (교수님께 질문 드렸던 내용) (0) | 2025.03.28 |
| [자연어 처리] 1주차 복습 (간단히, Q & A) (0) | 2025.03.28 |