read

본 내용은 컴퓨터 비전(Computer Vision) 기본 개념부터 최신 모바일 응용 예까지을 스스로 재정리한 내용을 포함합니다.

시험범위 변경으로 정확한 시험 범위는 기계 학습부터이다.

Index

매칭
기계 학습
인식
모션
3차원 비전
장면 이해
Basics of Digital Photography

매칭

어떤 대상을 다른 것과 비교하여 같은 것인지 알아내는 과정

topic
거짓 긍정(아웃라이어)를 어떻게 배제할 것인가?
매칭 속도를 어떻게 높일 것인가?

매칭의 기초

거리 척도

유클라디안 거리
마할라 노비스 거리
공분산 행렬을 이용, 확률 분포 고려
화이트닝변환
공분산 행렬이 단위 행렬 I가 되도록 현재 벡터 x를 y로 변환
시그마 = I일 때 두 거리 유칼라디안, 마할라 노비스 거리가 같아진다.

매칭 전략과 성능 분석

매칭을 활용하는 여러 상황

파노라마 영상 제작
물체 인식 또는 증강 현실
- 모델 영상은 깨끗한 배경 위에 물체가 놓임.
- 장면 영상은 심한 혼재와 가림이 발생

ROC를 이용한 성능 분석

T를 점점 키우며 측정한 거짓 긍정률과 참 긍정률을 나타낸 그래프

ROC의 X축은 참 긍정률, Y축은 거짓 긍정률이다.

임계값 T가 낮아질 수록 거짓 부정은 커진다.
임계값 T가 커질 수록 거짓 긍정이 커진다.
ROC 그래프가 좌상단에 가까울 수록 좋은 성능을 보인다. => 참 긍정률이 높을 수록 거짓 긍정률이 낮을 수록 좋다.
AUC(ROC 그래프에서의 곡선 아래 면적)
성능을 하나의 수치로 표현할 때 사용함.
참 긍정률

TPR = TP/(TP + FN) = Recall
실제로 참인 것 중 모델이 긍정한 것의 비율 = 실제로 참인 것 중 모델도 인정한 것
거짓 긍정률

FPR = FP/(FP + TN)
실제로 거짓인 것 중 모델이 긍정한 것의 비율 = 실제로 거짓인 것 중 모델도 인정한 것

다른 매칭 전략

최근접 이웃 전략
a의 최근접 이웃 b가 d(a, b) < T를 만족할 때 매칭 성공
최근접 거리 비율 전략
좋은 성능을 보임.
- 최근접 거리 b_i와 두 번째 b_k가 d(a_i, b_i) / d(a_i, b_k) < T를 만족하면 매칭 성공
- ex) SIFT

빠른 최근접 이웃 탐색

순진한 알고리즘
모든 쌍을 전수 검사함.
=> 시간이 많이 소요됨.
특징 벡터를 미리 인덱싱해 두는 효율적인 알고리즘
데이터 마이닝, 빅테이터, 생물 정보학 등에 활용됨.
1. kd 트리
2. 위치 의존 해싱

kd 트리

두 가지 다른 점을 수용할 수 있도록 BST를 확장한 기법

이진 검색 트리(Binary Search Tree, BST)

O(logN)
매칭 문제

검색 키(특징 벡터)가 여러 개의 실수로 구성된 벡터
동일한 값을 갖는 노드를 찾는 것이 아닌, 최근접 이웃을 찾음
=> BST를 그대로 적용할 수는 없음.

kd 트리의 원리

kd 트리의 표기
- n개의 벡터를 가지고 kd 트리를 구축 X = { x_1, x_2, … , x_n}
- x_i는 d차원 벡터

루트 노드는 X를 두 개의 부분 집합 X_left, X_right로 나눔(중앙값 기준 1:1의 비율).
분할 효과를 극대화하려면 각 차원 분산 중 최댓값을 가지는 축 k를 선택해야 함.
위 과정을 반복

kd 트리에서 최근접 이웃 탐색

입력 데이터 x = (n, m)에 대하여 축을 기준으로 
n 또는 m을 비교하여 작으면 왼쪽, 
크면 오른쪽으로 분기하는 것을 반복한다.

kd 트리의 결과가 반드시 최근접 이웃인 것은 아니다.
=> 분할 평면의 건너편에 더 가까운 노드가 있을 수 있기 때문
스택을 이용하여 백트래킹한다.
단점
d = 10을 넘게 되면 순진한 알고리즘과 비슷히 낮은 속도를 보인다.
=> 시간 효율 개선 필요

근사 최근접 이웃 탐색

최적 칸 우선 탐색
- 스택 대신 우선 순위 큐인 힙을 사용함.
- 거리를 우선 순위로 사용하여 백트래킹 시 가까운 것부터 조사한다.
미리 설정한 값에 따라 조사 횟수를 제한한다.
- 근사 최근접에서 조사는 멈춰 진다.
  하지만 최적 칸 우선으로 조사 되기에 최근접을 찾을 확률이 높다.
- 시간 효율이 좋다.

해싱

해싱의 원리

해시 함수는 키 값을 해시 테이블의 주소로 변환한다.
테이블에 골고루 배치할 수록 좋은 해시 함수 => 가까운 벡터의 해시 함수가 같게 나타날 확률이 높아짐.
충돌에 대한 방안이 필요함.

매칭에 적용

일반 해싱과의 차이
- 키는 단일 값이 아닌 실수 벡터다.
- 동일한 요소가 아니라 최근접 이웃을 찾는다.
- 일반 해싱과 반대로 가까운 벡터는 같은 통에 담길 확률이 높아야 한다.
  => 가까운 벡터는 해시 함수가 같을 확률이 높아야 한다.

위치 의존 해싱

하나의 해시 함수가 아닌, 해시 함수 집합 H에서 여러개를 임의 선택하여 사용한다. 이때 해시 함수 집합 H는 난수 r, b를 설정하여 원하는 수만큼 생성할 수 있다.

H에 속한 해시 함수 h가 식을 만족하면 위치 의존적이다.
=> 가까운 벡터들의 해시 함수 값이 같을 확률이 높다.

위치 의존을 만족하는 해시 함수를 여러 개 쓴다고 하여 좋은 것은 아니다!

해시 함수 h의 동작

d차원 공간을 r에 소직인 초평면으로 분할한다.

정리

순진한 알고리즘

전수 조사로 시간이 많이 소요됨.   => 특징 벡터를 미리 인덱싱 => kd 트리, 위치 의존 해싱

이진 검색 트리(O(logN))

매칭 문제로 BST 그대로 적용할 수 없음.

=> kd 트리로 확장

d = 10보다 커질 경우 속도가 순진한 알고리즘과 비슷

=> 최적칸 우선 탐색: 힙 사용, 근사 최근접을 구해 최근접을 찾을 확률을 높임. 속도가 빠름

위치 의존 해싱

H에 속한 해시 함수 h가 식을 만족하면 위치 의존적이다. => 가까운 벡터들은 해시 함수 값이 같을 확률이 높다.
위치 의존적인 해시 함수를 여러 개 쓴다고 좋은 것은 아니다.

기하 정렬과 변환 추정

특징 벡터가 개별적으로 매칭을 수행하여 거짓 긍정(아웃 라이어)이 발생한다.
=> 기하 정렬으로 인라이어 집합을 찾고, 변환 행렬을 추정해야 함.
=> 기하 정렬: 인라이어 집합을 찾기 위함.

최소 제곱법과 강인한 추정 기법

최소 제곱법:
회귀 문제에서 직선 l까지의 거리의 오차합을
최소로 하는 직선을 찾는 방법

최소 제곱법은 거짓 긍정을 발생 시킨다!
=> 거짓 강인한 추정 기법 필요

매칭 문제로의 확장

입력은 매칭 쌍 집합을 사용, 모델은 변환 행렬을 사용한다.

강인한 추정 기법

아웃라이어의 영향력을 약화 시키는 M-추정을 사용한다.
중앙값 계산까지만 아웃라이어를 사용하는 최소 제곱 중앙값 사용한다.

RANSAC

RANSAC의 원리

무작위 샘플링한 두 점을 기준으로 회귀와 평가를 반복하며 직선을 찾아 간다.

RANSAC의 확장

매칭 쌍 집합을 사용 가능하도록 확장하여 세 개의 대응점 쌍을 임의 선택하여 회귀 평가를 반복하도록 한다.

웹과 모바일 응용

파노라마 영상 제작

파노라마 영상 제작 과정

입력
대응점 찾기
두 영상의 변환 행렬
번들 조정
이어 붙이기

파노라마 영상 제작 알고리즘

RANSAC은 이웃한 두 영상 사이의 변환을 추정한다.
4.의 번들 조정은 영상 집합 전체에 대해 변환 행렬을 미세 조정하는 단계이다.
5.의 이어 붙이기는 다중 밴드 결합 알고리즘을 사용한다.

사진 관광

사진 관광은 구조 추정 문제이다.
cf) 구조 추정 문제: 같은 장면을 여러 시점에서 찍은 영상들로부터 3차원 정보를 복원하는 것.

장면에 나타난 물체의 자세한 정보를 복원해야 한다.
카메라 시점 정보를 복원해야 한다.
사진 광광, AR 등에 적용된다.

기계 학습

기계 학습의 기초

Mitchell의 정의

어떤 컴퓨터 프로그램이 T라는 작업을 수행하고,
프로그램의 성능 P를 평가할 때
경험 E를 통해 성능이 개선되면 프로그램은 기계학습을 하고 있다.

컴퓨터 비전에서의 적용은 아래와 같다.

T = 분류(인식)
E = 학습집합
P = 인식률

지도 학습과 비지도 학습

지도 학습

학습 집합에 대하여 특징을 추출하고, 특징 공간을 학습하는 과정

학습 모델: 매개변수 집합 θ의 최적값을 찾는 것을 목표로 한다.

특징 추출 방법

영역
슬라이딩 윈도우
관심점

일반화 능력: 학습, 테스트 집합에 대한 성능이 높을 수록 일반화 능력이 높다.
cf) 과적합 시 일반화 능력은 낮아진다.

비지도 학습

유사한 특징 벡터들을 모으는 군집화를 수행한다.
군집에서 유용한 정보를 추출한다.

군집화 방법으로는 k-means, SOM, 민시프트 등이 있다.

준지도 학습

부류 정보가 있는 샘플과 없는 샘플이 혼재된 상황에서의 학습

원리

부류 정보가 있는 샘플로 학습, 부류 정보가 없는 샘플의 부류 정보를 추정한다.
추정된 정보로 학습을 반복한다.

재 샘플링을 이용한 성능 평가

학습할 데이터베이스가 작은 경우 사용한다.

k-겹 교차 검증

샘플 집합을 k개의 부분 집합으로 등분한다.
k-1개를 학습에 사용, 남은 하나를 테스트에 사용한다.
위 과정을 반복한다.

붓스트랩

훈련 집합의 샘플링과 성능 측정을 반복, 평균 성능을 구한다.

신경망

퍼셉트론

퍼셉트론의 입력은 특징 벡터이다.
x를 w1, w2 중 하나로 분류하는 이진 분류기이다.
활성화 함수로 계단 함수를 사용한다.

퍼셉트론의 한계: 퍼셉트론은 선형 분류기로, 선형 분리가 불가능한 상황에 사용할 수 없다.
=> 다층 퍼셉트론으로의 확장
XOR 분류 문제: 퍼셉트론으로는 75%의 정 인식률이 한계
=> 세 개의 퍼셉트론 층을 연결하여 해결.

다층 퍼셉트론

구조

입력층 -> 은닉층 -> 출력층
- 입력층: 특징 벡터의 차원에 따라 d개의 노드 설정
- 출력층: 부류 개수에 따라 m개의 노드 설정
- 은닉층: 노드 개수 지정

MLP(Multi Layers Perceptron)

다층 퍼셉트론을 이용한 학습

원리: 손실 함수 값을 줄이는 방향으로 θ를 수정해 간다.
=> 경사하강법

학습 시 고려 사항

가중치 초기화
학습률
종료 조건
샘플 처리 순서

깊은 학습

인식 프로그램 제작

전통적 방식

특징 추출의 세밀한 단계까지 사람이 설계 및 구현
분류기는 기계학습으로 따로 제작, 연결하여 사용

깊은 학습 방식

특징 추출과 분류를 하나의 학습 모델로 처리

CNN

전통적 방식

고정된 마스크로 컨볼루션 연산을 수행하여 특징을 추출
ex) 에지 마스크

CNN

문제에 가장 적합한 마스크를 학습으로 알아냄.

CNN의 구조

일곱 층으로 구성
c: 컨볼루션, s: 다운 샘플링, f: 활성화 함수, o: 아웃풋
1. C_1
2. S_2
3. C_3
4. S_4
5. C_5
6. F_6
7. O
  5.까지의 과정은 특징 추출의 과정, 6.과 7.은 분류를 위한 과정이다.
층의 깊어 오차 역전파 알고리즘만으로 학습이 불가하다.

SVM

직선과 데이터 포인트 사이의 최대 여백을 구하여
기존 신경망보다 우수한 일반화 성능을 보인다.

비선형 SVM으로 확장
=> 특징 공간 확장 시 선형 분리에 유리

SVM 특성

사용자가 설정해야 하는 매개변수가 적음
최적의 커널을 자동으로 찾을 수 없어 성능 실험으로 결정하여야 함.

분류기 앙상블

MLP, SVM과 같은 강한 분류기의 사용을 줄이고 약한 분류기의 사용을 늘이자

배깅, 부분 공간 방법 등으로 기초 분류기를 제작
cf) 배깅은 붓스트랩(훈련 집합의 샘플링과 성능 평가를 반복, 평균 성능을 확인)의 확장이다.

에이더 부스트

분류기 간에 연관성을 가지도록 제작함. => 배깅에 비해 정교한 재 샘플링을 수행한다.
맞춘 샘플의 가중치를 낮추고, 틀린 샘플의 가중치를 높인다.

임의 숲

분류기가 독립성(임의성)을 가지도록 제작한다.
기초 분류기로 트리 분류기를 사용한다.

임의 숲은 메타 알고리즘이다.: 임의성을 가진 트리 분류기 앙상블은 모두 임의 숲으로 볼 수 있다.

기계 학습을 이용한 얼굴 검출

얼굴 인식 시스템은 검출 -> 인식 과정을 거친다.

얼굴 검출

비올라 존스 얼굴 검출

앙상블을 이용, 전통적 접근의 반대로 접근한다.

유사 하르 특징, 직렬 분류기를 사용한다.
유사 하르 특징

네 종류의 연산자를 사용하여 검은 영역의 합에서 흰 영역의 합을 뺀다.
=> 얼굴이 아닌 샘플에 무작위 값을 주어서 얼굴과 분별한다.

분류기 앙상블

기초 분류기로 루트 노드 하나 뿐인 트리 그루터기를 사용한다.
에이더 부스트(맞춘 샘플의 가중치를 낮추고 틀린 샘플의 가중치를 높인다)를 사용하여 학습한다.

적분 영상을 이용한 속도 향상

적분 영상은 좌상단에서 현재 화소까지의 합을 의미한다. 이를 통해 블록 크기와 무관히 덧셈 세 번으로 연산이 끝이난다.

얼굴 검출 알고리즘

직렬 분류기 아이디어를 이용하여 속도를 높인다.

인식

사례 인식

특정 패턴이나 객체를 인식하는 것

전통적 방법

기하학적 접근 방법이 주류

기하 정렬

모델 구축 단계와 인식 단계로 구성된다.

모델 구축 단계: 물체 부류 별로 특징을 추출하고 빠른 인식을 위해 인덱싱하여 저장한다.
인식 단계: 입력 영상에 어떤 물체가 있는지 알아내고 자세를 나타내는 행렬을 추정한다.
물체 부류 각각에 기하정렬(RANSAC)이 성공하면 인식한 것으로 간주한다.

단어가방

정보 검색의 원리를 빌려온다.

정보 검색의 원리: 문서를 단어의 빈도 벡터로 변환

정보 검색 알고리즘

문서 간의 유사성 측정이 핵심
tf 벡터(단어 빈도 벡터)
tf-idf 벡터
- 다른 문서에 덜 나타난 단어는 가중치를 높이려는 의도
유사성 측정
- 문서에서 추출한 빈도 벡터 V_1과 V_2를 코사인 유사도로 비교
영상 인식에 적용
- SIFT나 SURF 등 지역 특징이 훌륭한 후보를 단어로 사용한다.
- 추출된 특징 벡터가 달라 사전 크기가 너무 커질 뿐 아니라 빈도를 셀 수 없어지는 문제가 있음.
  ex) (0.9, 0.2, 0.8)과 (0.9, 0.2000001, 0.8)을 다른 단어로 취급
- 해결책
  - 벡터 양자화(특징 공간을 구간으로 나누고 각 구간의 대표 벡터를 단어로 간주) 적용
    => 시각 단어화 => 정보 검색 기법 사용 가능
  - 새로운 특징 벡터 입력 시 구간에 따라 시각 단어로 매핑

범주 인식

객체를 특정 범주로 인식하고 분류 하는 것 ### 단어 가방 기계학습(분류)를 통해 범주 인식에 단어 가방을 사용

적용 사례

Csurka 2004
- 해리스 어파인 관심점과 SIFT 기술자 사용
- k-means로 벡터 양자화
- SVM 분류기 사용
Zhang 2007
- 여러 종류의 특징과 SVM의 여러 커널에 대해 성능을 비교
Opelt 2006
- 에이더 부스트

단어 가방의 한계와 극복 노력

물체의 모양은 배제한 채 외관(텍스처)만 사용하는 외관 기반이다.
=> 코렐로노그램, 피라미드 등을 활용

부품 모델

물체를 구성하는 부품과 그들의 연결 관계를 표현, 그것으로 학습과 인식 수행 #### 별자리 모델 사람의 얼굴은 '외관'과 '모양'이 일정 범위 내에 있음.   => 별자리 모델은 이를 표현 가능

별자리 모델은 변화를 일정 범위 내로 한정하여 허용함.

별자리 모델을 이용한 인식

새로운 영상이 입력되면 가정-검증 수행
특징 추출 후 여러 가정 생성
검증

외관의 표현

주로 관심점을 사용함.
부품 별로 군집 형성
군집을 가우시안으로 표현

모양의 표현

여러 부품이 일정한 위치 관계를 형성
위치 관계를 가우시안으로 표현

한계

기하급수적 계산량
지역 특징이 모든 물체에 적합하지는 않을 수 있음.

CNN

특징 추출과 분류를 동시에 학습함.

사람 인식

생체 인식

주로 여러 가지를 인식하고 결과를 결합하는 다중 모드 방식
얼굴 인식
나이 인식
성별 인식, 인종 인식
표정 인식

모션

움직이는 상황

정지 카메라와 정지 장면
정지 카메라와 동적 장면
ex) 과속 단속 카메라와 같은 cctv
동적 카메라와 정적 장면 ex) 불법 주차 단속 차량
동적 카메라와 동적 장면
ex) 자율 주행, 로봇

영상 일관성

공간 일관성

이웃 화소는 비슷할 가능성이 높다.
시간 일관성

이웃 프레임은 비슷한 가능성이 높다.

차영상

인접한 영상의 차

기준 프레임: t-1 또는 물체가 나타나기 이전의 초기 배경 영상

차영상을 이용한 움직임 추출 알고리즘

배경과 물체의 색상에 큰 변화가 없는 상황에서만 동작

모션 필드

3차원 실세계의 물체나 장면의 움직임을
2차원 속도 벡터로 표현하는 것

3차원 모션 벡터 V_3의 복원

3차원 벡터가 2차원의 동일한 벡터로 투영되어 2차원 정보로는 복원이 불가
=> 시점이 다른 여러 대의 카메라 필요

2차원 모션 벡터 추정

대부분 연구는 두 장의 이웃 영상에서 2차원 모션 벡터를 추정한다.

모션 필드 추정이 어려운 상황

구체가 회전하는 경우
광원이 이동하는 경우

광류

모션 필드의 근사 추정치
=> 3차원 정보를 2차원 속도 벡터로 표현한 것의 근사 추정치

광류 알고리즘은 모든 화소의 모션 벡터를 추정해야 함.

광류 추정의 원리

밝기 항상성: 물체의 같은 점은 다음 영상에서 같은 명암값(오차 범위 내 허용)을 가져야 한다.
광류 조건식: 그레디언트 조건식

모델은 밝기 항상성을 가져야 함.
테일러 급수에 따른 광류 조건식으로 가정을 통해 모션 벡터 유일 값을 결정한다.

광류 추정 알고리즘

Lucas-Kanade 알고리즘(LK)

가정
화소 (y, x)를 중심으로 하는 윈도우 영역 N(y, x)의 광류는 같다.

특성

이웃 영역만 보는 지역적 알고리즘(값이 분산 분포되어 있음)이다.
- 윈도우 크기가 커질 수록 큰 움직임을 알아내지만 스무딩 효과로 모션 벡터 정확성은 낮아진다.
  => 피라미드를 활용한 기법(Bouget 2000)
- 정확도: LK > HS
- 명암 변화가 적은 물체 내부에 0인 벡터가 발생한다.

Horn-Schunk 알고리즘(HS)

가정
광류는 부드러워야(균일해야) 한다.

특성

식의 값을 낮출 수록 부드럽다.
정규화 항을 사용한다.
전역적 알고리즘이다. => 밀집된 광류맵 생성

광류의 활용

광류에서 움직임 정보, 패턴을 추출하여 고급 비전에 사용한다는 점에서 광류는 중간 표현이다.

물체 추적

KLT 추적 알고리즘

Lucas-Kanade 광류 알고리즘을 개조한 물체 추적 알고리즘

특징점 검출 방법

헤시안 행렬 사용
- 행렬의 각 요소는 밝기 변화와 연관이 있다.
- 헤시안 행렬의 사용이 갖는 물리적 의미:
  밝기의 변화와 방향성을 측정하여 해당 지점이 추적 작업에 안정적인 정도를 판단할 수 있다.
큰 이동이 발생하는 상황에서 모션 벡터 추정이 약해진다.
=> 대응점 찾기 알고리즘으로 해결 => 큰 이동 추적

3차원 비전

주로 영상의 깊이를 다룬다.

본질 영상

외관과 본질

외관: 텍스처
본질: 표면 반사율, 색상

Barrow의 아이디어

명암 영상을 네 장의 본질 영상으로 분할

깊이 영상
법선 벡터 영상
반사율 영상
조명 영상

=> 추출 방법은 제안되지 않음

그림자 제거

Finalyson

컬러를 로그 공간에 매핑하면 
같은 본질을 가진 점은 직선상에 분포한다!

스테레오

두 대 이상의 카메라로 여러 영상을 획득, 분석하여 깊이 정보 파악

깊이 영상을 획득하는 방법

수동적 방법: 스테레오
능동적 방법: 장면에 어떤 무늬/파를 송수신하여 후 이를 분석하여 깊이를 측정

깊이 측정

투영 기하

깊이 확정 불가
=> 스테레오 기하로 확장

스테레오 기하

대응점만 알면 식을 통해 깊이 측정이 가능하다!

대응점 찾기 알고리즘 적용 시 두 가지 문제 발생

아웃라이어 문제 => 에피폴라 기하 => 대응점 찾기 문제 -> 변위 d 찾기 문제로 변환
희소한 문제(대응점을 충분히 찾지 못하는 것) => 변위 공간으로 해결

밀집된 깊이 영상

순진한 알고리즘(전수 조사)

모든 화소가 독립적으로 동작 => 공간 일관성을 활용하지 못함
틀린 대응점으로 인해 틀린 깊이를 갖는 화소가 발생할 수 있다.

=> _공간 일관성을 활용하기 위해 변위 공간 영상이 필요

지역 탐색 방법

공간 일관성 X

전역 탐색 방법

정규화 항 사용

능동 센서

스테레오 비전

수동적, 카메라에 들어오는 빛 정보를 수동적으로 받아들이기만 함.
능동 센서

장면에 능동적으로 무언가를 투사하여, 되돌아 오는 신호로부터 거리를 알아냄.

구조 광

원리: 스테레오에서 카메라 한 대를 프로젝터로 대치함. 이 때 프로젝터는 대응점을 찾기 쉽게 설계된 패턴을 투사
구조광이 사용하는 무늬: 모든 점을 고유한 패턴을 가지도록 하여 대응점 찾기에 용이하게 함.

키넥트

RGB, 깊이 영상을 동시에 획득

깊이 영상의 인식

사람의 자세 추정

원리

깊이 영상을 31개의 구성 요소로 분류
임의 숲 분류기로 화소 각각에 대하여 분류
구성 요소 별로 군집을 구하고 군집 대표점을 계산
대표점 집합은 다음 단계인 제스처 인식의 입력으로 사용

장면 이해

미래 컴퓨터 비전 시스템이 갖추어야 할 중요 사항

계층 구조
여러 정보 채널의 분리 처리
처리 과정이 정보를 주고 받는 피드백
고정된 처리와 학습의 균형

계산 시각: 사람의 시각 기능을 정보 처리 관점으로 바라보는 학문

선택적 주의 집중

영상에서 관심이 가는 특정 부분을 집중하여 살피는 현상

사람의 선택적 주의 집중: 단 속성 운동과 고착 현상으로 나타남.

현저성 맵을 이용하여 구현

문맥

컴퓨터 비전에서 문맥을 이용하려면 지식 표현과 추론이 해결되어야 함

공간 문맥: 물체가 나타날 위치를 확률 분포로 표현
=> 한계 존재

영상 파싱

언어 처리에서 파싱: 문장을 구성 요소로 나눈 뒤, 의미와 상호 관계를 표현
문장 -> 영상 => 영상 파싱

Basics of Digital Photography

Exposure

두 개의 파라미터가 존재

Aperture

조리개를 얼마나 열 것이냐
Shutter speed

셔터 스피드

셔터 스피드가 낮을 수록 빛이 더 많이 들어오지만, 모션 블러도 커짐 셔터 스피드가 커질 수록 움직임이 정지됨.

셔터 스피드 및 초점 거리(Focal Length)

망원에는 더 빠른 셔터 스피드를 요구함.
Rule of thumb

사람이 손으로 선명한 사진을 찍을 수 있는 셔터 스피드는 1/f임.
=> 이미지 안정화: 진동을 기계적으로 보상

Depth of Field

조리개에 의존
초점 거리에 의존
센서 크기에 의존

Focus and Defocus

물체에는 초점이 맞는 특정 거리가 존재함.

다른 지점들은 이미지에서 ‘circle of confusion’으로 투영됨.

초점 거리를 바꿀 수 있을까?

시야각

광각일 수록 왜곡이 발생

tilt-shift lens: pespective에 대한 고급 제어 가능

ISO

: 필름의 감도를 의미하는 용어

노출	—	—>
조리개	high	low
셔터속도	low	high
ISO	low	high

Summary of ISO

고감도

빛이 적은 상황에서도 플래시 없이 촬영 가능
노이즈 발생으로 화질이 떨어짐
플래시 사용이 불가한 실내 사진에 적합

저감도

빛이 부족한 환경에서 노출 부족
선명함
야외 촬영이나 대형 인화용에 적합

White Balance

컬러의 세 가지 요소

광원
물체
비주얼 시스템(카메라나 인간 시각 등)
모든 광원에는 고유한 스펙트럼이 존재
=> 같은 물체여도 광원에 따라 다른 이미지가 생성

Summary of White Balancing

흰색을 흰색으로 인식시키는 작업(인간 시각에 흰색은 흰색으로 보이는 것과 별개)

실내 촬영의 경우 문제가 발생
Gray card가 가장 정확함.

색 온도

화이트 밸런싱 균형을 맞춤
이미지의 전체적인 톤 조정

색 온도의 특성

광원

푸른색: 색 온도가 높음
붉은색: 색 온도가 높음

카메라의 색 온도

실제 색 온도보다 높게 설정: 붉어짐.
실제 색 온도보다 낮게 설정: 푸르러 짐.

Summary of Color Temperature

화이트 밸런싱 설정에 사용 가능

미세 설정 가능

사진의 느낌을 바꾸는데 사용

실제 색 온도보다 높게 설정: 붉어짐
실제 색 온도보다 낮게 설정: 푸르러 짐.

Other issues

렌즈 회절
보라색 프린지
방사형 왜곡
플레어
비네팅

Profile

Seong Hun KIM

Student
Dept. of Computer Science Engineering | Yeungnam University, Repulic of Korea

Phone 010 - 6685 - 1140
Mail tgh7544@naver.com
LinkTree https://linktr.ee/HoonC_corgi

[전공 내용] 컴퓨터 비전 응용 기말 범위 타이핑

HoonC-corgi

매칭

매칭의 기초

거리 척도

매칭 전략과 성능 분석

매칭을 활용하는 여러 상황

ROC를 이용한 성능 분석

다른 매칭 전략

빠른 최근접 이웃 탐색

kd 트리

이진 검색 트리(Binary Search Tree, BST)

kd 트리의 원리

kd 트리에서 최근접 이웃 탐색

근사 최근접 이웃 탐색

해싱

해싱의 원리

매칭에 적용

위치 의존 해싱

해시 함수 h의 동작

정리

순진한 알고리즘

이진 검색 트리(O(logN))

위치 의존 해싱

기하 정렬과 변환 추정

최소 제곱법과 강인한 추정 기법

매칭 문제로의 확장

강인한 추정 기법

RANSAC

RANSAC의 원리

RANSAC의 확장

웹과 모바일 응용

파노라마 영상 제작

파노라마 영상 제작 과정

파노라마 영상 제작 알고리즘

사진 관광

기계 학습

기계 학습의 기초

Mitchell의 정의

지도 학습과 비지도 학습

지도 학습

비지도 학습

준지도 학습

재 샘플링을 이용한 성능 평가

k-겹 교차 검증

붓스트랩

신경망

퍼셉트론

다층 퍼셉트론

MLP(Multi Layers Perceptron)

깊은 학습

인식 프로그램 제작

CNN

SVM

분류기 앙상블

에이더 부스트

임의 숲

기계 학습을 이용한 얼굴 검출

얼굴 검출

비올라 존스 얼굴 검출

분류기 앙상블

적분 영상을 이용한 속도 향상

얼굴 검출 알고리즘

인식

사례 인식

기하 정렬

단어가방

범주 인식

단어 가방의 한계와 극복 노력

부품 모델

CNN

사람 인식

모션

움직이는 상황

영상 일관성

차영상

모션 필드

3차원 모션 벡터 V_3의 복원

2차원 모션 벡터 추정

모션 필드 추정이 어려운 상황