read

Index


논문 리뷰를 시작하며

연구실에서 진행하는 논문 세미나를 위한 논문 지정을 위해 여러 논문의 Abstract를 훑어 보던 시기에 교수님과의 면담에서 하나의 논문을 읽더라도 제대로 읽어 보고 이해할 필요가 있다는 조언에 따라 훑어 보았던 여러 논문 중 가장 관심이 갔던 논문을 처음부터 읽어 보았다.
이제부터는 단순히 논문 세미나 준비를 위한 읽기가 아닌, 올해 목표인 국내 논문 투고를 성취하기 위해서 연구 주제 선정을 위한 연구 동향을 파악, 인사이트를 얻는 것에 집중할 시기이기 때문이다.
아직 어떠한 주제로 접근해야 할지, 내가 주로 어떤 분야로 연구를 할지 정하지는 못했지만, 가장 끌리는 것은 IEEE 802.11의 표준 연구, 비디오 스트리밍이며, 오늘의 논문은 스트리밍과 관련된 논문이다.

An LSTM-based Approach for Overall Quality Prediction in HTTP Adaptive Streaming - Huyen T. T. Tran, Duc V. Nguyen, Duong D. Nguyen, Nam Pham Ngoc and Truong Cong Thang (IEEE INFOCOM WKSHPS • April 2019)

본 게시글은 위 논문을 스스로 번역, 재정리한 내용을 포함합니다.


한글 번역 및 코멘트

Abstract

HAS (HTTP Adaptive Streaming) 은 최근의 멀티미디어 전송을 위한 일반적인 솔루션이다.

일반적으로 HAS에서는 각 스트리밍 세션에서의 비디오 품질이 변동한다.

따라서 HAS에서의 핵심적인 질문은 스트리밍 세션에서의 전반적인 품질을 어떻게 평가할 것인지이다.

본 논문에서는 HAS에서 전반적인 품질 예측을 위한 머신러닝 접근법을 제안한다.

제안된 접근법에서 각 세그먼트는 segment quality, stalling durations, content characteristics과 padding 의 네 가지 features로 표현된다.

특징들은 LSTM 네트워크에 입력되어 세그먼트 간의 시간적인 관계를 발견할 수 있도록 한다.

스트리밍 세션의 전반적인 품질은 선형회귀 모듈을 사용하는 LSTM 네트워크의 출력으로부터 예측된다.

실험적 결과들은 제안된 접근법이 스트리밍 세션의 전반적인 품질 예측에 효과적임을 보인다.

또한 본 방식은 기존의 네 가지 접근 방식을 능가하는 것으로 나타났다.


Notes

  • HAS (HTTP Adaptive Streaming)
    • 비디오 컨텐츠를 상이한 품질을 가지는 (상이한 비트레이트로 인코딩된) 여러 개의 작은 세그먼트로 분할함.
    • 각 세그먼트들은 HTTP 서버에 저장되며, 클라이언트는 네트워크 상태에 따라 적절한 품질의 세그먼트를 선택하여 다운로드함.
    • 이때 각 세그먼트의 URL, 길이, 비트레이트, 해상도 등의 정보들은 매니페스트 파일에 저장되며, 이를 읽고 네트워크 상태에 맞게 선택하여 독립적으로 다운하는 방식임.
    • 이외에도 고정된 품질의 비디오 컨텐츠를 HTTP 서버에서 다운로드 하는 PD(Progressive Download), UDP를 사용하고 실시간 스트리밍에 적합한 RTSP (Real-Time Streaming Protocol)와 RTP (Real-time Transport Protocol)가 있음.
  • HAS에서는 각 스트리밍 세션 내에서도 비디오 품질 변동이 발생, 따라서 세션의 전반적인 품질을 평가할 방법이 중요한 포인트임.
  • LSTM을 활용하여 세그먼트 간의 시간적인 관계를 발견하고자 함.
    • LSTM의 입력: segment quality, stalling durations, content characteristics, padding
    • LSTM의 출력: 스트리밍 세션의 전반적인 품질
  • HAS는 네트워크 상태에 따라 적응형으로 세그먼트를 선택하는 것인데, 스트리밍 세션의 전반적인 품질을 예측한다는 것이 네트워크 상태 평가와 같은 것인지?
    • 두 개가 상이하다면, 스트리밍 세션의 전반적인 품질을 예측해서 무엇을 하겠다는 것인지? 세그먼트 구조 조정?
  • 여러 모델 중 LSTM을 사용한 이유는 무엇인지?
  • LSTM 입력 파라미터 각각의 근거는 무엇인지?

Introduction

HAS는 현재 멀티미디어 전송을 위한 비용에 효율적인 수단이 되었다.

HAS에서는 비디오가 먼저 상이한 품질 수준의 여러 버전으로 인코딩된다.

각 버전은 다시 짧은 세그먼트 시퀀스로 나누어진다.

네트워크 상태에 따라 적절한 버전의 세그먼트가 선택된다.

네트워크 대역폭의 변동으로 인해 선택된 세그먼트의 버전은 스트리밍 세션 동안 크게 달라질 수 있으며, 이는 품질 변동을 야기할 수 있다.

또한, 세그먼트가 재생 기한 (playback deadline) 전에 클라이언트에 도착하지 않으면 중단 (stalling) 현상이 발생할 수 있다.

품질 변동과 stalling 현상은 사용자의 시청 경험에 부정적인 영향을 미치는 것으로 알려져 있다.

따라서, HAS의 주요 과제는 이러한 요소들의 영향을 고려하여 스트리밍 세션의 전반적인 품질을 평가하는 방법을 찾는 것이다.

기존의 전반적인 스트리밍 세션 품질을 예측하는 방법들 대부분은 분석 모델 기반의 접근법으로, 이 접근법에서는 품질에 영향을 미치는 요인들을 일부 통계치 (segment quality 값의 평균 및 stalling duration의 평균)의 분석 함수 (e.g., 선형 함수)를 사용하여 모델링한다.

이러한 접근법들 중에서, 품질 변동과 stalling 현상의 영향을 모두 고려하는 경우는 극히 일부에 불과하다.

[9]의 연구는 전반적인 품질 예측을 위한 고급 머신러닝 접근법을 제안한 첫 번째 연구이다.

이 접근법에서는 random neural network가 사용되었다.

네트워크 입력으로는 모든 비디오 프레임의 모든 매크로 블록에 대한 양자화 파라미터의 평균, stalling의 발생 횟수, stalling duration의 평균 및 최댓값이 포함된다.

이 접근법은 16초 동안 118개의 스트리밍 세션을 사용하여 평가되었다.

[10]의 저자들은 Support Vector Regression을 사용하는 고급 머신러닝 접근법을 제안하였다.

이 접근법의 입력으로는 segment quality 값의 평균, segment quality가 감소한 시간, 마지막 손상 이벤트 (i.e., stalling 또는 segment quality 감소) 이후의 시간, stalling 발생 수와 duration의 합을 포함한다.

이 접근 법은 약 72초 동안의 112개의 세션을 사용하여 평가되었다. 또한 [9], [10] 두 연구 모두 비디오 컨텐츠 특성의 영향을 고려하지 않았다는 점에 유의해야 한다.

이 연구에서 우리는 HAS 세션의 전반적인 품질을 예측하기 위한 새로운 고급 머신러닝 접근법을 제안한다. 제안된 접근법에서는 LSTM Network를 사용한다. 그 이유는 두 가지이다.

첫째, LSTM은 메모리를 사용하여 비디오 세그먼트 간의 시간적 관계를 활용할 수 있기 때문이다.

둘째, LSTM 네트워크는 video summarization과 video action recognition과 같은 다양한 비디오 관련 작업에서 성공적으로 사용된 바 있다.

본 연구에서의 주요 기여는 다음과 같이 요약된다.

첫째, 우리는 HAS 세션의 전반적인 품질을 예측하기 위해 LSTM 네트워크를 사용하는 새로운 고급 머신러닝 접근법을 제안한다.
제안된 접근법은 품질 변동, stalling 이벤트, 컨텐츠 특성의 영향을 고려한다. 우리가 아는 한, HAS의 전반적인 품질 예측에 LSTM 네트워크를 사용하는 것은 본 연구가 처음이다.

둘째, 제안된 접근법은 60초에서 76초 사이의 세션 길이를 가진 515개의 세션으로 구성된 데이터셋을 사용하여 평가하였다.
실험 결과, 제안된 접근법이 높은 예측 성능을 달성하였으며, 기존의 네 가지 접근법보다 우수한 성과를 보였다.


Notes

  • HAS는 여러 품질을 가지는 버전으로 인코딩되며, 각 버전은 다시 짧은 세그먼트 시퀀스로 나누어 짐. 이후 네트워크 상태에 따라 적절한 버전의 세그먼트를 선택함.
    • 이렇게 대역폭의 변동으로 인해 선택된 세그먼트 버전은 스트리밍 세션 동안 크게 변화할 수 있으며, 이는 품질 변동을 야기할 수 있음.
    • 또한 세그먼트가 playback deadline 전에 도착하지 못할 경우 stalling 현상 발생할 수 있음.
  • 기존의 스트리밍 세션 품질 예측 방법
    • segment quality 값의 평균 및 stalling duration의 평균 등의 일부 통계치를 선형 함수와 같은 분석 함수에 넣어 모델링하는 분석 모델 기반의 방식임.
      => 품질 변동과 stalling 현상이 미치는 영향을 모두 고려하는 연구가 부족함.

Motivation

  • 고급 머신러닝 접근법을 제안한 연구들
    • random neural network를 사용한 연구
      • 입력: 모든 비디오 프레임의 모든 매크로 블록에 대한 양자화 파라미터의 평균, stalling 발생 횟수와 duration의 평균 및 최댓값
    • SVR (Support Vector Regression)을 사용한 연구
      • 입력: 스트리밍 동안의 segment quality 값의 평균, 품질 감소가 발생한 시간, 마지막으로 발생한 품질 저하/stalling 이후 경과된 시간, stalling 횟수 및 duration의 합

    => 두 연구 모두 video content characteristics (움직임, 장면 복잡도, 트랜지션 등등)의 영향을 고려하지 않았다는 한계가 있음.

  • LSTM을 사용한 전반적인 품질 예측 접근법 제안
    • LSTM을 사용한 근거
      1. 비디오 세그먼트는 시간적 순서에 따라 재생되기 때문에 시계열 데이터 처리에 강한 순환신경망의 장점을 활용하여 시간적 과녜를 학습, 비디오 스트리밍 세션의 품질 변동을 보다 정확히 예측할 수 있다.
      2. 실제로 LSTM은 이미 video summarization과 video action recognition과 같은 비디오 관련 작업에서 성공적으로 사용된 바 있다. 즉, 1.의 근거를 뒷받침할 수 있다.
    • 주요 기여
      • LSTM을 HAS의 전반적인 품질 예측에 사용한 최초의 연구
        • 순환신경망으로 처리한다는 점에서 기존 연구에 비해 더 정교한 예측을 가능하도록 함.
      • 품질 변동, stalling 이벤트, 컨텐츠 특성을 모두 고려하는 접근 방식
      • 실험 결과에서 기존의 네 가지 접근법에 대하여 우수한 결과 도출
  • 실험 환경을 60초에서 76초 사이의 세션 길이를 가진 515개의 세션으로 구성한 것이 어떠한 시나리오를 대변하는지에 대한 분석 필요할듯.
  • 기존 네 가지 접근법과 같은 환경에서 비교한 것이 맞는지 따져볼 것.

Proposed Approach

이 섹션에서는 먼저 제안된 접근법의 아키텍처를 제시한다. 이후 다음 네 가지 segment features에 대해 자세히 설명한다.

A. Architecture

Figure 1은 제안된 접근법의 아키텍처를 보여준다. 특히, 각 스트리밍 세션은 일련의 세그먼트로 간주된다. 각 세그먼트는 일련의 특징들로 구성된다. 이러한 특징들은 LSTM 네트워크에 입력으로 제공된다.

LSTM 네트워크의 출력은 선형 회귀 모듈을 통해 전체 스트리밍 세션의 품질을 예측하는 데 사용된다.

볼드체 대문자 (e.g., X), 볼드체 소문자 (e.g., x), 이탤릭체 문자 (e.g., X)는 각각 행렬, 벡터, 스칼라를 나타낸다. _T_는 스트리밍 세션에서의 세그먼트 수를 나타낸다.

X_t = [ x^1_t x^2_t … x^M_t ]

세그먼트 𝑡 (1 ≤ 𝑡 ≤ 𝑇)의 특징 벡터를 x_t라고 하며, _M_은 세그먼트당 특징의 수다. 각 벡터 x_t는 Figure 2에 나타난 바와 같이 LSTM 유닛을 통해 은닉 상태 h_t와 연결된다. 특히 은닉 상태 h_t는 다음 방정식을 사용하여 계산된다.

i_t = sigm(W_{ix} * x_t + V_{ih} * h_{t-1} + b_i),    (2)   
f_t = sigm(W_{fx} * x_t + V_{fh} * h_{t-1} + b_f),    (3)  
o_t = sigm(W_{ox} * x_t + V_{oh} * h_{t-1} + b_o),    (4)  
g_t = tanh(W_{gx} * x_t + V_{gh} * h_{t-1} + b_g),    (5)  
c_t = f_t ⊙ c_{t-1} + i_t ⊙ g_t,                      (6)  
h_t = o_t ⊙ tanh(c_t),                                (7)

이때 ⊙는 요소별 곱셈을 나타내며, W ∈ ℝ^{d×M}, V ∈ ℝ^{d×d}, b ∈ ℝ^d의 매개변수들은 학습 과정에서 학습되고, LSTM 유닛 전체에서 공유된다.

i_t, f_t, o_t, c_t는 각각 입력 게이트, 망각 게이트, 출력 게이트, 메모리 셀의 출력 벡터를 나타낸다.

이들은 LSTM 유닛이 세그먼트 간의 시간적 관계를 활용할수 있도록 하는 중요한 구성 요소이다.

특히, 입력 게이트는 현재 입력에서 새로운 정보를 메모리 셀에 추가할지 여부를 결정한다.

망각 게이트는 메모리 셀에서 오래된 정보를 선택하고 제거하며, 출력 게이트는 메모리 셀에서 유용한 정보를 선택하여 은닉 상태 h_t를 업데이트한다.

선형 회귀 모듈에서 세션의 전반적인 품질 Q는 마지막 세그먼트에 해당하는 숨겨진 상태 h_ T 로부터 다음과 같이 예측된다.

Q = w_r * h_T + b_r

여기서 w_r과 b_r도 학습되어야 하는 매개변수이다.


Notes

  • 제안된 접근법의 구조와 동작
    • 스트리밍 세션의 세그먼트화
      제안된 접근법에서는 각 스트리밍 세션을 여러 개의 세그먼트로 나누어 처리함. 각 세그먼트는 해당 segment quality, stalling duration, 컨텐츠 특성 등의 특징들로 표현됨.
    • LSTM 네트워크의 역할
      세그먼트의 특징들은 LSTM이 입력으로 사용됨. LSTM은 특징들을 통해 세그먼트 간의 시간적 관계를 학습하여, 스트리밍 세션 전반의 품질을 예측하는 데 필요한 정보를 추출함.
      • 선형 회귀 모듈
        LSTM 네트워크의 출력은 선형 회귀 모듈로 전달되어 최종적으로 전체 스트리밍 세션의 품질을 예측함. 선형 회귀는 LSTM의 출력 값들을 조합하여 최종적인 품질 점수를 계산함.
    • 표기
      • X: 행렬
      • x: 벡터
      • X: 스칼라
      • T: 스트리밍 세션에서의 세그먼트 수
      • ⊙: 요소별 곱셈
    • LSTM 학습 방정식
      • W ∈ ℝ^{d×M}: 입력에서의 가중치 (i.e., x_t)
      • V ∈ ℝ^{d×d}: 이전 은닉 상태에서의 가중치 (i.e., h_(t-1))
      • b ∈ ℝ^d: bias 벡터
    • 각 게이트의 역할
      • 입력 게이트 (Input Gate): 현재 입력에서 새로운 정보를 메모리 셀에 추가할지 여부를 결정함.
        1. xt, h(t-1)를 사용하여 W, V의 가중치 행렬과 곱한 후, 편향 b_i를 더함.
        2. 이에 sigmoid 적용하여 i _t를 계산함. 이는 메모리 셀에 입력될 새로운 정보의 양을 결정함.
        3. 이는 1.의 과정에 tanh를 적용한 g_t와 곱하여 메모리 셀에 추가될 정보를 정하게 됨.

      • 망각 게이트 (Forget Gate): 메모리 셀에서 오래된 정보를 선택 및 제거함.
        1. xt, h(t-1)를 사용하여 W, V의 가중치 행렬과 곱한 후, 편향 b_f를 더함.
        2. 이에 sigmoid 적용하여 f t를 계산함. 이는 메모리 셀의 이전 상태인 c(t-1) 중에서 어느 정도의 정보를 forget할 것인지 결정함.
        3. f t와 _c _(t-1)가 곱해져 메모리 셀의 상태가 갱신됨.


      • 출력 게이트 (Ouput Gate): 메모리 셀에서 유용한 정보를 선택하여 은닉 상태를 업데이트 함.
        1. xt, h(t-1)를 사용하여 W, V의 가중치 행렬과 곱한 후, 편향 b_o를 더함.
        2. 이에 sigmoid 적용하여 o _t를 계산함.
        3. 메모리 셀 c t가 tanh를 통해 변환하고, _o _t와 곱하여 최종적으로 h_t를 결정됨.


      • 메모리 셀 (Memory Cell): 이전 시점의 주요 정보를 유지하고, 현재 입력에서의 정보와 통합하여 시퀀스 데이터 간의 시간적 의존성을 관리함.
        1. c t는 _c (t-1)와 _f t의 곱과 _i t와 _g _t의 곱을 더한 값으로, 이를 통해 메모리 셀 정보가 갱신됨.
        2. 이후 출력 게이트의 o _t와 곱하여 은닉 상태 h_t로 변환, 다음 타임스텝으로 전달됨.
    • Architecture Work Flow
      • 첫 시점부터 T 시점까지의 각 비디오 Segment features가 각각 LSTM unit에 연결되어 특징벡터로서 각 게이트에 사용됨.
      • 최종 시점 T의 은닉상태는 선형 회귀 모듈에 연결되어 가중치와 바이어스와의 연산을 거쳐 Quality 값을 출력하게 됨.
    • 전체 스트리밍 세션의 품질 예측 과정
      • 선형 회귀 모듈
        • LSTM 네트워크의 출력인 마지막 은닉 상태 hT를 기반으로, 전반적인 세션의 품질 _Q 를 예측하는 과정에 선형 회귀 모듈이 사용됨.
          Q = w _r * h _T + b_r
          w _r은 가중치 벡터, b_r은 바이어스 값이며, 학습 과정 동안 최적화 됨.
          최종적으로 수식에 네트워크의 출력 h _T를 입력으로 하여, 세션의 품질 점수 _Q_를 예측함.

B. Segment Features

이 부분에서는 제안된 접근법에 사용된 네 가지 세그먼트의 기능, 즉 segment quality, stalling durations, content characteristics, padding에 대하여 설명한다.

1) Segment Quality
Segment quality feature는 비디오 세그먼트의 가시적인 품질을 나타낸다.
본 연구에서는 bitrate(BR), Peak Signal-to-Noise Ratio(PSNT), Segment-MOS(S-MOS) [15] - [17] 세 가지 메트릭 중 하나를 사용하여 quality feature를 나타낸다.

2) Stalling Durations
세그먼트의 stalling duration feature (이하 SD)는 이전 세그먼트의 재생이 끝난 후 해당 세그먼트의 재생이 시작될 때까지 사용자가 기다려야 하는 시간을 나타낸다.
만약 해당 세그먼트가 이전 세그먼트의 재생이 끝나기 전(즉, playback deadline 전에) 클라이언트에 도착하면 SD는 0으로 설정된다. 그렇지 않으면 stalling 현상이 발생하며 SD는 양수 값이 된다.

3) Content Characteristics 세션의 전체 품질은 비디오 컨텐츠의 특성에 영향을 받을 수 있다는 것이 잘 알려져 있다. [18]
[18]과 유사하게, 제안된 접근법에서는 컨텐츠 특성 특징의 두 가지 차원인 spatial complexity, temporal complexity를 고려한다.
세그먼트의 spatial complexity를 나타내기 위해, [18]에서 사용된 Spatial Variance (SV) 지표를 사용한다.

이는 MPEG-7 엣지 히스토그램 descriptor를 기반으로 계산된다. 구체적으로, 각 프레임은 먼저 4x4 서브 블록으로 나누어지고, 그런 다음 모든 서브 블록에 대해 5가지 엣지 유형 (수직, 수평, 45도, 135도, 비방향)의 히스토그램이 계산된다 [19].

S {qp}는 프레임 q의 모든 서브 블록에 대한 엣지 유형 p의 평균 히스토그램 값을 나타낸다.

마지막으로, SV 값은 각 프레임의 _S
_{qp}을 모두 더한 후, 프레임 수 _Q_와 엣지 유형의 수 _P_의 수로 나누어 전체 세그먼트의 temporal complexity를 계산한다.

세그먼트의 temporal complexity는 해당 세그먼트의 모션 벡터로부터 계산된 두 가지 지표, 모션 벡터 크기의 평균 (이하 MMM)표준 편차 (이하 SMM)으로 표현된다.

4) Padding
실제로 스트리밍 세션은 보통 서로 다른 길이 (i.e., 세그먼트의 수)를 가지게 된다. 본 연구에서는 모든 세션이 동일한 길이를 가지도록 하기 위해 zero-padding을 사용한다.

특히, 각 세션의 시작 부분에 일부 세그먼트 (패딩된 세그먼트라 함)가 추가되어, 해당 세션의 길이가 가장 긴 세션의 길이와 같아지도록 한다.

모든 패딩된 세그먼트의 경우, 세그먼트 quality, stalling duration, content characteristics로 구성된 특징 값이 0으로 설정된다.

패딩된 세그먼트와 실제 세그먼트를 구별하기 위해 불린 변수 PS를 PS(t) = 1: 패딩된 세그먼트으로 정의한다.

Figure 3은 스트리밍 세션에서 정규화된 세그먼트 feature 값의 예를 보인다.
Figure 3에서 볼 수 있듯, 세그먼트 quality 즉, BR 지표는 세션 동안 크게 변동한다.
또한 아홉 번째 세그먼트에서 SD > 0인 Stalling event가 발생한 것을 볼 수 있다.
content characteristics과 관련하여 spatial complexity에는 큰 변동이 없지만, temporal complexity가 급격히 변동한다.
PS 값은 첫 네 개의 세그먼트가 패딩된 세그먼트이고, 나머지는 실제 세그먼트임을 나타낸다.


Notes

1) Segment Quality

  • Bitrate (BR)
    단위 시간 당 전송되는 데이터 양으로, 품질과 요구 대역폭량은 bitrate와 비례한다.
  • Peak Signal-to-Noise Ratio (PSNR)
    가질 수 있는 최대 전력에 대한 신호 대비 잡음의 비율으로, 높을 수록 고품질을 나타냄. 주로, 원본 이미지와 압축 이미지 간 품질 측정에 사용됨.
  • Segment-MOS (S-MOS)
    사용자의 주관적 평가를 바탕으로 한 비디오 품질 지표로, 여러 사용자의 평가 점수 평균을 사용한다.

세 가지 메트릭 중 하나를 사용하여 quality feature를 사용한다는데, 시나리오에 따라 다르게 사용하는지 이어질 내용을 봐야할 것.

2) Stalling Durations
특정 세그먼트의 재생 시작까지 기다려야 하는 시간을 의미함. 즉, 이전 세그먼트가 끝난 후 새 세그먼트가 재생되기까지의 대기 시간을 의미함.

  • Playback Deadline
    특정 세그먼트가 재생되기 전에 해당 세그먼트가 클라이언트에 도착해야 하는 시간의 기한을 의미함. 즉, 재생 중인 세그먼트가 끝나기 전에 다음 세그먼트가 반드시 클라이언트에 도착해 있어야 하므로, t-1 시점의 세그먼트의 길이로 설정됨.
    t-1 시점의 세그먼트의 재생이 끝난 후 t 시점의 세그먼트가 클라이언트에 도착할 때 Stalling이 발생하며, Stalling Duration은 양수가 됨. (Playback Deadline 전에 도착한 경우 0)

3) Content Characteristics

  • Spatial Complexity
    비디오 프레임 내에서 시각적 디테일이나 복잡한 장면의 정도를 나타냄. e.g., 많은 세부 정보와 복잡한 패턴이 포함된 장면은 Spatial Complexity가 높음.
    Spatial Complexity가 높으면, 비디오 인코딩에 더 많은 데이터가 필요하며, 스트리밍 품질에 영향을 미칠 수 있음. 낮은 BR과 함께일 때 품질 저하가 더 큼.

    • Spatial Variance (SV)
      비디오 프레임에서 시각적 복잡도를 나타내는 지표로, MPEG-7 표준의 엣지 히스토그램 descriptor를 활용하여 계산됨.
    • 계산 과정 1) 프레임 분할
      비디오 프레임을 4x4 서브 블록으로 나눔. 프레임을 작은 블록으로 분해하여 세부적으로 분석하기 위함. 2) 엣지 히스토그램 계산
      각 서브 블록에 대하여 수직, 수평, 45도, 136도, 비방향 (e.g., 랜덤 패턴, 텍스처, etc.) 5가지 엣지 유형의 히스토그램을 계산함.
      엣지 히스토그램은 해당 방향으로 얼마나 많은 에지가 존재하는지를 측정함. 3) 평균 히스토그램 값 S {qp}
      각 프레임 q에서 모든 서브 블록에 대해 엣지 유형 p의 평균 히스토그램 값을 계산함. 4) 각 프레임의 _S
      _{qp}을 모두 더한 후, 프레임 수 _Q_와 엣지 유형의 수 _P_의 수로 나누어 전체 세그먼트의 temporal complexity를 계산함.
      SV = 1/(Q * P) * (각 프레임 별 S _{qp} 총합)
    • SV 값의 사용
      계산된 평균 히스토그램 값을 바탕으로, 세그먼트의 공간적 복잡도를 나타내는 최종 SV 값이 도출됨.
      이는 비디오 세그먼트의 spatial complexity를 정량적으로 평가하는 데 사용됨.
  • Temporal Complexity
    비디오에서 시간에 따라 변화하는 움직임이나 전환의 정도를 나타냄. e.g., 빠르게 움직이는 객체나 트랜지션이 잦은 비디오는 Temporal Complexity가 높음.
    Temporal Complexity가 높으면, 비디오 인코딩 시 더 많은 BR을 요구하며, 네트워크 대역폭 요구 사항이 증가할 수 있어 Stalling event, 품질 저하를 발생시킬 수 있음.

    • 모션 벡터 연속된 두 프레임 사이에서 픽셀이 어떻게 이동했는지를 나타내는 벡터로, 비디오에서 temporal complexity를 측정하기 위해 사용됨.
      • 지표
        • MMM (Mean Magnitude of Motion vectors)
          모션 벡터 크기의 평균으로, 모션 벡터의 크기가 클수록 프레임 간 움직이 큼을 의미함.
        • SMM (Standard Deviation of Motion vectors)
          모션 벡터 크기의 표준 편차로, 표준 편차가 클수록 프레임 간 변동성이 큼을 의미함.

4) Padding
스트리밍 세션마다 길이 즉, 세션의 세그먼트 수가 다를 수 있음. 따라서 가장 긴 세션에 맞추어 패딩이 필요하며, 0으로 채우는 Zero-padding을 사용함.
이때, 패딩된 세그먼트의 특징 값은 모두 0으로 설정됨.

Figure 3 분석

  • Segment Quality (i.e., BR) 세션 동안 큰 변동이 있음을 확인할 수 있음. 스트리밍 도중 네트워크 상태에 따라 bitrate가 달라진 것으로 보임.

  • Stalling Duration (SD)
    9번째 세그먼트에서 SD가 0이 아닌 값이 된 것을 보아, 아홉 번째 세그먼트가 playback deadline을 초과하여 클라이언트에 도착함으로 인해 재생이 일시적으로 중단되었을 것임을 알 수 있음.

  • Content Characteristic
    • Spatial Complexity (SV)
      세션 동안 SV가 크게 변동하지 않고 일정 수준으로 유지되는 것으로 보아, 시각적인 요소나 패턴이 일정하게 나타날 것으로 예상할 수 있음.
    • Temporal Complexity (MMM, SMM) 그래프에서 MMM과 SMM이 급격히 변동하는 것으로 보아, 비디오 내에 움직임 변화가 크거나, 트랜지션이 잦게 발생하고 있음을 예상할 수 있음.
  • Padded Segment (PS)
    • PS 값이 1인 첫 네 개의 세그먼트는 패딩된 세그먼트이며, 나머지 세그먼트는 실제 비디오 데이터와 feature를 포함하는 세그먼트일 것임. 따라서 네 번째 세그먼트까지는 그래프 값이 나타나지 않음.

Evaluation

본 섹션에서는 우선 제안하는 접근법의 예측 성능 평가를 위한 실험 환경을 명세한다.
다음으로, 제안된 접근법에서 각 segment feature들의 역할에 대하여 이야기한다.
마지막으로 기존의 네 가지 접근법과 성능을 비교한다.

A. Experiment Settings

1) Dataset

학습 데이터 부족 문제를 해결하기 위해, 본 연구에서 사용된 데이터셋은 세 개의 데이터셋을 결합하여 구성되었다.
두 개의 데이터 셋은 [5], [15]의 이전 연구에서 가져온 것이며, 나머지 데이터셋은 주관적 테스트를 통해 새롭게 생성되었다.
주관적 테스트에서는 총 144개의 세션이 평가되었으며, 이 세션들은 [5], [15]에서 사용된 비디오와 다른 두 개의 비디오로부터 생성되었다.

특히, 각 비디오는 72개의 세션을 생성하는 데 사용되었으며, 이 세션들은 수작업으로 만든 42개의 세션과 30개의 실제 스트리밍 세션으로 구성되었다.
수작업으로 만든 세션은 다음과 같은 패턴으로 생성되었다.
세션 동안 세그먼트의 버전이 고정된 상태로 품질 변동이 없고, stalling event가 없는 5가지 패턴,
10초 주기의 주기적인 품질 변동이 있고, stalling event가 없는 10가지 패턴,
0.25, 0.5, 1, 2, 3, 4초의 지속 시간을 가진 1회에서 6회의 stalling event를 포함하며 품질 변동이 없는 27가지 패턴,
30개의 실제 스트리밍 세션은 [20], [21]의 두 가지 적응형 방법을 사용하여 모바일 네트워크의 대역폭 추적 자료 [22]를 이용한 스트리밍 테스트베드에서 실행하여 생성되었다.
실제 스트리밍 세션은 품질 변동과 stalling event를 모두 포함하고 있다.

이전 연구들 [5], [15]와 유사하게, 테스트 조건은 ITU Recommendation p.913 [23]을 따라 설계되었다.
피험자들의 피로를 최소화하기 위해, 주관적 테스트는 네 부분으로 나누어 다른 날에 진행되었다.
각 부분의 지속 시간은 약 50분이었으며, 매 20분마다 10분 간의 휴식 시간이 있었다.
각 피험자는 최대 두 개의 테스트 부분에만 참여했다.
실제 주관적 테스트를 수행하기 전에, 피험자들은 평가 절차와 비디오 품질 점수 범위에 익숙해지도록 훈련을 받았다.
세션들은 해상도 1,366 x 768의 검은색 배경을 가진 14인치 화면에서 무작위로 표시되었다.
각 세션이 끝날 때마다, 피험자는 1점 (최악)에서 5점 (최상) 사이의 점수를 매겼다.

주관적 테스트에는 총 53명의 피험자가 참여했으며, 이들은 18세에서 41세 사이였다.
주관적 테스트의 총 소요 시간은 약 78시간이었다.
테스트 결과에 대한 선별 분석은 ITU-T Recommendation p.913 [23]에 따라 수행되었으며, 두 명의 피험자는 제외 되었다.
제외된 피험자들의 점수를 제거한 후, 각 세션은 21명의 유효 피험자들에 의해 평가되었다.
각 세션의 주관적 전반적 quality 값은 유효 피험자들의 평균 점수로 계산되었다.

결합된 데이터셋은 총 515개의 세션으로 구성되어 있으며, 이중 183개의 세션은 수작업으로 생성된 세션이고, 332개의 세션은 실제 스트리밍 세션이다.
세션의 길이는 60초에서 76초 사이이다.
이 세션들은 무작위로 412개의 세션으로 구성된 학습 세트와 나머지 103개의 세션으로 구성된 테스트 세트로 나누어졌다.
이 분할 과정은 100번 반복되었으며, 결과적으로 100쌍의 훈련 세트와 테스트 세트가 생성되었다.
다음 섹션에서 제시되는 결과는 100쌍의 훈련 및 테스트 세트에 대한 평균값이다.

2) Training Parameters

제안된 접근법의 학습 과정에서는 루트 평균 제곱 오차 (RMSE) 손실 함수를 적용했다.
이는 Adam 최적화 알고리즘을 기반으로 한 확률적 경사 하강법 (SGD) 방법을 사용하여 최소화된다 [24].
Adam 알고리즘의 파라미터는 다음과 같이 설정되었다.
β_1 = 0.9, 𝛽_2 = 0.999, 𝜖 = 1e^(-8), learning rate = 0.01, hidden units 수 = 5, epochs = 5000으로 설정되었다.

3) Input Features

제안된 접근법에서 세그먼트 features의 역할을 조사하기 위해 네 가지의 input features의 케이스를 고려한다.
첫 번째 케이스 (Full)는 각 세그먼트가 섹션 II-B 에 설명된 모든 네 가지 feature로 표현된다.
나머지 세 가지 케이스에서는 네 가지 feature 중 세 가지만 사용된다.
구체적으로, 두 번째 케이스 ( w/oCC )에서는 content characteristics feature가 입력에서 제외된다.
세 번째 케이스 (w/oSQ)에서는 세그먼트 quality feature가 고려되지 않는다. 마지막 케이스 (w/oSD)에서는 stalling duration feature가 제안된 접근법의 입력으로 사용되지 않는다.

4) Evaluation Metircs

제안된 접근법의 예측 성능을 평가하기 위해 피어슨 상관 계수 (PCC)루트 평균 제곱 오차 (RMSE) 두 가지 지표를 사용하며, 이 지표들은 100개의 테스트 세트에 대해 평균화된다.
높은 PCC와 낮은 RMSE는 더 나은 예측 성능을 의미한다.


Notes

1) Dataset

  • 데이터셋 구성 연구에서 사용된 데이터셋은 세 개의 서로 다른 데이터셋을 결합하여 구성함.
    두 개는 이전 연구인 [5], [15]에서, 나머지 하나는 새로운 주관적 테스트를 통해 생성함.
    주관적 테스트에서는 총 144개의 세션이 평가되었으며, 이 세션들은 이전 연구에서 사용되지 않은 두 개의 비디오로 생성함.

  • 세션 생성 및 구성 각 비디오로부터 72개의 세션이 생성되었으며, 수작업으로 만든 42개의 세션과 실제 스트리밍 세션 30개로 구성됨.
    수작업 세션은 품질 변동과 stalling event가 없는 패턴, 주기적인 품질 변동만 있는 패턴, stalling event만 있는 패턴으로 나뉨.
    실제 스트리밍 세션은 모바일 네트워크 대역폭 자료를 기반으로 스트리밍 테스트베드에서 생성되었으며, 품질 변동과 stalling event를 모두 포함하고 있음.

  • 주관적 테스트
    권고안을 따라 피험자의 피로를 줄이기 위해 테스트는 네 부분으로 나누어 진행, 각 부분은 50분 동안 진행되었음.
    53명의 피험자가 참여, 이들 중 2명은 선별 과정에서 제외, 최종적으로 21명의 유효 피험자들이 각 세션을 평가함.
    평가 방식은 각 세션이 끝날 때마다 1점 (최악)에서 5점 (최상) 사이의 점수를 매기는 방식이었음.

  • 데이터셋의 최종 구성 및 분할
    최종적으로 결합된 데이터셋은 515개의 세션으로 구성되었으며, 이중 183개는 수작업 세션, 332개는 실제 스트리밍 세션임.
    세션 길이는 60초에서 76초 사이로 다양하며, 데이터셋은 무작위로 412개의 훈련 세트와 103개의 테스트 세트로 나누었음.
    이 과정을 100번 반복하여, 겨로가적으로 100번의 반복에 걸친 훈련 세트와 테스트 세트의 평균값으로 제시됨.

분할을 100번한 것이 단일 분할을 통한 편향을 줄이고 일반화 성능을 평가하기 위한 것으로 보임.

2) Training Parameters

  • 손실 함수
    • 루트 평균 제곱 오차 (RMSE)
      모델의 예측 값과 실제 값 사이의 차이를 측정하는 데 사용하는 손실 함수
      예측 오류의 제곱을 평균한 후 제곱근을 취하는 방식으로 계산되며, 값이 작을수록 모델의 예측이 정확함을 의미함.

  • 최적화 알고리즘
    • Adam 최적화 알고리즘
      확률적 경사 하강법 (SGD)의 변형으로, 학습 과정에서 각 매개변수의 학습률을 적응적으로 조정하는 방법.
      모멘텀 (β_1)과 RMSprop (β_2)를 결합하여, 빠르고 안정적인 최적화를 도움.

    • Adam 파라미터

      • β_1 = 0.9
        모멘텀 항의 계수로, 이전 그래디언트를 얼마나 반영할지 결정함.
      • β_2 = 0.999
        그래디언트 제곱 항의 계수로, 학습률을 얼마나 안정적으로 조정할지 결정함.
      • 𝜖 = 1e^(-8)
        분모의 수치적 안정성을 위해 작은 값을 더하는 항임.
  • 학습 파라미터
    • Learning Rat = 0.01 학습률은 각 업데이트 시 매개변수가 얼마나 크게 조정될지를 결정하며, 값이 너무 크면 최적화 과정이 불안정, 작으면 학습 속도가 매우 느려질 수 있음.

    • Hidden Units 수 = 5
      hidden units 수는 LSTM 네트워크 각 층에서 사용되는 뉴런의 수를 의미하며, 모델의 학습 능력, 복잡도에 영향을 미침.

    • Epochs = 5000
      에포크는 전체 데이터셋이 모델에 한 번 완전히 학습되는 횟수를 의미하며, 에포크 수가 많을수록 모델이 데이터를 더 잘학습할 수 있는 기회가 많아짐.

과적합에 대한 방안은 없는 건가?

3) Input Features

  1. 첫 번째 케이스 (Full)
    모든 input features를 사용함.
    • Segment Quality
    • Stalling Duration
    • Content Characteristics
    • 기타 연구에서 사용된 feature

    전체 특징 사용을 통해 모델이 최상의 성능을 발휘하는지 평가하기 위한 것으로 보임.

  2. 두 번째 케이스 (w/oCC) Content Characteristics feature만을 제외한 나머지 세 가지 특징을 사용함.

    Content Characteristics가 제외된 케이스를 평가하여, 그 중요성을 알아보기 위한 것으로 보임.

  3. 세 번째 케이스 (w/oSQ) Segment Quality feature만을 제외한 나머지 세 가지 특징을 사용함.

    Segment Quality가 제외된 케이스를 평가하여, 그 중요성을 알아보기 위한 것으로 보임.

  4. 네 번째 케이스 (w/oSD) Stalling Duration feature만을 제외한 나머지 세 가지 특징을 사용함.

    Stalling Duration을 제외된 케이스를 평가하여, 그 중요성을 알아보기 위한 것으로 보임.

4) Evaluation Metrics

  1. 피어슨 상관 계수 (PCC)
    피어슨 상관 계수는 두 변수 간의 선형 상관 관계를 측정하는 지표로, -1 ~ 1사이의 값을 가지며, 1에 가까울 수록 두 변수 간의 강한 상관 관계를 가짐을 의미함.

    높은 PCC 값은 모델의 예측이 실제 값과 높은 일관성을 보임을 나타내므로, 모델의 예측 결과가 실제 값과 얼마나 일치하는지를 평가하기 위한 것으로 보임.

  2. 루트 평균 제곱 오차 (RMSE)
    RMSE는 모델의 예측 값과 실제 값 간의 차이를 제곱한 후, 그 평균의 제곱근을 구한 값으로, 값이 낮을수록 모델의 예측이 실제 값과 가까움을 의미함.

    낮은 RMSE는 모델의 예측 정확도가 높음을 의미하므로, 모델이 출력하는 오류가 어떻게 나타는지 확인하고 피어슨 상관 계수와 함께 비교하기 위해 사용되는 것으로 보임.

  3. 평균화
    100개의 테스트 세트에 대해 PCC와 RMSE를 계산, 평균하여 최종 성능을 평가하여, 일관성과 모델의 전반적인 성능 결과에 대한 신뢰도를 높이고자 한 것으로 보임.


B. Roles of Segment Features

본 하위 섹션에서는 제안된 접근법에서 세그먼트 features가 어떤 역할을 하는지 조사한다.
이를 위해서 섹션 III-A3 에서 제시된 네 가지의 input features의 케이스에 대해 제안된 접근법의 예측 성능을 평가한다.

Figure 4는 제안된 접근법의 Full 및 w/oCC 케이스에서, epochs e 가 500에서 5000까지 500 단위로 증가할 때의 PCC와 RMSE 값을 보인다.
참고로, 세그먼트 quality feature는 섹션 II-B1 에서 언급된 세 가지 metric 중 하나로 표현된다.
Figure 4에서 알 수 있듯이, 특정 세그먼트 quality metric을 기준으로 했을 때 훈련 세트는 항상 테스트 세트보다 더 높은 PCC와 더 낮은 RMSE 값을 가진다.

훈련 세트와 테스트 세트 모두에서 epochs e 가 처음 증가할 때 PCC값은 빠르게 증가하고 RMSE 값은 급격히 감소한다.
에포크가 더 증가하면, PCC와 RMSE 값이 안정화된다.
안정 상태에 도달하는 속도는 S-MOS 및 PSNR metrics가 BR metric보다 훨씬 빠르다.
구체적으로, Full 및 w/oCC 케이스 모두에서 최적의 epochs e 는 S-MOS, PSNR metrics는 1500, BR metric은 2500이다.

BR 및 PSNR metrics의 경우, Full 케이스가 w/oCC 케이스보다 훨씬 높은 예측 성능을 달성한다.
S-MOS 지표의 경우, Full 케이스와 w/oCC 케이스는 유사한 예측 성능을 보인다.
이 결과는 세그먼트 quality metric으로 S-MOS가 사용될 때, content characteristics feature를 추가로 사용하는 것이 제안된 접근법의 개선에 큰 도움이 되지 않음을 시사한다.
반면, BR 및 PSNR 지표의 경우, content characteristics feature를 포함하는 것이 필요하다.
즉, content characteristics feature의 역할은 세그먼트 quality feature를 나타내는 데 사용된 지표에 따라 달라진다.

Full 케이스에서는 세그먼트 quality metric이 S-MOS일 때 예측 성능이 가장 높다.
이는 S-MOS가 세그먼트 quality feature를 나타내는 데 가장 적합한 지표임을 의미한다.
반면, BR 지표를 사용할 경우 예측 성능이 가장 낮게 나타난다.
이하의 내용에서는 최상의 예측 성능을 보인 S-MOS를 제안된 접근법의 세그먼트 quality metric으로 사용한다.

Table I는 epochs가 5000일 때 Full, w/oSQ, w/oSD 세 가지 경우에 대한 제안된 접근법의 예측 성능을 보인다.
세그먼트 quality feature나 stalling duration feature가 제안된 접근법의 입력에서 제외되었을 때, PCC 값이 크게 감소하고 RMSE 값이 상당히 증가하는 것을 알 수 있다.
이는 품질 변동과 stalling event가 세션의 전체 품질에 중요한 영향을 미친다는 것을 나타낸다.


Notes

훈련 세트가 테스트 세트에 비해 더 좋은 성능을 보이는 것은 일반적으로 발생할 수 있으나, 과적합으로 인한 것일 수도 있음.

훈련 세트와 테스트 세트 모두에서 epochs 축에 따라 급격한 곡선을 그리며 성능이 향상됨. PCC: 예측과 실제값의 상관 관계를 높임. RMSE: 예측 오류 감소.

이후 안정화 단계에 접어들 게 되며, 안정화 속도는 S-MOS, PSNR metrics가 BR metric보다 빠름.

즉, BR metric을 사용할 때에 더 많은 학습을 필요로 함.

metric을 비교할 때 안정화되는 데까지 S-MOS, PSNR이 1000 에포크 가량 앞서므로, BR metric보다 효율적일 수 있을 것으로 보임.

  • 세그먼트 quality metric에 따른 Content Characteristics Feature의 기여 차이
    • BR 및 PSNR Full 케이스가 w/oCC 케이스보다 훨씬 더 높은 예측 성능을 보임.
      즉, BR 및 PSNR을 세그먼트 quality metric으로 사용할 때, content characteristics feature가 모델의 예측 성능에 크게 기여함을 의미함.

    • S-MOS
      Full 케이스와 w/oCC 케이스 간의 예측 성능이 거의 동일하게 나타남.
      즉, S-MOS를 세그먼트 quality metirc으로 사용할 때, content characteristics feature가 성능 개선에 큰 영향을 미치지 못함을 의미함.

    • Content Characteristics Feature의 기여
      • BR 및 PSNR
        BR 및 PSNR은 비디오의 complexity와 품질에 따라 변화하므로, content characteristics feature 사용을 통해 성능이 개선될 수 있음으로 예상됨.
      • S-MOS
        S-MOS는 피험자의 주관적 평가에 기반한 품질 지표이기에, 이미 시각적 품질로 평가되었으므로, content characteristics feature의 사용이 큰 효과를 낼 수 없는 것으로 예상됨.
  • Tabel I 분석
    SQ와 SD feature의 중요성을 강조하기 위한 데이터
    Full 케이스, w/oSQ, w/oSD 세 가지 경우에 대한 성능이 상당히 낮아짐.
    즉, segment quality, stalling durations는 모델의 input feature로 필수적임을 나타냄.

C. Comparison with Existing Approaches

이 부분에서는 제안된 접근법을 Tran의 [5], P.1203.3 [25][27], Singh의 [9], ATLAS [10]의 네 가지 기존 접근법과 비교할 것이다.
제안된 접근법의 경우, Full 케이스와 S-MOS segment quality metric이 사용된다.

Table II는 테스트 세트에 대한 제안된 접근법과 기존 접근법들의 PCC와 RMSE 값을 보여준다.
제안된 접근법이 가장 높은 예측 성능을 달성하며 기존 접근법을 능가하는 것을 알 수 있다.
특히, 제안된 접근법의 PCC와 RMSE 값은 각각 0.96, 0.26이다.
이 결과는 LSTM 네트워크가 random neural network와 SVM보다 HAS 세션의 전체 품질을 예측하는 데 더 효과적임을 나타낸다.
따라서 세션 내에서 세그먼트 간의 시간적 관계는 전체 품질 예측에 필수적이다.
이는 segment quality 값의 평균과 stalling duration의 합계와 같은 통계치를 사용하는 기존 접근법들이 제안된 접근법보다 낮은 예측 성능을 보이는 이유를 설명해 준다.


Notes

  • 제안된 접근법과 네 가지 기존 접근법과의 비교
    • Tran [5]
      수학적 함수를 통한 분석 모델으로 비디오 스트리밍 세션의 품질을 예측한 연구
      특정 시점에서의 품질이 아닌, 전체 세션의 품질을 예측하기 위해 단순히 평균하거나 더하는 방식을 사용하였음.
      PCC는 높으나 RMSE도 높아 오류가 큰 것을 확인할 수 있음.
      이는 품질 변동이나 stalling event의 발생이 전체 세션의 품질에 미치는 영향을 제대로 반영하지 못할 것으로 보임.
    • P.1203.3 [25][27]
      ITU-T P.1203.3에 기반한 접근법으로, 비디오 품질과 stalling event를 평가하는 표준화된 방법
    • Singh’s [9]
      머신러닝을 활용한 접근법으로, Random Neural Network를 사용함.
    • ATLAS [10]
      머신러닝을 활용한 접근법으로 SVM의 회귀 변형인 SVR을 사용하여 비디오 스트리밍 세션의 품질을 예측함.
      SVR은 입력 데이터를 고차원 공간에 매핑하여 회귀 평면을 찾는 모델으로, 복잡한 패턴에 강함.
      Random Neural Network를 사용한 Singh에 비교하여 더 높은 PCC, 그와 비슷한 수준으로 낮은 RMSE를 보인 것으로 보아 ATLAS가 성능 향상에 더 좋은 것으로 보인다.


      PCC가 0.96, RMSE가 0.26으로 다른 접근법들에 비해 월등히 좋은 성능을 보였음.
      이는 모델을 사용한다는 점, 또한 다른 모델들과 달리 시계열 데이터 처리에 능한 LSTM을 사용하는 것이 HAS에서도 효과적으로 작용한 것으로 보임.


Conclusion

본 연구에서는 HTTP Adaptive Streaming (HAS) 세션의 전체 품질을 예측하기 위해 LSTM 네트워크를 사용하는 새로운 고급 머신러닝 접근법을 제안했다.
제안된 접근법은 segment quality, stalling duration, content characteristics, padding 네 가지의 세그먼트 features를 고려했다.
실험 결과를 바탕으로, LSTM 네트워크가 HAS 세션의 전반적인 품질을 예측하는 데에 효과적임이 입증되었다.
또한, 세션 내 세그먼트 간의 시간적 관계가 전반적인 품질 예측에 있어 필수적이라는 것을 확인하였다.
추가로, segment quality feature를 나타내는 데 있어 segment-MOS가 가장 적합한 지표로 나타났다.
향후 연구에서는 제안된 접근법을 HAS 적응 전략 성능 평가에 적용할 계획이다.


트랜스포머와 같은 근래에 많이 사용되는 모델을 사용하면 어떨지? 좋다면 왜 좋을지에 대한 근거 생각해 보기.
명백한 단점이 있는지 조사해 보기.


날 죽이지 못하는 고통은 날 강하게 만들 뿐이다!


Profile

Seong Hun KIM

Student
Dept. of Computer Science Engineering | Yeungnam University, Repulic of Korea

yu signature

Phone 010 - 6685 - 1140
Mail tgh7544@naver.com
LinkTree https://linktr.ee/HoonC_corgi

Blog Logo

HoonC-corgi

HoonC-corgi


Published

Image

HoonC-corgi's Blog

해가 지는 곳따라 걷다 보면, 그게 내 기쁨이어라.

목록으로 돌아가기