3B1B: Essence of Linear Algebra ch.14 Abstract Vector Spaces

1장에서 물었던 근원적인 질문을 다시 한번 꺼내보려고 한다.

What are vectors?

실수들의 쌍 형태인가? 아니면 길이와 방향을 가진 화살표인가?

혹은 둘 다 더 깊은 무언가에 의해 형성된 건가?

한편, 숫자 리스트로 벡터를 정의하는 건 깔끔하고 분명하다. 이러한 방식은 4차원이든 혹은 100차원이든 확장가능하다. 하지만, 4차원 이상의 공간을 시각화하는 건 매우 모호하다.

그치만, 선형대수학을 실제로 다루는 사람들에게는, 특히 basis를 바꾸는 데 능숙한 사람들의 경우엔, 주어진 co-ordinates으로부터 독립적으로 존재하는 공간을 다루는 작업은 일상적인 일이다. 이때 이 co-ordinates는 basis vectors가 무엇인지에 따라서 실제로는 다소 임의의 값을 가진다.

선형대수학에서 determinatnt와 eigenvectors와 같은 핵심 주제들은 어떤 coordinate systems를 선택하는 지와는 무관하다. determinant는 transformation이 얼마나 넓은 area를 scaling하는지를 알려주고, eigenvectors는 transformation 동안 자기 자신의 span 위를 유지하는 벡터다. 이러한 성질들은 둘다 본래 special한 경우라서, 기본적인 값들을 바꾸지 않고도 coordinate systems를 자유롭게 바꿀 수 있다.

만약에 벡터가 기본적으로 실수의 리스트가 아니고 좀 더 spacial 한거라면, 수학자가 space 나 spacial이라는 단어를 사용할때 그게 도대체 무슨 뜻인지 질문을 할 수 있다.

ch14-1

지금하고 있는 논의를 튼튼히 하기 위해서 이번 동영상의 대부분을 화살표나 숫자리스트가 아닌 vector-ish qualities를 가진 무언가에 할애하고 싶다. 그건 바로 functions다!

functions는 실제로 단지 vector의 또 다른 타입의 벡터라고 볼 수 있다.

  • addtion

두 개의 벡터를 더하는 것처럼, 두 개의 functions를 더하는 sensible notion이 있다 : $(f + g)$

ch14-2

주어진 input에서의 합성함수 $(f + g)$의 output은 함수 $f(x)$와 함수 $f(y)$의 결과를 더한 값이다.이는 벡터의 co-ordinate와 co-ordinate를 더한 것과 매우 유사하다. 단지 무한한(infinitely) co-ordinates를 다루는 것일 뿐이다.

ch14-3

  • scalar multiplication

마찬가지로, function에 real number(실수)를 scaling하는데 있어 sensible notion이 있다: $(cf)(x)$

단지 모든 outputs에 그 number를 scale한다.

ch14-4

역시, 벡터 co-ordinate에 co-ordinate를 scaling하는 것과 유사하다. infinitely many co-ordinates가 있는 것 같다.

14-5

vectors를 functions에 적용

vectors를 다루는 방법이 서로 get added거나 scaled되는 것이라 했을 때, 본래 공간 상의 arrows라는 상황에서 생각했었던 linear algebra의 구조(constructs)와 문제해결 방법을 가져와 이를 functions에다가도 적용시켜볼 수 있을거 같다.

ch14-6

예를 들어, functions에 대하여 linear transformation의 perfectly reasonable notion이 하나 있다. 하나의 함수를 또 다른 함수로 바꾸는 작업이다.

\[L(\frac{1}{9}x^3 - x) = \frac{1}{3}x^2 - 1\]

calculus(미적분)에서 익숙한 예제를 하나 가져오자면 the derivative(도함수)이 있다.

\[\frac{d}{dx}(\frac{1}{9}x^3 - x) = \frac{1}{3}x^2 - 1\]

도함수는 하나의 함수를 또 다른 함수로 transform한다.

이걸 문맥에 따라서는 transformations 대신에 operators라고 부른다. 둘의 의미는 같다.

질문하고 싶은 건 a transformation of functions이 linear가 된다는 게 무얼 뜻하는지이다.

본래 linearity(선형성)의 formal한 정의는 이 시리즈의 3장에서 처음 말했던 방식보다는 상대적으로 더 추상적이고 상징적으로 되어있다. 그치만 이러한 linearity의 추상성(abstractness)은 이를 arrows뿐만 아니라 functions에도 적용하기 충분히 일반적(general)이라는 장점이 있다.

다음의 두 가지 특성(property)를 만족할 때 transformation이 linear하다고 한다.

Formal definition of linearity

  1. Additivity : $L(\mathrm{v} + \mathrm{w}) = L(\mathrm{v}) + L(\mathrm{w})$
  2. Scaling : $L(c\mathrm{v}) = cL(\mathrm{v})$

위와 같은 정의를 'linear transformations preserve the operations of vector addition and scalar multiplication'라고 자주 설명한다.

이 시리즈에서 gird line(격자선)을 평행하고 균등하게(parallel and evenly spaced) 유지시켰던 아이디어는 위의 두 특성을 2차원 공간의 점에서 구체적으로 표현해준거였다. matrix-vector 곱을 가능케하는 이 두 가지 특성의 중요한 시사점 중 하나는 basis vectors가 놓이는 위치로 linear transformation를 완벽히 설명한다는 점이다.

어떤 vector든 basis vectors를 scaling하고 adding하면 나타낼 수 있기 때문에, 벡터의 transformed version를 찾는 것은 한 마디로 basis vector의 transformed version을 scaling하고 adding한 것이다. 이는 arrows와 마찬가지로 founctions에 대해서도 동일하다.

ch14-7

예를 들어, calculus를 배우는 학생들은 항상 도함수끼리 더하고 scalar를 곱할 수 있다는 사실을 이용한다. 비록 그 학생들이 그러한 사실을 그렇게 표현해본적이 없을 지언정 말이다. 무의식적으로 $\frac{d}{dx}$가 linear하다는 걸 알고있는 셈이다.

\[\frac{d}{dx}(x^3 + x^2) = \frac{d}{dx}(x^3) + \frac{d}{dx}(x^2)\] \[\frac{d}{dx}(4x^3) = 4\frac{d}{dx}(x^3)\]

좀더 들어가봐서, the derivative를 matrix가지고 설명해보자.이건 약간 tricky한데, 왜냐면 function space는 infinite-dimensional한 경향이 있기 때문이다. 그러나, 이 연습은 실제로 조건들을 꽤 만족시킬 것이다.

우리의 현재 공간을 All polynomials라고 생각해보자.

ch14-8

이제 우리가 해야할 일은 이 공간에 basis를 선택하는데 필요한 co-ordinates를 주는 것이다. polynomials는 이미 $x$라는 변수의 scaled power가 더해진 꼴로 쓰여져있기 때문에, 그냥 $x$의 pure powers를 basis function으로 정해도 자연스럽다. 즉 첫번째 basis function은 상수함수인 $b_0(x) = 1$이 된다는 뜻이다. 이러한 basis functions의 역할은 $\hat{i}$와 $\hat{j}$이 했던 역할과 비슷하다.

ch14-9

polynomials는 임의의 큰 차수를 가질 수 있기 때문에, 이 basis functions의 집합은 무한하다. 그치만 괜찮다. 그저 우리가 oplynomials를 vectors로 다룰 때, 그 vecotrs가 infinitely many co-ordinates를 가진다는 뜻이다.

ch14-10

우리가 예를 든 polynomial로 따지면 처음 세개의 row를 제외한 나머지는 모두 무한하게 0이라는 뜻이다.

ch14-11

이러한 co-ordinate system(좌표계)에서 the derivative는 infinite matrix를 가지고 설명된다. 그리고 이 matrix는 대부분 0을 원소로 가진다. 아래의 그림처럼 offset diagonal에서 양의 정수를 확인할 수 있다.

ch14-12

결국 the derivative를 나타내는 matrix와 polynomial를 나타내는 vector를 곱하면 output이 나온다.

ch14-13

이게 가능한 이유는 the derivative가 linear하기 때문이다.

그래서 놀랍게도, matrix-vector곱과 미분(taking a derivative)은 처음엔 완전히 다른 존재처럼 보였지만, 알고보면 둘다 같은 family 멤버였다.

the derivative하는 이 matrix는 각각의 basis function을 미분하고 각 column에 그 미분 결과값의 co-orinates를 놓아서 만들 수 있다.

ch14-14

사실, 이 시리즈에서 설명했던 많은 linear algebra의 concepts은 functions의 세계에서도 직접적으로 유사한 concepts이 있다. 이름만 바뀌었을 뿐이다.

ch14-15

Again, “What is a vector?”

functions와 vectors의 관계를 살펴본게 “what is a vector?”와 무슨 상관일까? 여기서 확실히 하고 싶은 건 수학에서는 vector-ish한게 무척 많다는 사실이다. 여러분이 scaling과 additing이 적용되는 합리적인 개념 하에 objects의 집합(set)을 다룰 때 말이다 arrows든, lists of numbers든, functions이든 상관없이 Linear transformations, null space, eigenvectors, dot products 등등 이 시리즈에서 배운 개념이 고스란히 적용된다.

ch14-16

수학자의 입장에서 생각해보면, linear algebra의 이론을 연구하고 있을 때, 모든 정의와 자기 작업에서 발견한 것들을 이러한 vector-ish한 것에 특수한 경우가 아닌 일반적으로 널리 적용되는지 확인해보고 싶을 것이다. 결국 arrows나 list of numbers나 functions를 수학자들은 Vector spaces라 부른다.

ch14-17

모든 vector spaces를 알 필요는 없다. 여러분이 해야할 일은 vector addition과 scaling과 관련된 rules를 옆에 놓고 establish하는 일이다. 이 rule를 Axioms(공리)라고 부른다. the modern theory of linear algebra에서는 8 가지 axioms를 논하는데, 우리가 발견한 모든 theory와 constructs가 적용되려면, 어떤 vector space라도 이를 반드시 충족해야한다.

ch14-18

이 axioms는 그렇게까지 근본적인 rules of nature(자연법칙)은 사실 아니다. 그저 여러분, 결과를 발견해내는 수학자들, 그리고 이 결과를 새로운 종류의 vector spaces에 적용하고 싶은 사람들(공학자?) 사이를 잇는 interface일 뿐이다.

여러분은 그저 이 axoims의 관점에서 여러분의 results를 증명하기만 하면 된다. 일종의 checklist처럼 말이다. 그러면, anyone whose definitions satisfy those axioms can happily apply your results, even if you never thought about their situation.

결과적으로, 여러분의 모든 results를 추상적으로(abstractly) 표현하기 쉬워진다. 오직 이 8 가지 axioms관점에서 말이다. arroaws in space나 functions처럼 구체적인 type의 vector보다 더 추상적할 수 있다.

예를 들어, 이건 모든 linear algebra 교과서에서 linear transformations를 additivity와 scaling관점에서 정의하는 이유이기도 하다. 평행하고 균등한(parallel and evenly spaced) grid lines(격자선)을 논하지 않고 말이다. grid lines로 정의하는 건 훨씬 직관적이고, 내 생각엔 입문자에게 좀 더 도움됨에도 불구하고 말이다. 비록 2차원 평면에서만 국한된 얘기이긴 하지만…

그래서 수학자들은 “what are vectors?”라는 질문은 그냥 무시한다. the modern theory에서는 vectors가 가진 그 껍데기가 중요한 게 아니다. 이건 arrows든, lists of numbers든, 아니면 functions든 마찬가지다. 이 모두는 adding과 scaling의 rules를 따르는 한 다 같은 개념이라고 볼 수 있다.

그러면 ‘what is 3?’라는 질문을 한번 생각해보자. 구체적으로 생각해보면 3 가지가 모인 상황을 떠올릴 수 있지만, 수학에서는 엄밀히 말해 그 모든걸 하나의 abstraction으로 다룬다. 그리고 이걸 a single idea로 사용한다.

vectors도 이와 마찬가지다. vectors는 많은 embodiments를 가질 수 있지만, 수학은 이들을 몽땅 vector spaces의 a single intangible notion으로 추상화시킨다.

하지만, 이 시리즈를 보신 여러분들은 알겠지만, 입문할 때는 구체적인 사례를 가지고 생각하는게 이해하기 쉽다. 2차원 공간에서 원점에 뿌리를 둔 arroaws를 시각적으로 살펴본 것처럼 말이다. 그래도 linear algebra를 더 배울때면 이런 방식들이 훨씬 더 일반화된다는 사실을 알아야한다. 그리고 이게 교과서나 강의들이 그렇게 추상적으로 표현하는지에 대해 밑바탕에 깔린 이유이기도 하다.

ch14-19

업데이트:

댓글남기기