Мат. анализ

Предел, производная, дифференциал. Производная по направлению, градиент. Первообразная, интеграл. Производные высших порядков, максимум и минимум проверхности, ряд Тейлора.¶

На мой взгляд, основная идея или метод решения задач в математическом анализе состоит в замене функций, с которыми тяжело работать, на близкие к ним (с устраивающей нас разницей/погрешностью приближения), которые уже давно изучены и понятны, то есть с которыми работать легко.

В жизненных задачах как правило нам не нужно знать само точное значение, а достаточно понимать порядок (количество цифр в записи числа) или приближение с нужной нам точностью. Приведём пример с покупкой квартиры: предположим, что она стоит 9 987 567 рублей, но нам легче округлить до 10 миллионов, поскольку это проще и понятнее воспринимается. Но есть тонкий момент: 8 987 567 мы тоже можем округлить до 10 миллионов, только порядок округления может не всех устроить. В первом случае мы прибавили около 100 000, что составляет 0,01 от исходной цифры, а во втором случае - около 1 100 000, что составит уже 0,1 от исходной цифры, а такое приближение уже не все могут себе позволить.

Лучше идеи с переходом к окрестности точки ещё никто не смог придумать, логика такова: надо определить понятие максимально близких точек, то есть расстояние между которыми очень близко к нулю, или другими словами, они находятся в одном интервале, длина которого очень маленькая. В терминах математики: $\epsilon$-окрестность точки $x_0$ - интервал $(x_0-\epsilon;x_0+\epsilon)$, где $\epsilon$ - очень маленькое число. А дальше заменяем значение функции в точке на значения функции в точках, максимально близких к рассматриваемой, или из той же окрестности.

Строгое определение: число $A$ называется пределом функции $f(x)$ при $x$ стремящемся к $a$, если для любого, сколь угодно малого положительного числа $\epsilon$ найдётся такое положительное число $\delta$, что для любого $x$ из проколотой $\delta$-окрестности точки $a$ значения функции$f(x)$ попадают в $\epsilon$-окрестность f(a)=A: $$0<|x-a|<\delta \Rightarrow |f(x) -A|<\epsilon.$$

Итак, точки мы заменяли на близкие им точки, а функции будем заменять на близкие им функции.

Напомним определение: функция - правило, по которому одному числу из множества $X$ ставится в соответствие одно число из множества $Y$. Функция может быть задана: таблицей, графиком, формулой, алгоритмом. Чаще всего мы работаем с формулами и графиками.

Теперь у нас стоит задача: понять, где функция растёт, где убывает, в каких точках достигает максимальное и минимальное значения. Если у нас есть график, то всё просто видно, а вот если функция задана формулой, причём довольно сложной, нужно придумывать обходные пути.

Для начала определимся, как понимать рост функции $y=f(x)$: если при увеличении $x$ увеличивается $y$, то функция возрастает, если наоборот, при увеличении $x$ уменьшается $y$, то функция убывает. Теперь определим как именно функция возрастает, то есть с какой скоростью. Из физики мы помним, что скорость - это искуственно введённая величина, которая показывает какую часть расстояния мы преодолели за единицу времени. В терминах нашей задачи нас интересует мгновенная скорость: как изменился $y$ при небольшом изменении $x$. То есть мы совсем немного увеличили $x$ (существуем в $\epsilon$-окрестности), и смотрим, как изменится $y$. В качестве примера возьмём всё ту же гиперболу $y=\frac{1}{x}$: при одном и том же изменении $\Delta x=0,0009$ с $0,0001$ до $0,001$ $y$ изменился на 900 единиц, а при изменении с $100,0001$ до $100,001$ всего на $0,00000009$ - разница внушительная.

Итак, зафиксируем точку $(x;y)$ и переместимся во вторую точку $(x+\Delta x;y+ \Delta y)$, скорость роста тогда равна $\frac{\Delta y}{\Delta x}$. Осталось вспомнить, что мы работаем с близкими точками, когда $\Delta x$ очень мала, по сути точки $(x;y)$ и $(x+\Delta x;y+ \Delta y)$ почти сливаются и соединяющая их прямая превращается в касательную, проходящую через эти слипшиеся точки. Осталось воспользоваться понятием предела и получить итоговое определение:

Производной функции $f(x)$ называется новая функция $f'(x)$, которая показывает скорость роста исходной функции в окрестности данной точки:

\[f'(x) = \lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0} \frac{f(x+\Delta x) - f(x)}{\Delta x}\]

Геометрически получается, что это отношение как раз есть тангенс угла наклона касательной $f'(x)= \tan{\alpha}$.

Другими словами, мы приближаем нашу функцию касательной, проходящей через точку $(x;y)$, потому что поведение касательной однозначно может сказать, что происходит с функцией: касательная идёт вверх $\tan{\alpha}>0$ - функция возрастает, касательная идёт вниз $\tan{\alpha}<0$ - функция убывает. Идея поиска максимума и минимума, известная со школы - найти нули производной (таблицу производных для нас уже давно посчитали учёные) и точки, в которых функция определена, а производная - нет. Далее выбираем те точки, в которых производная меняет знак.

Если первая производная - это скорость роста функции или тангенс угла наклона касательной к графику функции, то вторая производная - ускорение, или скорость роста тангенса угла наклона касательной. Получается, что если тангенс растет, то касательная огибает график, заворачиваясь влево, если тангенс убывает, то касательная заворачивается вправо. Вторая производная позволяет находить точки перегиба: в самой точке первая производная $f'(x_0)$ равна нулю или не существует, но слева и справа от точки перегиба вторая производная $f''(x_0)$ имеет разные знаки:

Теперь посмотрим на график и заметим, что при замене функции касательной, расстояние $\Delta y$ изменилось на $dy$ и скорость $\frac{\Delta y}{\Delta x}$ изменилась на мгновенную скорость $\frac{dy}{dx}$, отсюда следует определение дифференциала - приращение ординаты касательной к графику функции: $dy = f'(x) \Delta x = f'(x) dx$, так как $\Delta x = dx$ из построения функции $y=x$.

Физический смысл дифференциала: если бы тело сохранило набранную скорость $f'(x)$, то через время $dx$ проехало расстояние $dy$. Другими словами, в физической задаче мы заменим движение с ускорением на равномерное движение и будем искать пройденный путь через эту постоянную скорость. Производную можно рассматривать как отношение дифференциалов функции и её аргумента.

Сакцентируем внимание на различии: $\Delta y$ - на сколько изменилась сама функция $f(x)$ при изменении аргумента на $\Delta x$, $dy$ - на сколько изменилась касательная к функции при изменении аргумента на $\Delta x$.

В трёхмерном случае касательная линия заменяется на касательную плоскость и дифференциал показывает приращение аппликаты касательной плосткости.

Самым общим случаем замены функции в окрестности точки является Ряд Тейлора - по сути приближение с нужной точностью $R$ в заданной окресности точки $a$ любой функции $f(x)$ степенными функциями с соответствующим весом - скоростью роста или производной - сначала линейной с весом скорости, потом параболой с весом ускорением и так далее.

\[f(x) = \sum_{k=0}^{n} \frac{f^{(k)} (a)}{n!} = f(a) + f'(a)(x-a) + ... + \frac{f^{(n)}(a)}{n!} (x-a)^n + R\]

Новые задачи: есть холм, нам надо максимально быстро взобраться на него, а так же изобразить трёхмерную фигуру на плоскости. Обе эти задачи помогает решить градиент.

Начнём с изображения.

Первая мысль - сделать срезы через равные промежутки по высоте. Такие срезы называются линями уровня, то есть кривые, на которых функция принимает одно и то же значение $f(x,y) = const$. Но возникает проблема - на такой картинке один и тот же холм по форме, но выпуклый или вогнутый, визуально будет выглядеть одинаково.

Разумно ввести направление вверх или вниз. Возьмём точку и посмотрим поведение заданной функции в данной точке. Для этого направим во все стороны векторы из этой точки и посмотрим как изменяется функция вдоль направления каждого вектора $\vec l$. Вспоминаем, что за скорость роста отвечает производная, то есть создадим векторное поле с весами $\{ f'_x, f'_y \}$, которые будем скалярно умножать на выбранное напрвление $\vec l$ или в терминах проекций $l=(\cos \alpha, \cos \beta)$:

\[\{ f'_x, f'_y \} \cdot \vec l = f'_x \cos \alpha + f'_y \cos \beta\]

Заметим, что данное выражение максимально, когда $\cos \alpha =1, \cos \beta = 1$, то есть выбранное направление совпадает с направлением вектора $(f'_x, f'_y)$.

Итак, одна из интерпретаций градиента (обозначение $grad f$)- это правило, по которому мы строим векторное поле с весами $\{ f'_x, f'_y \}$ или правило, которое таким способом переводит скалярное поле в векторное.

Производную по направлению можно также рассматривать как скалярное произведение градиента и заданного направления $(grad f, \vec l)$.

Ещё можно встретить интерпретацию градиента, как вектора, указывающего направление наискорейшего роста функции.

Отметим, что в каждой точке свой вектор-градиент, его началом будет эта точка, а направление совпадает с направлением наискорейшего роста функции, модуль вектора-градиента показывает скорость изменения функции в заданной точке.

2

Итого для изображения трёхмерных поверхностей на плоскости вводим вектор-градиент, который покажет направление роста, а также цветовую шкалу синий - минимальные значения (показатель глубины), красный - максимальные (показатель высоты). Представленные таким образом поверхности выглядят уже хорошей интерпретацией:

Разберёмся с градиентом в более строгой математической форме: итак, нам надо понять, как описать рост поверхности, заданной уравнением $z= f(x,y)$. Вспомним, что рост мы определяем через значение приращения и производную:

\[f(x+\delta x) - f(x) = f'_x \delta x + o(\delta x) = f'_x \,dx + o(dx)\]

\[f(y+\delta y) - f(y) = f'_y \delta y + o(\delta y) = f'_y \,dy + o(dy)\]

То есть рост функции $z=f(x,y)$ можно определить как суммарный рост вдоль осей $Ox$ и $Oy$. Фиксируем точку на поверхности, откладываем от неё два вектора, параллельные $dx$ и $dy$, они задают плоскость, а сдвиг вдоль этой плоскости будет равен $dz = f'_x dx + f'_y dy$. В терминах скалярного произведения градиент - это функция от вектора, равная скалярному произведению $(f'_x,f'_y)(dx,dy)$. Ещё раз отметим, что вектор-градиент лежит в плоскости векторов $(dx,dy)$. Смысл градиента любой скалярной функции $f$ в том, что его скалярное произведение с бесконечно малым вектором перемещения $dx$ даёт полный дифференциал этой функции при соответствующем изменении координат в пространстве, на котором определена $f$, то есть линейную (в случае общего положения она же главная) часть изменения $f$ при смещении на $dx$.

Модуль градиента показывает максимальную скорость изменения функции в окрестности, то есть частоту линий уровня. Например, линии уровня высоты изображаются на топографических картах, при этом модуль градиента показывает крутизну спуска или подъёма в данной точке.

\[|grad \phi | = \sqrt{ \Biggl( \frac{\partial \phi}{\partial x} \Biggr)^2+ \Biggl( \frac{\partial \phi}{\partial y} \Biggr)^2 + \Biggl( \frac{\partial \phi}{\partial z} \Biggr)^2}\]

Градиент - вектор, направленный по нормали к поверхности уровня в сторону наибольшего возрастания функции и по модулю равный скорости изменения функции.

Теперь разберёмся с производными второго порядка: $f''_{xx}, \, f''_{xy}, \, f''_{yy}$.

2

Надо понять, как искать максимум и минимум функции, заданной в трёхмерном пространстве $z=f(x,y)$. Сначала заметим, что в точках экстремума первые производные $f'_x, \,f'_y$ либо равны нулю, либо не существуют, так как при проекциях на плоскости $0zx$ и $0zy$ точки экстремума остаются точками экстремума. Решаем систему уравнений $f'_x=0, \, f'_y =0$ и находим точки-кандидаты на экстремумы. В окрестностях этих точек приблизим данную поверхность по формуле Тейлора до второго порядка:

\[z-z_0 = dz + d^2z + \,R = f'_x dx \,+\, f'_y dy \,+\, f''_{xx} (dx)^2 \,+\, 2f''_{xy} dx dy \,+\, f''_{yy} (dy)^2 \,+\, R\]

\[= f''_{xx} (dx)^2 \,+\,\, 2f''_{xy} dx dy \,+\, f''_{yy} (dy)^2 \,+\, R\]

$z > z_0$, если полученная квадратичная форма положительно определена, $z < z_0$ - если отрицательно. За это отвечает критерий Сильвестра:

\[\Delta = det \begin{bmatrix} f''_{xx} & f''_{xy} \\ f''_{xy} & f''_{yy} \end{bmatrix}\]

1) если $f''_{xx} > 0$ и $\Delta >0$, то в точке будет минимум

2) если $f''_{xx} < 0$ и $\Delta >0$, то в точке будет максимум

3) если $\Delta <0$, то экстремума не будет

4) если $\Delta = 0$, то возникает неопределённость, надо продолжать исследования через производные третьего порядка и т.д.

Обобщением на $n-$мерный случай для вектор-функции $f=(f_1, \dots, f_n)$служат две матрицы и их определители:

Якобиан отвечает за линейное приближение касательной плоскостью, определитель матрицы первых частных производных:

\[J_f (x) = det \begin{bmatrix} \frac{\partial f_1(x)}{\partial x_1} & \dots & \frac{\partial f_1 (x)}{\partial x_n} \\ \dots & \dots & \dots \\ \frac{\partial f_n (x)}{\partial x_1} & \dots & \frac{\partial f_n (x)}{\partial x_n} \end{bmatrix}\]

Гессиан отвечает за обобщённую локальную кривизну - приближение квадратичной формой, определитель матрицы вторых частных производных:

\[H_f (x) = det \begin{bmatrix} \frac{\partial^2 f(x)}{\partial x_1^2} & \dots & \frac{\partial^2 f (x)}{\partial x_1 \partial x_n} \\ \dots & \dots & \dots \\ \frac{\partial^2 f(x)}{\partial x_n \partial x_1} & \dots & \frac{\partial^2 f (x)}{\partial x_n^2} \end{bmatrix}\]

Метод множителей Лагранжа. Метод Каруша-Кунна-Таккера.¶

Под условным экстремумом понимают максимальное или минимальное значение функции $f$ в области, ограниченной какими-либо условиями, например $\phi_i = 0$ или $\phi_i \le 0$.

Рассмотрим поверхность вращения $z = f(x,y)$ в трёхмерном пространстве, и её сечение поверхностью $\phi (x,y) = 0$. Данное сечение будет плоской кривой, например, параболой или эллипсом, понятно, что нижняя точка их пересечения - минимум $f$ при заданных условиях, верхняя - максимум $f$.

Вспомним про линии уровня: если спроецирировать картинку на плоскость $0xy$, то получим линии уровня и кандидат на эсктремум - точка, в которой пересекаются касательная к линии уровня и касательная к параболе.

Таким образом задача сводится к отысканию такой точки линии уровня, в которой функция принимает экстремальное значение, причем сравниваются значения функции только в точках рассматриваемой линии.

Надо понять, как находить эти точки максимума и минимума аналитически.

Так как обе функции пересекаются в одной точке, то касательная, проходящая через эту точку, общая для обеих функций. Вспомним также, что градиент показывает направление наискорейшего роста функции, а также перпендикулярен к линиям уровня и к касательным, проходящим через указанную точку.

Получаем важный факт: $grad \,f$ и $grad \, \phi$ лежат на одной линии, то есть пропорциональны или $grad f = \lambda \, grad \, \phi$, получаем систему уравнений $$\left\{\begin{array}{llcc} \frac{\partial f}{\partial x} (x_0) = \lambda \frac{\partial \phi}{\partial x} (x_0), \\ \frac{\partial f}{\partial y} (y_0) = \lambda \frac{\partial \phi}{\partial y} (y_0), \\ \phi(x_0,y_0) = 0 \end{array}\right.$$

Лагранж вводит новую функцию $L(x,\lambda) = f(x) + \sum_i \lambda_i \phi_i$, которая по сути является такой сдвинутой функцией $f(x)$, что безусловный экстремум $L$ совпадает с условным экстремумом $f$, и частные производные функции $L$ по $x_i$ и $\lambda_i$ задают уравнения для поиска условного экстремума функции $f$:

\[\left\{\begin{array}{llcc} \dfrac{\partial f}{\partial x}\Big|_{(x_0,\;y_0)} & +\lambda_0 \cdot \dfrac{\partial\phi}{\partial x}\Big|_{(x_0,\;y_0)} & = & 0, \\ \dfrac{\partial f}{\partial y}\Big|_{(x_0,\;y_0)} & +\lambda_0 \cdot \dfrac{\partial\phi}{\partial y}\Big|_{(x_0,\;y_0)} & = & 0, \\ & \phi(x_0,\;y_0) & = & 0. \end{array}\right.\]

Обобщением метода множителей Лагранжа на случай ограничений в виде неравеств называется Метод Каруша-Куна-Таккера и заключается в следующем: надо найти многомерную величину с неотрицательными компонентами $x=(x_1, \dots, x_n)$, которая будет точкой минимума функции $f(x)$ с ограничениями $g_i(x) \le 0, \, i=1,\dots, n$.

Вводим функцию Лагранжа $L(x,\lambda) = f(x) + \sum \lambda_i g_i(x)$, и чтобы $\hat x$ была точкой минимума, должны выполняться следующие условия:\ 1) $\hat x$ - точка минимума функции $L$\ 2) условия нежёсткости $\lambda_i g_i (\hat x) =0$\ 3) $\lambda_i \ge 0$

Метод наименьших квадратов. Метод градиентного спуска.¶

Как мы уже говорили, основная идея большинства изучаемых нами математических методов сводится приближению или замене сложных для понимания исследуемых функций на более простые и уже изученные с заданной точностью. Самым явным примером применения этой идеи является метод наименьших квадратов, которым активно пользуются физики и экономисты. Сразу оговорим, что под наименьшими квадратами подразумевается минимизации суммы квадратов погрешностей приближения.

Есть серия данных, полученных во время опыта, их можно записать в виде таблицы и изобразить на графике. Если точки на графике группируются вокруг прямой $\hat y=ax+b$, то можно подобрать коэффициенты при помощи вычислений.

Если $(x_i,y_i)$ - полученные данные, а $\hat y_i$ - теоретические значения ординаты, тогда определим погрешности вычисления как $\epsilon_i = \hat y_i - y_i = ax_i+b-y_i$.

Наша задача: подобрать коэффициенты $a$ и $b$ так, чтобы сумма погрешностей $|\epsilon_i|$ была наименьшей. Составим функцию $e=\sum_i \epsilon_i^2$ и будем минимизировать её, поскольку при наименьших возможных $\epsilon_i^2$ будут наименьшими $|\epsilon_i|$:

\[e=\sum_i \epsilon_i^2 = \sum_i ( ax_i+b-y_i )^2, \quad \frac{\partial e}{\partial a} = 0, \quad \frac{\partial e}{\partial b} = 0$$ $$\frac{\partial e}{\partial a} = 2 \sum_i ( ax_i+b-y_i ) x_i = 2a \sum_i x_i^2 + 2b \sum_i x_i - 2 \sum_i x_i y_i = 0$$ $$\frac{\partial e}{\partial b} = 2 \sum_i ( ax_i+b-y_i ) = 2a \sum_i x_i + 2bn - 2 \sum_i y_i = 0\]

Получаем систему для нахождения коэффициентов $a$ и $b$ через известные $(x_i,y_i)$:

\[ \begin{cases} a \sum_i x_i^2 + b \sum_i x_i = \sum_i x_i y_i \\ a \sum_i x_i + bn = \sum_i y_i \end{cases} \]

Аналогичным образом получаем систему уравнений для нахождения коэффициентов при приближении параболой $\hat y = ax^2+bx+c$

\[ \begin{cases} a \sum_i x_i^4 + b \sum_i x_i^3 + c \sum_i x_i^2 = \sum_i x_i^2 y_i \\ a \sum_i x_i^3 + b \sum_i x_i^2 + c \sum_i x_i = \sum_i x_i y_i \\ a \sum_i x_i^2 + b \sum_i x_i + cn = \sum_i y_i \end{cases} \]

Метод градиентного спуска - алгоритм для нахождения минимума функции $f$. Как мы уже обсуждали, градиент задаёт направление наискорейшего подъёма, соответственно, двигаясь в противоположном направлении, будем максимально быстро спускаться.

Идея следующая: выбираем стартовую точку $x_0$ и спускаемся вниз вдоль направления, противоположного градиенту, с заранее заданной длиной шага $h$, в точку $x_1$. Другими словами, вектор $-\frac{\partial f}{\partial x_k^i}$ растягиваем в $h$ раз, его начало помещаем в точку $x_0$, а его концом будет точка $x_1$.

На каждом шаге проверяем, уменьшилось ли значение функции и насколько. Если значение функции уменьшается больше заданной точности $\epsilon$, то берём точку $x_1$ за исходную и повторяем процесс, пока значения на последующем шаге будет мало отличаться от значения на предыдущем шаге:

\[x_k^{i+1} = x_k^i - h \frac{\partial f}{\partial x_k^i}\]

За меру близости к минимуму удобно принять сумму абсолютных значений производных

\[\epsilon = \sum_i \Bigl| \frac{\partial f}{\partial x_k} \Bigr|\]

Есть проблема выбора длины шага $h$: если он будет очень мал (точный поиск), мы будем двигаться слишком медленно и процесс займёт слишком много времени, а если $h$ будет слишком большим (грубый поиск), мы рискуем перескочить через минимум и попасть в другую яму, менее глубокую.

Для разумного сочетания быстроты и точности предлагается чередовать грубый и точный поиск в зависимости от того, насколько далеко мы находимся в данный момент $x^i$. Зададим две константы $\delta_1 < \delta_2$ и введём условия:

если $\epsilon > \delta_2$, то увеличиваем $h$
если $\delta_1 \le \epsilon < \delta_2$, то уменьшаем $h$
если $\epsilon < \delta_1$, то поиск окончен.

Первообразная, интеграл.¶

Теперь рассмотрим обратную задачу: у нас есть функция $f(x)$ (график или формула), которая является производной какой-то функции $F(x)$. Вопрос: как найти эту функцию $F(x)$?

Из определения производной можем найти только разность двух состояний:

\[\lim_{x \to x_0} \frac{F(x) - F(x_0)}{x-x_0} = f\]

Попробуем интерпретировать задачу в терминах физики: получается, у нас есть скорость $V(t)$, которая является изменением координаты точки на заданном участке пути. Но как всегда есть нюанс: мы знаем только скорость, но эта скорость может быть на любом участке пути, с одной и той же скоростью мы можем ехать по трассе Москва-Санкт-Петербург или Воронеж-Сочи. То есть сама координата нам не даст никакой информации, так как мы не знаем начало системы отсчёта (напоминает принцип Неопределённости Гейзенберга). А вот разность двух состояний/координат покажет, путь какой длины мы проехали.

Ещё одна аналогия из физики: потенциал сам по себе не несёт существенной информации - это работа по перемещению из бесконечно удалённой точки в точку $A$, а работу по перемещению заряда из точки $A$ в точку $B$ как раз представляет разность потенциалов $\phi(B)-\phi(A)$.

Итого, первообразная $F(x)$ - просто математически введённая функция, которая подгоняется как обратное действие к операции дифференцирования при помощи таблицы производных. Общей формулы для нахождения первообразных, аналогичной формуле для вычисления производной частного и произведения, не существует. Отметим, что такая функция определена с точностью до константы или представляет собой семейство параллельных функций: если $F(x)$ - первообразная, то и $F(x)+c$ - тоже первообразная, где $c=const$.

Строгое определение: первообразной для функции $f(x)$ называется такая функция $F(x)$, определённая на $(a;b)$, что $F'(x) = f(x)$ для любого $x \in (a;b)$.

Вернёмся к задаче о нахождении пройденного пути через известную скорость. В физических терминах $\frac{dS}{dt} = V, \, V dt = dS$, а вот тут мы как раз используем дифференциал - разбиваем весь путь на очень маленькие промежутки по времени, и на каждом из таких промежутков рассматриваем движение как равномерное - с одной и той же скоростью (приближение линейной функцией), на графике это как раз будет площадь прямоугольника со сторонами $V$ и $dt$.

А весь пройденный путь как раз равен сумме таких кусочков: $\quad S = \int_{t_1}^{t_2} V(t) \,dt$. А процесс суммирования в непрерывном случае назвали интегрированием. Отсюда получаем известный всем факт, что определённый интеграл равен площади под графиком функции. Воспользуемся площадью как функцией: берём одну из первообразных $F(x)= \int_{a}^{x} f(t)\,dt$ - зафиксировали начальную точку и движемся от неё вправо, получим функцию от конца пути или верхнего предела интегрирования, которая как раз покажет путь от $a$ до $x$.

Отметим, что мы описали путь поиска первообразной и такое представление $F(x)$ через интеграл - это пока наше предположение, надо математически доказать, что $F'(x) = f(x)$ для любого $x$.

Немного отвлечёмся на факт, который называется первая теорема о среднем, строгое доказательство можно найти в любом учебнике, нас интересует суть и физическая интерпретация:

*Первая теорема о среднем: пусть $f(x)$ - непрерывная и ограниченная на $[a;b]$ функция, тогда на этом отрезке найдётся такая точка $c$, что

\[\int_{a}^{b} f(x)\,dx = f(c) \int_{a}^{b} dx = f(c) (b-a)\]

Пройденный путь можно найти как среднюю скорость $f(c)$, умноженную на затраченное время $(b-a)$ - а это просто следует из физического определения средней скорости. Причём существует такой момент времени $c$, в который величина скорости как раз равнялась средней - весьма понятный интуитивно факт.

Итак, строго математически докажем, что функция $F(x)= \int_{a}^{x} f(t)\,dt$ будет первообразной для функции $f(x)$:

\[\begin{gathered} F'(x_0) = \lim_{x \to x_0} \frac{F(x) - F(x_0)}{x-x_0} = \lim_{x \to x_0} { \frac{\int_{a}^{x} f(t)\,dt - \int_{a}^{x_0} f(t)\,dt}{x-x_0} } = \\ = \lim_{x \to x_0} {\frac{\int_{x_0}^{x} f(t)\,dt}{x-x_0} } = \lim_{x \to x_0} {\frac{f(c)(x-x_0)}{x-x_0} } = \lim_{x \to x_0} {f(c)} = f(x_0)\end{gathered}\]

Последний переход обосновывается тем, что точка $c$ лежит между $x_0$ и $x$, и при стремлении $x \to x_0$ все три точки сжимаются в одну.