\documentclass[11pt]{report}


% Packages gestion des caractères, du français et de la mise en page

\usepackage[french]{babel}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\renewcommand{\FrenchLabelItem}{\textbullet}


% Packages maths

\usepackage{mathtools}
\usepackage{amsthm}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage{stmaryrd}


% Packages mise en page

\usepackage{enumitem}
\usepackage[margin=2.5cm]{geometry}
\usepackage[pdftex,pdfborder={0 0 0},linktoc=all]{hyperref}
\usepackage{pdfpages}
\usepackage{multicol}

\addto\captionsfrench{\vspace{-6ex}}


% Packages graphiques

\usepackage{subfig}
\usepackage{pgf,tikz}
\usetikzlibrary{arrows}
\usetikzlibrary{cd}
\usetikzlibrary{graphs}
\usepackage[figurename=Figure]{caption}



% Nouveaux environnements

\theoremstyle{plain}
	\newtheorem{thm}{Théorème}[section]
	\newtheorem{cor}[thm]{Corollaire}
	\newtheorem{lem}[thm]{Lemme}
	\newtheorem{prop}[thm]{Proposition}


\theoremstyle{definition}
	\newtheorem{dfn}[thm]{Définition}
	\newtheorem{ntn}[thm]{Notation}
	\newtheorem{exo}[thm]{Exercice}

\theoremstyle{remark}
	\newtheorem{rem}[thm]{Remarque}
	\newtheorem{ex}[thm]{Exemple}

		
\numberwithin{equation}{section}


% Commandes et opérateurs utiles

\newcommand{\C}{\mathbb{C}}
\newcommand{\N}{\mathbb{N}}
\renewcommand{\P}{\mathbb{P}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\R}{\mathbb{R}}
\renewcommand{\S}{\mathbb{S}}
\newcommand{\Z}{\mathbb{Z}}

\newcommand{\cA}{\mathcal{A}}
\newcommand{\cB}{\mathcal{B}}
\newcommand{\cC}{\mathcal{C}}
\newcommand{\cE}{\mathcal{E}}
\newcommand{\cF}{\mathcal{F}}
\newcommand{\cG}{\mathcal{G}}
\newcommand{\cN}{\mathcal{N}}
\newcommand{\cP}{\mathcal{P}}
\newcommand{\cU}{\mathcal{U}}
\newcommand{\cX}{\mathcal{X}}

\newcommand{\Poisson}{\; \propto \hspace{-0.96em} \cdot \hspace{0.5em}}

\renewcommand{\bar}{\overline}
\renewcommand{\epsilon}{\varepsilon}
\renewcommand{\geq}{\geqslant}
\renewcommand{\leq}{\leqslant}
\renewcommand{\tilde}{\widetilde}
\renewcommand{\hat}{\widehat}

\newcommand{\cov}[2]{\Cov\parentheses*{#1, #2}}
\newcommand{\CVL}[1]{\xrightarrow[#1]{\text{loi}}}
\newcommand{\CVP}[1]{\xrightarrow[#1]{\P}}
\newcommand{\CVps}[1]{\xrightarrow[#1]{\text{p.s.}}}
\newcommand{\dx}{\dmesure\!}
\newcommand{\esp}[2][]{\mathbb{E}_{#1}\squarebrackets*{#2}}
\newcommand{\espcond}[3][]{\mathbb{E}_{#1}\squarebrackets*{#2 \mvert #3}}
\newcommand{\gauss}[2]{\mathcal{N}\parentheses*{#1,#2}}
\newcommand{\mvert}{\mathrel{}\middle|\mathrel{}}
\newcommand{\one}{\mathbf{1}}
\newcommand{\trans}[1]{\,\prescript{\text{t}}{}{#1}}
\newcommand{\var}[2][]{\Var_{#1}\parentheses*{#2}}
\newcommand{\vol}[1]{\Vol\parentheses*{#1}}


\DeclareMathOperator{\card}{Card}
\DeclareMathOperator{\Cov}{Cov}
\DeclareMathOperator{\dist}{dist}
\DeclareMathOperator{\dmesure}{d}
\DeclareMathOperator{\Id}{Id}
\DeclareMathOperator{\vect}{Vect}
\DeclareMathOperator{\supp}{Supp}
\DeclareMathOperator{\sym}{Sym}
\DeclareMathOperator{\Tr}{Tr}
\DeclareMathOperator{\Var}{Var}
\DeclareMathOperator{\Vol}{Vol}

\DeclarePairedDelimiter{\ang}{\langle}{\rangle}
\DeclarePairedDelimiter{\brackets}{\{}{\}}
\DeclarePairedDelimiter{\ceil}{\lceil}{\rceil}
\DeclarePairedDelimiter{\floor}{\lfloor}{\rfloor}
\DeclarePairedDelimiter{\norm}{\lvert}{\rvert}
\DeclarePairedDelimiter{\Norm}{\lVert}{\rVert}
\DeclarePairedDelimiter{\parentheses}{(}{)}
\DeclarePairedDelimiterX{\prsc}[2]{\langle}{\rangle}{#1, #2}
\DeclarePairedDelimiter{\squarebrackets}{[}{]}
\DeclarePairedDelimiterX{\ssquarebrackets}[2]{\llbracket}{\rrbracket}{#1,#2}


% Informations du document

\author{Thomas Letendre}
\date{version du \today}
\title{Probabilités et Statistiques pour les Sciences des Données}


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{document}

\maketitle

\tableofcontents

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\chapter{Vocabulaire des probabilités}
\label{chap: voc proba}

\section{Espace de probabilité}
\label{sec: espace de proba}

\subsection{Tribu}
\label{subsec: tribu}

Soit $\Omega$ un ensemble, on note $\cP(\Omega)$ l'ensemble de ses parties. Pour tout $A \subset \Omega$ on note $A^c = \Omega \setminus A$.

\begin{dfn}[Tribu]
\label{def: tribu}
Une famille $\cA$ de parties de $\Omega$ est appelée une \emph{tribu} sur $\Omega$ si elle vérifie les propriétés suivantes:
\begin{enumerate}
\item $\Omega \in \cA$;
\item pour tout $A \in \cA$ on a $A^c \in \cA$;
\item pour tout suite $(A_k)_{k \in \N}$ d'éléments de $\cA$ on a $\bigcup_{k\in \N}A_k \in \cA$.
\end{enumerate}
On dit alors que $\parentheses*{\Omega,\cA}$ est un \emph{espace mesurable}.
\end{dfn}

\begin{rem}
\label{rem: tribu}
Si $\cA$ est une tribu sur $\Omega$ alors $\emptyset \in \cA$ et $\cA$ est stable par union finie, par intersection finie ou dénombrable, et par différence (si $A$ et $B \in \cA$ alors $B \setminus A \in \cA$).
\end{rem}

\begin{ex}
\label{ex: tribu}
\begin{itemize}
\item $\cP(\Omega)$ est une tribu sur $\Omega$.
\item Si $A \subset \Omega$, alors $\brackets{\emptyset,A,A^c,\Omega}$ est une tribu sur $\Omega$.
\end{itemize}
\end{ex}

En général, il est difficile d'expliciter les éléments d'une tribu. On la décrit plutôt par une famille génératrice.

\begin{lem}
\label{lem: intersection tribu}
Soient $(\cA_i)_{i \in I}$ une famille de tribus sur $\Omega$, alors $\cA = \bigcap_{i\in I}\cA_i$ est une tribu sur $\Omega$.
\end{lem}

\begin{proof}
Exercice, ou voir cours du premier semestre.
\end{proof}

\begin{dfn}[Tribu engendrée]
\label{def: tribu engendree}
Soit $\cC$ une famille de parties de $\Omega$, l'intersection de toutes les tribus contenant $\cC$ est la plus petite tribu sur $\Omega$ contenant $\cC$. Elle est appelée tribu \emph{engendrée} par~$\cC$ et on la note $\sigma(\cC)$.
\end{dfn}

\begin{dfn}[Boréliens]
\label{def: boreliens}
On note $\cB(\R^n)$ la tribu sur $\R^n$ engendrée par la famille des ouverts. Les éléments de $\cB(\R^n)$ sont appelés \emph{ensembles boréliens}.
\end{dfn}

Dans la suite, sauf mention explicite du contraire, on munit $\R^n$ de la tribu $\cB(\R^n)$. Il existe des parties non boréliennes de $\R^n$, mais elles sont difficiles à construire. En pratique, toutes les sous-ensembles de $\R^n$ que l'on rencontrera seront boréliens, et on ne se posera pas la question.

\begin{lem}
\label{lem: boreliens paves fermes}
La tribu $\cB(\R^n)$ est engendrée par la famille $\cF$ des pavés fermés, i.e. de la forme $\prod_{i=1}^n [a_i;b_i]$ avec $a_i \leq b_i$ pour tout $i \in \ssquarebrackets{1}{n}$.
\end{lem}

\begin{proof}
La tribu $\cB(\R^n)$ contient les ouverts donc les fermés. En particulier $\cF \subset \cB(\R^n)$, et donc $\sigma(\cF) \subset \cB(\R^n)$. Montrons que $\sigma(\cF)$ contient les ouverts de $\R^n$. On aura alors $\cB(\R^n)\subset\sigma(\cF)$, et donc $\cB(\R^n)=\sigma(\cF)$.

Soit $O$ un ouvert de $\R^n$, on note $\cF_O$ la famille des pavés inclus dans $O$ de la forme $\prod_{i=1}^n [a_i;b_i]$ avec $a_1,b_1,\dots,a_n,b_n \in \Q$. Pour tout $x \in O$, il existe $P \in \cF_O$ tel que $x \in P$, donc $O = \bigcup_{P \in \cF_O} P$. On a $\cF_O \subset \cF$ et $\cF_O$ est dénombrable car $\Q^{2n}$ l'est. Donc $O$ est réunion dénombrable d'éléments de~$\cF$, et donc $O \in \sigma(\cF)$. Donc $\sigma(\cF)$ contient les ouverts.
\end{proof}

\begin{lem}
\label{lem: boreliens paves repartition}
La tribu $\cB(\R^n)$ est engendrée par la famille $\cC$ des pavés de la forme $\prod_{i=1}^n ]-\infty;x_i]$ avec $(x_1,\dots,x_n) \in \R^n$.
\end{lem}

\begin{proof}
Pour tout $a_1 \leq b_1, \dots, a_n \leq b_n$, on a
\begin{equation*}
\prod_{i=1}^n \, ]a_i;b_i] = \parentheses*{\prod_{i=1}^n  \, ]-\infty;b_i]}\setminus \bigcup_{j=1}^n \parentheses*{\prod_{i=1}^{j-1} ]-\infty;b_i] \times ]-\infty;a_j] \times \prod_{i=j+1}^n ]-\infty;b_i]} \in \sigma(\cC),
\end{equation*}
puis $\prod_{i=1}^n [a_i;b_i] = \bigcap_{k \in \N} \prod_{i=1}^n ]a_i-\frac{1}{k};b_i] \in \sigma(\cC)$. Donc $\cF \subset \sigma(\cC)$, et $\cB(\R^n) = \sigma(\cF) \subset \sigma(\cC)$.

Inversement, pour tout $(x_1,\dots,x_n) \in \R^n$, on a $\prod_{i=1}^n\, ]-\infty;x_i] = \bigcup_{k \in \N} \prod_{i=1}^n [-k;x_i] \in \sigma(\cF)$. Donc $\cC \subset \sigma(\cF) = \cB(\R^n)$ et $\sigma(\cC) \subset \cB(\R^n)$. Finalement, $\cB(\R^n) =\sigma(\cC)$.
\end{proof}

Le même genre d'argument montre que $\cB(\R^n)$ est engendré par les fermés de $\R^n$, par les pavés ouverts, par les ensemble de la forme $\R^{j-1}\times [a_j;b_j] \times \R^{n-j}$,~\dots


\subsection{Mesure de probabilité}
\label{subsec: mesure de proba}

\begin{dfn}[Mesure de probabilité]
Soit $\parentheses*{\Omega,\cA}$ un espace mesurable, une \emph{mesure de probabilité} sur $\parentheses*{\Omega,\cA}$ est une fonction $\P:\cA \to [0;1]$ telle que:
\begin{enumerate}
\item $\P(\Omega) =1$;
\item pour tout suite $(A_k)_{k \in \N}$ d'éléments de $\cA$ deux à deux disjoints on a $\P(\bigsqcup_{k\in \N}A_k)= \sum_{k \in \N} \P(A_k)$.
\end{enumerate}
On dit alors que $\parentheses*{\Omega,\cA,\P}$ est un \emph{espace de probabilités}. On appelle $\Omega$ l'\emph{univers}. Les éléments de $\cA$ sont appelés \emph{évènements} et, pour tout $A \in \cA$, on dit que $\P(A)$ est la \emph{probabilité} de $A$.
\end{dfn}

\begin{prop}
\label{prop: proprietes mesure}
Soit $\parentheses*{\Omega,\cA,\P}$ un espace de probabilités, alors on a les propriétés suivantes.
\begin{itemize}
\item $\P(\emptyset) = 0$.
\item Pour tout $A,B \in \cA$ tels que $A \subset B$, on a $\P\parentheses*{B \setminus A} = \P(B) - \P(A)$. En particulier $\P(A) \leq P(B)$ et $\P(A^c) = 1 - \P(A)$.
\item Pour tout $A$ et $B \in \cA$ on a $\P(A \cup B) = \P(A) + \P(B) - \P(A\cap B)$.
\item Pour toute suite croissante $(A_k)_{k \in \N}$ d'éléments de $\cA$ (i.e. telle que $A_k \subset A_{k+1}$ pour tout $k \in \N$), on a $\P\parentheses*{\bigcup_{k \in \N} A_k} = \lim_{k \to +\infty} \P(A_k)$.
\item Pour toute suite décroissante $(A_k)_{k \in \N}$ d'éléments de $\cA$ (i.e. telle que $A_{k+1} \subset A_k$ pour tout $k \in \N$), on a $\P\parentheses*{\bigcap_{k \in \N} A_k} = \lim_{k \to +\infty} \P(A_k)$.
\end{itemize}
\end{prop}

\begin{proof}
Exercice, ou voir cours du premier semestre.
\end{proof}

\begin{ex}[Mesure uniforme sur un ensemble fini]
\label{ex: proba uniforme}
Si $\Omega$ est fini, la mesure uniforme $\P$ sur~$\Omega$ est la mesure de probabilité sur $\parentheses*{\Omega,\P(\Omega)}$ telle que $\P(A) = \frac{\card(A)}{\card(\Omega)}$ pour tout $A \subset \Omega$.

En particulier, si $\Omega = \ssquarebrackets{1}{6}$, on peut penser à $\Omega$ comme l'ensemble des résultats possibles lors du lancer d'un dé. Alors $\P(A)$ est la probabilité que le résultat appartienne à la partie $A\subset \Omega$. Par exemple $\P\parentheses{\brackets{2;4;6}}= \frac{1}{2}$ est la probabilité d'obtenir un résultat pair.
\end{ex}

\begin{ex}[Espace de probabilité discret]
\label{ex: proba discret}
Soit $\Omega$ un ensemble \emph{dénombrable}, c'est-à-dire fini ou en bijection avec $\N$. Quitte à numéroter ses éléments, on peut supposer que $\Omega =\ssquarebrackets{1}{N}$ (si $\card(\Omega)=N$) ou que $\Omega =\N$ (si $\Omega$ est infini). Soit $(p_\omega)_{\omega \in \Omega}$ une suite à valeurs dans $[0;1]$ et telle que $\sum_{\omega \in \Omega} p_\omega =1$. On définit une mesure de probabilité sur $\parentheses*{\Omega,\cP(\Omega)}$ par:
\begin{equation*}
\forall A \subset \Omega, \qquad \P(A) = \sum_{\omega \in A} p_\omega = \sum_{\omega \in \Omega} p_\omega \one_A(\omega),
\end{equation*}
où $\one_A:\Omega \to \brackets{0;1}$ est la fonction indicatrice de $A$. Inversement, si $\P$ est une mesure de probabilité sur $\parentheses*{\Omega,\cP(\Omega)}$ elle est de la forme précédente avec $p_\omega = \P\parentheses*{\brackets{\omega}}$ pour tout $\omega \in \Omega$.

Tout espace de probabilité de la forme $\parentheses*{\Omega,\cP(\Omega),\P}$ avec $\Omega$ dénombrable est dit \emph{discret}. La fonction $p:\omega \mapsto \P(\brackets{\omega})=p_\omega$ (ou de façon équivalente la suite $(p_\omega)_{\omega \in \Omega}$) est appelée la \emph{fonction de probabilité} associée à $\P$.
\end{ex}

En général, construire de bonnes mesures de probabilités est un problème difficile. Par exemple, pour des raisons qui sortent du cadre de ce cours, il est impossible de définir une probabilité $\P$ sur $\parentheses*{[0;1],\cP([0;1])}$ telle que $\P\parentheses*{[a;b]}=b-a$ pour tout $a$ et $b \in [0;1]$. C'est pour contourner ce genre de problème qu'on considère des tribus plus petites que l'ensemble des parties, comme les boréliens.

\begin{thm}[Carathéodory]
\label{thm: caratheodory}
Soit $f:\R^n \to [0,+\infty[$ une fonction intégrable et telle que $\int_{\R^n} f(x) \dx x=1$, alors il existe une unique mesure de probabilité sur $\parentheses*{\R^n,\cB(\R^n)}$ telle que, pour tout $a_1\leq b_1,\dots,a_n\leq b_n$ on a:
\begin{equation*}
\P\parentheses*{\prod_{i=1}^n [a_i;b_i]} = \int_{\prod_{i=1}^n [a_i;b_i]} f(x_1,\dots,x_n) \dx x_1 \dots \dx x_n.
\end{equation*}
\end{thm}

\begin{proof}
Difficile et admis. Voir~\cite[app.~A]{Ouv2009}.
\end{proof}

\begin{dfn}[Densité]
\label{def: densite}
Une mesure $\P$ du type précédent est appelée \emph{mesure à densité}. On dit que $f$ est la \emph{densité} de $\P$.
\end{dfn}

\begin{ex}[Mesure uniforme sur {$[a;b]$}]
\label{ex: uniforme intervalle}
Soient $a < b$, alors $f= \frac{1}{b-a} \one_{[a;b]}$ est intégrable sur $\R$ et d'intégrale $1$. La mesure de probabilité $\P$ sur $\parentheses*{\R,\cB(\R)}$ de densité $f$ est dite \emph{uniforme} sur $[a;b]$. Comme $\P\parentheses*{[a;b]}=1$, on la considère souvent comme une mesure de probabilité sur $[a;b]$ muni de sa tribu borélienne $\cB([a;b])=\brackets*{[a;b]\cap B \mvert B \in \cB(\R^n)}$.
\end{ex}

Dans le théorème de Carathéodory, on peut déduire l'unicité du résultat suivant.

\begin{thm}[Lemme de classe monotone]
\label{thm: classe monotone}
Soit $\Omega$ un ensemble et $\cC$ une famille de parties de $\Omega$ stable par intersection finie (si $B$ et $C \in \cC$ alors $B \cap C \in \cC$). Soient $\P_1$ et $\P_2$ deux mesures de probabilités sur $\parentheses*{\Omega,\sigma(\cC)}$. Si $\P_1(C) = \P_2(C)$ pour tout $C \in \cC$, alors $\P_1=\P_2$.

En particulier, deux mesures de probabilités sur $\parentheses*{\R^n,\cB(\R^n)}$ qui coïncident sur la famille $\cF$ des pavés fermés sont égales. De même, si elles coïncident sur les pavés de la forme $\prod_{i=1}^n ]-\infty,x_i]$, avec $(x_1,\dots,x_n)\in \R^n$.
\end{thm}

\begin{proof}
Moins difficile mais admis quand même. Voir~\cite[app.~A]{Ouv2009}.
\end{proof}

\begin{dfn}[Évènement presque sûr]
Soit $\parentheses*{\Omega,\cA,\P}$ un espace de probabilité, un évènement $A \in \cA$ est dit \emph{presque sûr} (p.s.) si $\P(A)=1$.
\end{dfn}

\begin{ex}
On considère la mesure de probabilité uniforme sur $[0;1]$. Alors $\P([0;1]) = \int_0^1 \dx t =1$, donc $[0,1]$ est un évènement presque sûr. Pour tout $x \in [0;1]$, on a $\P(\brackets{x})=\int_x^x \dx t =0$. Donc $\P([0;1]\cap\Q)=\P\parentheses*{\bigsqcup_{x \in [0;1] \cap \Q} \brackets{x}} = \sum_{x \in [0;1] \cap \Q} \P(\brackets{x})=0$, et donc $\P\parentheses*{[0;1] \setminus \Q}=1$ et $[0;1] \setminus \Q$ est aussi un évènement presque sûr.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Variables aléatoires}
\label{sec: variables aléatoires}

\subsection{Cadre général}
\label{subsec: cadre général}

\begin{dfn}[Variable aléatoire]
\label{def variable aleatoire abstraite}
Soient $\parentheses*{\Omega,\cA,\P}$ un espace de probabilité et $\parentheses*{E,\cB}$ un espace mesurable. Une fonction $X:\Omega \to E$ est appelée une \emph{variable aléatoire} (v.a.) si elle est \emph{mesurable}, i.e.~si pour tout $B \in \cB$ on a $X^{-1}(B) \in \cA$. Pour tout $B \in \cB$, on note alors $(X \in B)$ l'évènement $X^{-1}(B) = \brackets{\omega \in \Omega \mid X(\omega)\in B}$.
\end{dfn}

\begin{rem}
\label{rem: variable aleatoire}
Si $\parentheses*{\Omega,\cA,\P}$ est discret (i.e.~si $\cA=\cP(\Omega)$) alors toute fonction de $\Omega$ vers un espace mesurable est une variable aléatoire.
\end{rem}

\begin{lem}
\label{lem: mesure image}
Si $X$ est une telle variable aléatoire, alors on définit une mesure de probabilité $\P_X$ sur $\parentheses*{E,\cB}$ par $\P_X : B \mapsto \P\parentheses*{X^{-1}(B)}=\P\parentheses{X \in B}$.
\end{lem}

\begin{proof}
On a $\P_X(E) = \P(X^{-1}(E)) = \P(\Omega)=1$. Par ailleurs, si $(B_k)_{k \in \N}$ sont des éléments deux à deux disjoints de $\cB$, alors les $\parentheses*{X^{-1}(B_k)}_{k \in \N}$ sont des éléments deux à deux disjoints de $\cA$ et
\begin{equation*}
\P_X\parentheses*{\bigsqcup_{k \in \N} B_k} = \P\parentheses*{X^{-1}\parentheses*{\bigsqcup_{k \in \N} B_k}} = \P\parentheses*{\bigsqcup_{k \in \N} X^{-1}(B_k)} = \sum_{k \in \N} \P\parentheses*{X^{-1}(B_k)} = \sum_{k \in \N}\P_X(B_k).\qedhere
\end{equation*}
\end{proof}

\begin{dfn}[Loi d'une variable aléatoire]
\label{def: loi va}
La mesure $\P_X$ est appelée la \emph{loi} ou la \emph{distribution} de la variable aléatoire $X$.
\end{dfn}

\begin{rem}
\label{rem: loi va}
\begin{itemize}
\item Toute mesure de probabilité est la loi d'une variable aléatoire. En effet, si $\P$ est une probabilité sur $\parentheses*{\Omega,\cA}$, alors $\P = \P_X$ où $X=\Id_{\vert \Omega}$.
\item Souvent, on ne s'intéresse qu'à la loi de $X$. Dans ce cas, on peut directement travailler avec $\parentheses*{E,\cB,\P_X}$, sans avoir à expliciter $\parentheses*{\Omega,\cA,\P}$.
\item Si, par exemple, $X$ est une variable de Bernoulli de paramètre $\frac{1}{2}$, c'est-à-dire à valeurs dans $\brackets{0;1}$ et $\P(X=0)=\frac{1}{2} =\P(X=1)$, alors $X$ et $1-X$ sont deux variables aléatoires différentes de même loi. Si on veut les différencier, on ne peut pas juste regarder leurs lois. Il faut les considérer en tant que fonctions, et donc connaitre $\parentheses*{\Omega,\cA,\P}$.
\end{itemize}
\end{rem}

\begin{lem}
\label{lem: mesurable famille generatrice}
Soit $X:\Omega \to E$ où $\parentheses*{\Omega,\cA,P}$ est un espace de probabilité et $\parentheses*{E,\cB}$ est un espace mesurable. Soit $\cC \subset \cB$ telle que $\sigma(\cC) =\cB$, alors $X$ est une variable aléatoire si et seulement si, pour tout $B \in \cC$, $X^{-1}(B) \in \cA$.
\end{lem}

\begin{proof}
La condition est nécessaire puisque $\cC \subset \cB$. Soit $\cB'=\brackets{B \subset E \mid X^{-1}(B) \in \cA}$, on a $\cC \subset \cB'$. Montrons que $\cB'$ est une tribu. On aura alors $\cB =\sigma(\cC) \subset \cB'$, ce qui prouvera le résultat.

On a $X^{-1}(E)=\Omega$, donc $E \in \cB'$. Si $B \in \cB'$ alors $X^{-1}(E \setminus B) = \Omega \setminus X^{-1}(B)$. Comme $X^{-1}(B)$ est dans $\cA$ son complémentaire aussi, et donc $B^c \in \cB'$. Enfin, soit $(B_k)_{k \in \N}$ des éléments de $\cB'$, on a $X^{-1}\parentheses*{\bigcup_{k \in \N} B_k} = \bigcup_{k \in \N} X^{-1}(B_k) \in \cA$ et donc $\bigcup_{k \in \N} B_k \in \cB'$.
\end{proof}


\subsection{Variables à valeurs dans \texorpdfstring{$\R^n$}{}}
\label{subsec: va a valeurs dans Rn}

Dorénavant, on considère des variables aléatoires à valeurs dans $(\R^n,\cB(\R^n))$. On parlera de \emph{variable aléatoire réelle} (v.a.r.) si $n=1$ et de \emph{vecteur aléatoire} si $n \geq 2$. D'après le lemme~\ref{lem: mesurable famille generatrice}, pour prouver que $X$ est une variable aléatoire de $\parentheses*{\Omega,\cA,\P}$ dans $\R^n$, il suffit de montrer que $X^{-1}(B) \in \cA$ pour tout $B$ dans l'une des familles suivantes: les ouverts de $\R^n$; les fermés de $\R^n$; les pavés ouverts; les pavés fermés; les pavés de la forme $\prod_{i=1}^n ]-\infty;x_i]$ avec $(x_1,\dots,x_n) \in\R^n$.

\begin{cor}
\label{cor: va continuite}
Soient $X:\Omega \to \R^n$ une variable aléatoire et $\varphi:\R^n \to \R^m$ une fonction continue, alors $\varphi(X)$ est une variable aléatoire à valeurs dans $\R^m$.
\end{cor}

\begin{proof}
Soit $O \subset \R^m$ un ouvert. Par continuité $\varphi^{-1}(O)$ est ouvert de $\R^n$ donc borélien. Donc $(\varphi\circ X)^{-1}(O) = X^{-1}(\varphi^{-1}(O)) \in \cA$. Donc, pour tout $O$ ouvert de $\R^m$, on a $(\varphi \circ X)^{-1}(O) \in \cA$.
\end{proof}

\begin{cor}
\label{cor composante de va}
Soit $X=(X_1,X_2,\dots,X_n)$ de $\Omega$ dans $\R^n$, alors $X$ est un vecteur aléatoire si et seulement si les $(X_i)_{1 \leq i \leq n}$ sont des variables aléatoires réelles.
\end{cor}

\begin{proof}
Notons $\pi_i:(x_1,\dots,x_n)\mapsto x_i$ de $\R^n$ dans $\R$. Si $X$ est un vecteur aléatoire alors, pour tout $i \in \ssquarebrackets{1}{n}$, $X_i=\pi_i \circ X$ est une v.a.r. par continuité de $\pi_i$. Inversement, si les $(X_i)_{1 \leq i \leq n}$ sont des v.a.r., pour tout $a_1 \leq b_1,\dots,a_n \leq b_n$ on a:
\begin{equation*}
X^{-1}\parentheses*{\prod_{i=1}^n [a_i;b_i]} = \brackets*{\omega \in \Omega \mvert \forall i \in \ssquarebrackets{1}{n}, X_i(\omega) \in [a_i;b_i]} = \bigcap_{i=1}^n X_i^{-1}([a_i;b_i]) \in \cA.
\end{equation*}
Donc $X$ est un vecteur aléatoire d'après les lemmes~\ref{lem: mesurable famille generatrice} et~\ref{lem: boreliens paves fermes}.
\end{proof}

\begin{dfn}[Variable discrète]
\label{def: va discrete}
On dit qu'une variable aléatoire $X:\Omega \to \R^n$ est \emph{discrète} si $X(\Omega)$ est un ensemble dénombrable.
\end{dfn}

\begin{lem}
\label{lem: va discrete}
Soient $D \subset \R^n$ un ensemble dénombrable et $X:\Omega \to D$. La fonction $X$ est une variable aléatoire discrète sur $\parentheses*{\Omega,\cA,\P}$ si et seulement si, pour tout $x \in D$, on a $X^{-1}(\brackets{x}) \in \cA$.
\end{lem}

\begin{proof}
Si $X$ est une variable aléatoire alors elle est discrète. De plus, pour tout $x \in D$ on a $\brackets{x} \in \cB(\R^n)$ et donc $X^{-1}(\brackets{x}) \in \cA$.

Inversement, supposons cette condition réalisée. Soit $B \in \cB(\R^n)$, alors $B \cap D$ est dénombrable. Donc $X^{-1}(B) = X^{-1}(B \cap D) = \bigsqcup_{x \in B \cap D} X^{-1}(\brackets{x}) \in \cA$. C'est vrai pour tout $B \in \cB(\R^n)$, donc $X$ est bien une variable aléatoire.
\end{proof}

\begin{cor}
\label{cor: va discrete}
Soient $X$ une v.a. discrète à valeurs dans $D \subset \R^n$ et $\varphi:D \to \R^m$, alors $\varphi(X)$ est une v.a. discrète.
\end{cor}

\begin{proof}
On a $(\varphi\circ X)(\Omega) \subset \varphi(D)$ donc c'est un ensemble dénombrable. Soit $y \in \varphi(D)$ alors $\varphi^{-1}(\brackets{y}) \subset D$ est dénombrable et
\begin{equation*}
(\varphi\circ X)^{-1}(\brackets{y}) = X^{-1}\parentheses*{\varphi^{-1}(\brackets{y})} = X^{-1}\parentheses*{\bigsqcup_{x \in \varphi^{-1}(\brackets{y})}\brackets{x}} = \bigsqcup_{x \in \varphi^{-1}(\brackets{y})}X^{-1}(\brackets{x}) \in \cA.
\end{equation*}
Donc $(\varphi\circ X)^{-1}(\brackets{y}) \in \cA$ pour tout $y \in \varphi(D)$ et $\varphi(X)$ est une v.a. discrète par le lemme~\ref{lem: va discrete}.
\end{proof}

\begin{lem}
\label{lem: loi va discrete}
Soient $X:\Omega \to \R^n$ une variable aléatoire discrète et $D = X(\Omega)\subset \R^n$. La loi $\P_X$ de $X$ est totalement déterminée par sa fonction de probabilité, i.e.~par $\parentheses*{\P(X=x)}_{x \in D}$.
\end{lem}

\begin{proof}
Pour tout $B \in \cB(\R^n)$, comme $B \cap D \subset D$ est dénombrable, on a
\begin{equation*}
\P_X(B) = \P(X^{-1}(B)) = \P\parentheses*{X^{-1}(B \cap D)} = \P\parentheses*{\bigsqcup_{x \in B \cap D}X^{-1}(\brackets{x})} =\sum_{x \in B \cap D} \P(X=x).\qedhere
\end{equation*}
\end{proof}

\begin{dfn}[Variable à densité]
\label{def: va densite}
On dit qu'une variable aléatoire $X:\Omega \to \R^n$ est \emph{à densité} si sa loi $\P_X$ est une mesure à densité, i.e.~s'il existe $f:\R^n \to [0,+\infty[$ intégrable d'intégrale $1$ telle que, pour tout $a_1\leq b_1,\dots,a_n\leq b_n$, on a $\P\parentheses*{X \in \prod_{i=1}^n [a_i;b_i]} = \int_{\prod_{i=1}^n [a_i;b_i]} f(x_1,\dots,x_n) \dx x_1 \dots \dx x_n$.
\end{dfn}

\begin{lem}
\label{lem: loi va densite}
Soient $X:\Omega \to \R^n$ une variable aléatoire admettant une densité $f$. La loi $\P_X$ de~$X$ est totalement déterminée par $f$.
\end{lem}

\begin{proof}
La densité $f$ détermine $\P_X$ sur la famille $\cF$ des pavés fermés, qui est stable par intersection et engendre $\cB(\R^n)$, voir lemme~\ref{lem: boreliens paves fermes}. Donc $f$ détermine totalement $\P_X$ d'après le lemme de classe monotone, voir théorème~\ref{thm: classe monotone}.
\end{proof}


\subsection{Fonction de répartition}
\label{subsec: fonction de repartition}

\begin{dfn}[Fonction de répartion]
\label{def: fonction de repartition}
Soit $X$ une variable aléatoire à valeurs dans $\R^n$. Sa \emph{fonction de répartition} est la fonction $F_X:(x_1,\dots,x_n) \mapsto \P\parentheses*{X \in \prod_{i=1}^n ]-\infty;x_i]}$ de $\R^n$ dans~$[0;1]$.
\end{dfn}

\begin{lem}
\label{lem: fonction de repartition caracterise}
La fonction $F_X$ caractérise la loi de $X$.
\end{lem}

\begin{proof}
Si on connait $F_X$ alors on connait $\P_X\parentheses*{\prod_{i=1}^n ]-\infty;x_i]} = \P\parentheses*{X \in \prod_{i=1}^n ]-\infty;x_i]}$ pour tout $(x_1,\dots,x_n) \in \R^n$. Comme la famille $\cC$ des pavés de cette forme est stable par intersection et engendre $\cB(\R^n)$, voir lemme~\ref{lem: boreliens paves repartition}, on déduit le résultat du lemme de classe monotone~\ref{thm: classe monotone}.
\end{proof}

\begin{prop}
\label{prop: fonction de repartition}
Soit $X$ une v.a.r., alors $F_X:\R \to [0;1]$ a les propriétés suivantes.
\begin{itemize}
\item $F_X$ est croissante, en particulier elle admet une limite à droite et à gauche en tout point.
\item $F_X$ est continue à droite: pour tout $x_0 \in \R$, $F_X(x_0)\xrightarrow[x \to x_0^+]{}F_X(x_0)$.
\item $F_X(x) \xrightarrow[x \to -\infty]{}0$ et $F_X(x) \xrightarrow[x \to +\infty]{}1$.
\item Pour tout $a \leq b$ on a $P_X([a;b]) = F_X(b) - \lim_{x \to a^-}F_X(x)$.
\end{itemize}
\end{prop}

\begin{proof}
Exercice en utilisant les propriétés de $\P_X$, voir proposition~\ref{prop: proprietes mesure}.
\end{proof}

\begin{ex}
\label{ex: fonction de repartition discrete}
Soit $X$ une v.a.r. discrète, disons à valeur dans $\Z$. Pour tout $n \in \Z$, la fonction $F_X$ est constante sur $[n;n+1[$, égale à $\P_X(]-\infty;n]) = \sum_{k\leq n} \P(X=k)$. En $n+1$, la fonction présente un saut de hauteur $\P(X=n+1)$.
\end{ex}

\begin{ex}
\label{ex: fonction de repartition densite}
Soit $X$ une v.a.r. admettant une densité $f$. Alors $F_X: x \mapsto \int_{-\infty}^x f(t) \dx t$ est continue. De plus, si $f$ est continue en $x \in \R$, alors $F_X$ est dérivable en $x$ et $F_X'(x)=f(x)$.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Espérance et moments d'une variable aléatoire réelle}
\label{sec: esperance et moments d'une var}

Dans cette section, on fixe un espace de probabilité abstrait $(\Omega,\cA,\P)$ sur lequel seront définies toutes nos variables aléatoires.


\subsection{Espérance}
\label{subsec: espérance}

\begin{dfn}[Espérance]
\label{def: esperance}
Soit $X$ une v.a. réelle. Si $X$ est à valeurs dans $[0;+\infty[$, on peut définir son \emph{espérance} $\esp{X} \in [0;+\infty]$. Si $X$ est à valeurs dans $\R$ et $\esp{\norm{X}}<+\infty$, on dit que $X$ est \emph{intégrable} ou $L^1$, et on peut définir son \emph{espérance} $\esp{X} \in \R$. Dans les deux cas, $\esp{X}$ est défini par:
\begin{itemize}
\item $\esp{X} = \sum_{x \in D} x \P(X=x)$, si $X$ est discrète à valeurs dans $D$ dénombrable;
\item $\esp{X} = \int_\R xf(x) \dx x$, si $X$ admet une densité $f$;
\item $\esp{X} = \int_\Omega X(\omega) \dx \P(\omega)$, en général.
\end{itemize}
On dit qu'une v.a.r. intégrable $X$ est \emph{centrée} si $\esp{X}=0$.
\end{dfn}

Dans le dernier cas, on a besoin de la théorie de la mesure pour donner du sens à $\esp{X}$, ce qui sort du cadre de ce cours. On se contentera donc de retenir qu'on peut donner du sens à $\esp{X}$, et que cette quantité s'interprète comme la moyenne des valeurs de $X$ sur $\Omega$, pour la répartition de masse donnée par $\P$. Si $X$ est une v.a.r. positive ou $L^1$, on peut prouver que $\esp{X} = \int_{\R} x \dx \P_X(x)$ (avec de la théorie de la mesure toujours). En particulier, $\esp{X}$ ne dépend que de la loi $\P_X$ de $X$.

\begin{ex}
\label{ex: esperance et P}
Soit $A \in \cA$, sa fonction indicatrice $\one_A:\Omega \to \brackets{0;1}$ définit une v.a.r. discrète et $\esp{\one_A} = \P(\one_A(\omega)=1) = \P(A)$.
\end{ex}

\begin{prop}[Propriétés de l'espérance]
\label{prop: esperance}
Soient $X$ et $Y$ des v.a.r. et $\lambda \in \R$.
\begin{itemize}
\item Si $X\geq Y \geq 0$ alors $\esp{X}\geq \esp{Y}\geq 0$. De plus $\esp{X}=0$ si et seulement si $X=0$ p.s.
\item Si $\lambda \geq 0$ et $X$ et $Y$ sont à valeurs positives alors $\esp{X+\lambda Y} =\esp{X}+\lambda \esp{Y}$.
\item Si $X$ et $Y$ sont $L^1$ alors $X+\lambda Y$ est $L^1$ et $\esp{X +\lambda Y}=\esp{X}+\lambda \esp{Y}$.
\end{itemize}
\end{prop}

\begin{proof}
Admis.
\end{proof}

\begin{dfn}[Espace $L^1$]
\label{def: espace L1}
On note $L^1(\Omega,\cA,\P)$ l'ensemble des v.a.r. intégrables sur $\parentheses*{\Omega,\cA,\P}$. La notation est parfois abrégée en $L^1(\Omega)$ si $\cA$ et $\P$ sont clairs d'après le contexte.
\end{dfn}

\begin{rem}
\label{rem: espace L1}
Le dernier point de la proposition~\ref{prop: esperance} affirme que $L^1(\Omega)$ est un $\R$-espace vectoriel, et que $\mathbb{E}:L^1(\Omega) \to \R$ est une forme linéaire sur cet espace.
\end{rem}

\begin{thm}[De tranfert]
\label{thm: transfert}
Soient $X$ une v.a. à valeurs dans $\R^n$ et $\varphi:\R^n \to \R$.
\begin{itemize}
\item Si $X$ est discrète, à valeurs dans $D \subset \R^n$ dénombrable, et si $\sum_{x \in D} \norm{\varphi(x)}\P(X=x) <+\infty$, alors $\varphi(X)$ est une v.a.r. intégrable et $\esp{\varphi(X)} = \sum_{x \in D} \varphi(x)\P(X=x)$.
\item Si $X$ admet la densité $f$ et si $\norm{\varphi} f$ est intégrable sur $\R^n$, alors $\varphi(X)$ est une v.a.r. intégrable et $\esp{\varphi(X)} = \int_{\R^n} \varphi(x)f(x) \dx x$.
\end{itemize}
\end{thm}

\begin{proof}
Admis.
\end{proof}

\begin{prop}[Markov]
\label{prop: Markov}
Soit $X$ une v.a.r. $L^1$. Pour tout $C>0$, on a $\P\parentheses*{X \geq C}\leq \frac{\esp{X}}{C}$.
\end{prop}

\begin{proof}
Notons $A = \brackets{\omega \in \Omega \mid X(\omega) \geq C} = X^{-1}([C;+\infty[) \in \cA$. Pour tout $\omega \in \Omega$, on a $C \one_A(\omega) \leq X(\omega)$. Donc $X - C \one_A$ est à valeurs positive et $\esp{X -C \one_A}\geq 0$. Donc
\begin{equation*}
\esp{X} \geq C \esp{\one_A} = C \P(A) = C \P(X \geq C).\qedhere
\end{equation*}
\end{proof}


\subsection{Variance et moments}
\label{subsec: variance et moments}

\begin{dfn}[Variable $L^p$]
\label{def: variable Lp}
Soient $X$ une v.a.r. et $p \in \N^*$, on dit que $X$ est $L^p$ ou que $X$ \emph{admet un moment d'ordre $p$} si $\esp{\norm{X}^p}<+\infty$. On dit que $X$ est $L^\infty$ ou \emph{bornée presque sûrement} s'il existe $M \geq 0$ tel que $\P\parentheses*{\norm{X}\leq M}=1$.
\end{dfn}

\begin{dfn}[Espace $L^p$]
\label{def: espace Lp}
Soit $p \in \N^* \sqcup \brackets{\infty}$, on note $L^p(\Omega,\cA,\P)$ (ou parfois $L^p(\Omega)$) l'ensemble des v.a.r. $L^p$ sur $\parentheses*{\Omega,\cA,\P}$.
\end{dfn}

\begin{lem}
\label{lem: Lp ev}
Pour tout $p \in \N^* \sqcup \brackets{\infty}$, l'ensemble $L^p(\Omega,\cA,\P)$ est un $\R$-espace vectoriel.
\end{lem}

\begin{proof}
Montrons que $L^p(\Omega)$ est un sous-ev de l'espace des fonctions de $\Omega$ dans~$\R$. On traite d'abord le cas $p=\infty$. Soient $X$ et $Y \in L^\infty(\Omega)$ et $\lambda \in \R$. Il existe $M\geq 0$ et $N \geq 0$ tels que $\P(\norm{X}\leq M)=1=\P(\norm{Y}\leq N)$. Si $\norm{X}\leq M$ et $\norm{Y} \leq N$ alors $\norm{X+\lambda Y}\leq \norm{X}+\norm{\lambda}\norm{Y}\leq M+\norm{\lambda}N$. Par contraposée, si $\norm{X+\lambda Y}>M+\norm{\lambda}N$ alors $\norm{X}>M$ ou $\norm{Y}>N$. Donc, en notant $C=M+\norm{\lambda}N$,
\begin{equation*}
\P\parentheses*{\norm{X+\lambda Y}>C} \leq \P\parentheses*{\norm{X}>M \ \text{ou} \ \norm{Y}>N} \leq \P\parentheses*{\norm{X}>M}+\P\parentheses*{\norm{Y}>N}=0.
\end{equation*}
Donc $\P\parentheses*{\norm{X+\lambda Y}\leq C}=1$ et $X +\lambda Y \in L^\infty(\Omega)$.

Soit $p \in \N^*$, soient $X$ et $Y \in L^p(\Omega)$ et $\lambda \in \R$, on a
\begin{equation*}
\norm{X+\lambda Y}^p \leq \parentheses*{\norm{X}+\norm{\lambda}\norm{Y}}^p = \sum_{k=0}^p \binom{p}{k} \norm{\lambda}^k \underbrace{\norm{Y}^k\norm{X}^{p-k}}_{\leq \norm{X}^p+\norm{Y}^p} \leq (\norm{X}^p+\norm{Y}^p)(1+\norm{\lambda})^p.
\end{equation*}
Donc $\esp{\norm{X+\lambda Y}^p} \leq (1+\norm{\lambda})^p \parentheses*{\esp{\norm{X}^p}+\esp{\norm{Y}^p}} <+\infty$ et $X +\lambda Y \in L^p(\Omega)$.
\end{proof}

\begin{lem}
\label{lem: inclusion Lp}
Soient $p$ et $q \in \N^*\sqcup \brackets{\infty}$ tels que $p \geq q$, alors $L^p(\Omega) \subset L^q(\Omega)$.
\end{lem}

\begin{proof}
Soit $X \in L^p(\Omega)$. Supposons d'abord $p \in \N^*$. Pour tout $\omega \in \Omega$, si $\norm{X(\omega)} \leq 1$ on a $\norm{X(\omega)}^q \leq 1$; si $\norm{X(\omega)} \geq 1$ on a $\norm{X(\omega)}^q \leq \norm{X(\omega)}^p$. Dans tous les cas $\norm{X(\omega)}^q \leq 1 + \norm{X(\omega)}^p$. Donc $\esp{\norm{X}^q} \leq \esp{1+\norm{X}^q} \leq 1 + \esp{\norm{X}^p}<+\infty$ et $X \in L^q(\Omega)$.

Si maintenant $p=\infty$, il existe $M \geq 0$ tel que $A = \brackets*{\omega \in \Omega \mvert \norm{X(\omega)}\leq M}$ est presque sûr. On peut supposer $q <p$, et alors $\one_A \norm{X}^q \leq M^q$. Comme $A^c$ est de proba nulle, on a $\one_{A^c}\norm{X}^q$ positive et nulle p.s., donc $\esp{\norm{X}^q} = \esp{\one_A \norm{X}^q}+\esp{\one_{A^c}\norm{X}^q} = \esp{\one_A \norm{X}^q} \leq M^q <+\infty$ et $X \in L^q(\Omega)$.
\end{proof}

\begin{rem}
\label{rem: inclusion Lp}
La preuve montre que si $\norm{X}\leq M$ presque sûrement alors $\esp{\norm{X}}\leq M$.
\end{rem}

\begin{dfn}[Moments]
\label{def: moments}
Soient $p \in \N^*$ et $X \in L^p(\Omega)$, on appelle \emph{moment} (resp.~\emph{moment centré}) d'ordre $p$ de $X$ la quantité $\esp{X^p}$ (resp.~$\esp{\parentheses*{X-\esp{X}}^p}$).
\end{dfn}

\begin{dfn}[Variance]
\label{def: variance}
Soit $X \in L^2(\Omega)$, sa \emph{variance} est son moment centré d'ordre $2$:
\begin{equation*}
\var{X} = \esp{\parentheses*{X-\esp{X}}^2} = \esp{X^2} - \esp{X}^2.
\end{equation*}
L'\emph{écart-type} de $X$ est $\sqrt{\var{X}}$. On dit que $X$ est réduite si $\var{X}=1$.
\end{dfn}

\begin{prop}[Propriétés de la variance]
Soit $X \in L^2(\Omega)$, on a:
\begin{itemize}
\item $\var{X}=0$ si et seulement si $X=\esp{X}$ p.s., c'est-à-dire $X$ est constante p.s.
\item pour tout $a$ et $b\in \R$, $\var{aX+b}=a^2 \var{X}$.
\end{itemize}
\end{prop}

\begin{proof}
Exercice.
\end{proof}

\begin{lem}[Inégalité de concentration]
\label{lem: concentration}
Soient $p \in \N^*$ et $X \in L^p(\Omega)$, pour tout $\epsilon>0$ on a
\begin{equation*}
\P\parentheses*{\norm{X-\esp{X}}\geq \epsilon} \leq \frac{1}{\epsilon^p}\esp{\norm{X-\esp{X}}^p}.
\end{equation*}
En particulier, si $X \in L^2(\Omega)$, pour tout $\epsilon>0$ on a $\P\parentheses*{\norm{X-\esp{X}}\geq \epsilon} \leq 
\frac{\var{X}}{\epsilon^2}$. C'est l'inégalité de Bienaymé--Chebyshev.
\end{lem}

\begin{proof}
Soit $\epsilon>0$, on a $\P\parentheses*{\norm{X-\esp{X}}\geq \epsilon} = \P\parentheses*{\norm{X-\esp{X}}^p\geq \epsilon^p} \leq \frac{1}{\epsilon^p}\esp{\norm{X-\esp{X}}^p}$ en appliquant l'inégalité de Markov.
\end{proof}

\begin{ex}
Si $X\in L^2(\Omega)$ centrée et réduite, $\P(\norm{X}\geq 10)=\P(\norm{X-\esp{X}}\geq 10) \leq \frac{\var{X}}{100}=\frac{1}{100}$.
\end{ex}

\begin{prop}[Inégalité de Cauchy--Schwarz]
Soient $X$ et $Y \in L^2(\Omega)$ alors $XY \in L^1(\Omega)$ et $\norm{\esp{XY}} \leq \sqrt{\esp{X^2}}\sqrt{\esp{Y^2}}$.
\end{prop}

\begin{proof}
On a $0 \leq \norm{X}\norm{Y} \leq X^2+Y^2$ donc $\esp{\norm{X}\norm{Y}} \leq \esp{X^2}+\esp{Y^2}<+\infty$ et donc $XY \in L^1(\Omega)$. Ensuite, pour tout $\lambda \in \R$, on a $X+\lambda Y \in L^2(\Omega)$ et
\begin{equation*}
0 \leq \esp{(X+\lambda Y)^2} = \esp{X^2} + 2\lambda \esp{XY} + \lambda^2 \esp{Y^2}.
\end{equation*}
Ce polynôme de degré $2$ en $\lambda$ reste positif, donc son discriminant $4\esp{XY}^2 - 4\esp{X^2}\esp{Y^2}$ est négatif ou nul. Donc $\esp{XY}^2\leq \esp{X^2}\esp{Y^2}$.
\end{proof}

\begin{dfn}[Covariance]
\label{def: covariance}
Soient $X$ et $Y \in L^2(\Omega)$, on appelle \emph{covariance} de $X$ et $Y$ la quantité $\cov{X}{Y}=\esp{\parentheses*{X-\esp{X}}\parentheses*{Y-\esp{Y}}} =\esp{XY}-\esp{X}\esp{Y}$. Si $\cov{X}{Y}=0$, on dit que $X$ et $Y$ sont \emph{décorrélées}.
\end{dfn}

\begin{prop}[Propriété de la covariance]
\label{prop: covariance}
L'application $(X,Y) \mapsto \cov{X}{Y}$ est bilinéaire symétrique sur $L^2(\Omega)$. De plus, pour tout $X$ et $Y\in L^2(\Omega)$, on a:
\begin{itemize}
\item $\cov{X}{X} = \var{X} \geq 0$;
\item $\norm{\cov{X}{Y}} \leq \sqrt{\var{X}}\sqrt{\var{Y}}$, en particulier $\cov{X}{Y}=0$ si $X$ ou $Y$ est constante p.s.\!;
\item $\var{X+Y} = \var{X}+2\cov{X}{Y}+\var{Y}$.
\end{itemize}
\end{prop}

\begin{proof}
Exercice.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Indépendance}
\label{sec: independance}

De nouveau, on fixe un espace de probabilité abstrait $(\Omega,\cA,\P)$ sur lequel seront définies toutes nos variables aléatoires.


\subsection{Lois marginales et mesure produit}
\label{subsec: lois marginales et mesure produit}

\begin{dfn}[Marginales]
\label{def: marginales}
Soit $X=(X_1,\dots,X_n)$ un vecteur aléatoire à valeurs dans $\R^n$. Les v.a.r. $(X_i)_{1 \leq i \leq n}$ sont appelées les \emph{marginales} de $X$. Leurs lois $(\P_{X_i})_{1 \leq i \leq n}$ sont appelées les \emph{lois marginales} de la loi $\P_X$ de $X$.
\end{dfn}

Soit $i \in \ssquarebrackets{1}{n}$, pour tout $B \in \cB(\R)$, on a
\begin{equation}
\label{eq: loi marginale}
\P_{X_i}\parentheses*{B} = \P(X_i \in B) =\P\parentheses*{X \in \R^{i-1}\times B \times \R^{n-i}} = \P_X\parentheses*{\R^{i-1}\times B \times \R^{n-i}}.
\end{equation}
Donc, les lois marginales $(\P_{X_i})_{1 \leq i \leq n}$ sont totalement déterminées par la loi $\P_X$. Dans le cas d'une loi discrète ou à densité, cela se traduit comme suit.

\begin{prop}
\label{prop: loi marginales discrete ou densite}
Soit $X=(X_1,\dots,X_n)$ un vecteur aléatoire à valeur dans $\R^n$. Soit $i\in \ssquarebrackets{1}{n}$ et $\Pi_i:(x_1,\dots,x_n) \mapsto x_i$.
\begin{itemize}
\item Si $X$ est discret à valeur dans $D$ dénombrable alors $X_i$ est discrète et, pour tout $t \in \R$ on a $\P(X_i = t) = \sum_{x \in \Pi_i^{-1}\parentheses*{\brackets{t}}} \P(X=x)$.
\item Si $X$ admet une densité $f$, alors $X_i$ admet la densité
\begin{equation*}
f_i:t \mapsto \int_{\R^{n-1}}f(x_1,\dots,x_{i-1},t,x_{i+1},\dots,x_n) \dx x_1\dots \dx x_{i-1} \dx x_{i+1} \dots\dx x_n.
\end{equation*}
\end{itemize}
\end{prop}

\begin{proof}
Dans le cas discret, $X_i=\Pi_i(X)$ est une v.a.r. discrète. Pour tout $t \in \R$, on a
\begin{equation*}
\P(X_i=t) = \P\parentheses*{X \in \Pi_i^{-1}\parentheses*{\brackets{t}}} = \sum_{x \in \Pi_i^{-1}\parentheses*{\brackets{t}}} \P(X=x).
\end{equation*}
Dans le cas à densité, pour tout $a \leq b$ on a d'après~\eqref{eq: loi marginale},
\begin{align*}
\P_{X_i}([a;b]) &= \P_X\parentheses*{\R^{i-1}\times [a;b] \times \R^{n-i}} = \int_{\R^{i-1}\times [a;b] \times \R^{n-i}} f(x_1,\dots,x_n)\dx x_1 \dots \dx x_n\\
&= \int_a^b \parentheses*{\int_{\R^{n-1}}f(x_1,\dots,x_n) \dx x_1\dots \dx x_{i-1} \dx x_{i+1} \dots\dx x_n}\dx x_i = \int_a^b f_i(x_i) \dx x_i,
\end{align*}
où on a utilisé le théorème de Fubini pour $f$ positive. Le même calcul, en remplaçant $[a;b]$ par $\R$ montre que $f_i$ est bien d'intégrale $1$. Donc $X_i$ admet $f_i$ pour densité, voir définition~\ref{def: densite}.
\end{proof}

La loi d'un vecteur aléatoire n'est pas déterminée par ses lois marginales. Par exemple, considérons $X=(X_1,X_2)$ et $Y=(Y_1,Y_2)$ deux vecteurs aléatoires discrets à valeurs dans $\brackets*{0;1}^2$, où $X$ est uniforme et la loi de $Y$ est décrite par:
\begin{align*}
\P\parentheses*{\strut Y=(0;0)} &= \frac{1}{2} = \P\parentheses*{\strut Y=(1;1)} & &\text{et} & \P\parentheses*{\strut Y=(1;0)} &= 0 = \P\parentheses*{\strut Y=(0;1)}.
\end{align*}
Alors $X_1,X_2,Y_1,Y_2$ sont des v.a.r. discrètes à valeurs dans $\brackets{0;1}$ et on a
\begin{align*}
\P(X_1=0) &= \P(X=(0;0))+\P(X=(0;1)) = \frac{1}{4}+\frac{1}{4}=\frac{1}{2}, & \P(X_1=1)&=1-\P(X_1=0)=\frac{1}{2},\\
\P(Y_1=0) &= \P(Y=(0;0))+\P(Y=(0;1)) = \frac{1}{2}+0=\frac{1}{2}, & \P(Y_1=1)&=1-\P(Y_1=0)=\frac{1}{2}.
\end{align*}
Donc $X_1$ et $Y_1$ sont des variables de Bernoulli de paramètre $\frac{1}{2}$. Le même raisonnement montre que $X_2$ et $Y_2 \sim \cB(\frac{1}{2})$ aussi. Donc $\P_X$ et $\P_Y$ sont différentes mais ont les mêmes lois marginales.

\begin{thm}[Carathéodory]
\label{thm: mesure produit}
Soient $(\P_i)_{1 \leq i \leq n}$ des probabilités sur $\R$, il existe une unique mesure de probabilité $\P$ sur $\R^n$ telle que, pour tout $B_1,\dots,B_n \in \cB(\R)$, $\P\parentheses*{\prod_{i=1}^n B_i} = \prod_{i=1}^n \P_i(B_i)$.
\end{thm}

\begin{proof}
Admis. L'unicité se déduit du lemme de classe monotone, puisqu'on définit en particulier $\P$ sur les pavés fermés. L'existence est difficile, voir~\cite[app.~A]{Ouv2009}.
\end{proof}

\begin{rem}
\label{rem: tribu produit}
Il est vrai, mais pas immédiat que si $B_1,\dots,B_n \in \cB(\R)$ alors $\prod_{i=1}^n B_i \in \cB(\R^n)$.
\end{rem}

\begin{dfn}[Mesure produit]
\label{def: mesure produit}
La mesure de probabilité $\P$ sur $\parentheses{\R^n,\cB(\R^n)}$ est appelée la \emph{mesure produit} des $(\P_i)_{1 \leq i \leq n}$, et elle est notée $\P_1 \otimes \dots \otimes \P_n$ ou $\bigotimes_{i=1}^n \P_i$.
\end{dfn}

\begin{ex}
Soient $(\P_i)_{1 \leq i \leq n}$ des mesures de probabilité sur $\R$ et $\P = \bigotimes_{i=1}^n \P_i$.
\begin{itemize}
\item Si pour tout $i \in \ssquarebrackets{1}{n}$ la proba $\P_i$ admet une densité $f_i$, alors pour tout $a_1 \leq b_1;\dots a_n \leq b_n$,
\begin{equation*}
\P\parentheses*{\prod_{i=1}^n [a_n;b_n]} = \prod_{i=1}^n \P_i([a_i;b_i]) = \prod_{i=1}^n \int_{a_i}^{b_i} f_i(x_i) \dx x_i= \int_{\prod_{i=1}^n [a_i;b_i]} \prod_{i=1}^n f_i(x_i) \dx x_1 \dots \dx x_n.
\end{equation*}
Donc $\P$ admet la densité $\bigotimes_{i=1}^n f_i : (x_1,\dots,x_n) \mapsto \prod_{i=1}^n f_i(x_i)$, voir définition~\ref{def: densite}.

\item Si pour tout $i \in \ssquarebrackets{1}{n}$ la proba $\P_i$ est discrète, i.e.~il existe $D_i \subset \R^n$ dénombrable telle que $\P_i(D_i)=1$. Alors $\prod_{i=1}^n D_i$ est dénombrable et $\P(\prod_{i=1}^n D_i)=\prod_{i=1}^n \P_i(D_i)= 1$. Donc $P$ est discrète. De plus, pour tout $(x_1,\dots,x_n) \in \prod_{i=1}^n D_i$ on a $\P(\brackets{(x_1,\dots,x_n}) = \prod_{i=1}^n \P_i(\brackets{x_i})$.
\end{itemize}
\end{ex}

\begin{lem}
\label{lem: marginale produit}
Soient $(\P_i)_{1 \leq i \leq n}$ des mesures de probabilité sur $\R$ et $\P = \bigotimes_{i=1}^n \P_i$. Alors les $(\P_i)_{1 \leq i \leq n}$ sont les marginales de $\P$.
\end{lem}

\begin{proof}
Soit $X=(X_1,\dots,X_n)$ un vecteur aléatoire de loi $\P$. Soit $i \in \ssquarebrackets{1}{n}$, on doit vérifier que $\P_{X_i}=\P_i$. Or, d'après~\eqref{eq: loi marginale}, pour tout $B \in \cB(\R^n)$,
\begin{equation*}
\P_{X_i}(B) = \P_X(\R^{i-1}\times B \times \R^{n-i}) = \P(\R^{i-1}\times B \times \R^{n-i}) = \P_i(B) \times \prod_{j \neq i} \P_j(\R)=\P_i(B).\qedhere
\end{equation*}
\end{proof}


\subsection{Évènements et variables indépendantes}
\label{subsec: evenements et va independantes}

\begin{dfn}[Évènements indépendants]
\label{def: evenements independants}
Soient $(A_i)_{i \in I}$ une famille d'éléments de $\cA$. On dit que ces évènements sont \emph{indépendants} si, pour tout $J \subset I$ fini, $\P\parentheses*{\cap_{j \in J} A_j} = \prod_{j \in J}\P(A_j)$.
\end{dfn}

\begin{dfn}[Variables aléatoires indépendantes]
\label{def: va indepedantes}
Soient $(X_i)_{i \in I}$ une famille de v.a. définies sur un même espace de probabilité $\parentheses*{\Omega,\cA,\P}$ à valeurs dans des espaces mesurés $(E_i,\cB_i)_{i \in I}$. On dit que les v.a. $(X_i)_{i \in I}$ sont \emph{indépendantes} si, pour tout $J\subset I$ fini, pour tout $(B_j)_{j \in J} \in \prod_{j \in J} \cB_j$ on a
\begin{equation*}
\P\parentheses*{\forall j \in J, X_j \in B_j} = \prod_{j \in J} \P\parentheses*{X_j \in B_j}.
\end{equation*}
En particulier, les v.a.r. $X_1,\dots,X_n$ sont indépendantes si, pour tout $B_1,\dots,B_n \in \cB(\R)$ on a $\P\parentheses*{\forall i \in \ssquarebrackets{1}{n}, X_i \in B_i} = \prod_{i=1}^n \P(X_i \in B_i)$.
\end{dfn}

Vérifier l'indépendance d'une famille de v.a. c'est vérifier l'indépendance de toutes les sous-familles finis. Dans le cas de v.a.r., on a plusieurs critères pour prouver cette indépendance.

\begin{prop}
\label{prop: var independantes}
Soient $X_1,\dots,X_n$ des v.a.r. et $X=(X_1,\dots,X_n)$. Les propositions suivantes sont équivalentes.
\begin{enumerate}
\item \label{item: inde} $X_1,\dots,X_n$ sont indépendantes.
\item \label{item: produit} La loi $\P_X$ de $X$ est la loi produit $\bigotimes_{i=1}^n \P_{X_i}$ des lois des $(X_i)_{1 \leq i \leq n}$.
\item \label{item: pave} Pour tout $a_1 \leq b_1, \dots, a_n \leq b_n$ on a $\P\parentheses*{\forall i \in \ssquarebrackets{1}{n}, X_i \in [a_i;b_i]} = \prod_{i=1}^n \P\parentheses*{X_i \in [a_i;b_i]}$.
\item \label{item: fct pos} Pour toutes fonctions $f_1,\dots,f_n$ de $\R$ dans $[0;+\infty[$ on a $\esp{\prod_{i=1}^n f_i(X_i)} = \prod_{i=1}^n \esp{f_i(X_i)}$.
\item \label{item: fct int} Pour toutes fonctions $f_1,\dots,f_n$ de $\R$ dans $\R$ telles que les $(f_i(X_i))_{1 \leq i \leq n}$ soient $L^1$ on a $\prod_{i=1}^n f_i(X_i)$ intégrable et $\esp{\prod_{i=1}^n f_i(X_i)} = \prod_{i=1}^n \esp{f_i(X_i)}$.
\item \label{item: repart} En notant $F_X$ (resp. $F_{X_i}$) la fonction de répartition de $X$ (resp. $X_i$), on a $F_X = \bigotimes_{i=1}^n F_{X_i}$.
\end{enumerate}
\end{prop}

\begin{proof}

Si \eqref{item: inde} est vraie alors, en appliquant la définition~\ref{def: va indepedantes} avec $B_i=[a_i;b_i]$ pour tout $i \in \ssquarebrackets{1}{n}$, on obtient~\eqref{item: pave}. Si~\eqref{item: pave} est vraie, alors pour tout pavé fermé $P =\prod_{i=1}^n [a_i;b_i]$ on a
\begin{equation*}
\P_X(P) = \P\parentheses*{\forall i \in \ssquarebrackets{1}{n}, X_i \in [a_i;b_i]}=\prod_{i=1}^n \P(X_i \in [a_i;b_i])=\prod_{i=1}^n \P_{X_i}([a_i;b_i]) = \parentheses*{\bigotimes_{i=1}^n \P_{X_i}} (P).
\end{equation*}
Donc $\P_X$ et $\bigotimes_{i=1}^n \P_{X_i}$ coïncident sur les pavés fermés. Comme la famille des pavés fermés engendre $\cB(\R^n)$ et est stable par intersection finie, ces mesures sont égales par le lemme de classe monotone, ce qui prouve~\eqref{item: produit}. Enfin, si~\eqref{item: produit} est vraie alors, pour tout $B_1,\dots,B_n \in \cB(\R)$ on a:
\begin{equation*}
\P\parentheses*{\forall i \in \ssquarebrackets{1}{n}, X_i \in B_i} = \P\parentheses*{X \in \prod_{i=1}^n B_i} = \P_X\parentheses*{\prod_{i=1}^n B_i} = \prod_{i=1}^n \P_{X_i}(B_i) = \prod_{i=1}^n \P(X_i\in B_i).
\end{equation*}
Ainsi, \eqref{item: inde} implique \eqref{item: pave} implique \eqref{item: produit} implique \eqref{item: inde}, ce qui prouve l'équivalence entre \eqref{item: inde}, \eqref{item: produit} et \eqref{item: pave}.

On admet l'équivalence avec~\eqref{item: fct pos} et \eqref{item: fct int} qui vient de la théorie de la mesure. Si on suppose~\eqref{item: produit}, en appliquant la définition~\ref{def: va indepedantes} avec $B_i=]-\infty;x_i]$, il vient que, pour tout $x_1,\dots,x_n \in \R$ on a
\begin{equation*}
F_X(x_1,\dots,x_n) = \P_X\parentheses*{\prod_{i=1}^n ]-\infty;x_i]} = \prod_{i=1}^n \P_{X_i}(]-\infty;x_i]) = \prod_{i=1}^n F_{X_i}(x_i),
\end{equation*}
ce qui prouve~\eqref{item: repart}. Inversement, notons $Y$ un vecteur aléatoire de loi $\bigotimes_{i=1}^n \P_{X_i}$. Si on suppose~\eqref{item: repart} alors, en appliquant \eqref{item: produit} implique \eqref{item: repart} à $Y$, la fonction de répartion $F_Y$ de $Y$ est $F_Y=\bigotimes_{i=1}^n F_{X_i} = F_X$. Donc $\P_X=\P_Y=\bigotimes_{i=1}^n \P_{X_i}$ d'après le lemme~\ref{lem: fonction de repartition caracterise}.
\end{proof}

Une application de la dernière caractérisation est de déterminer la loi du maximum d'une famille de variables aléatoires. Soient $X_1,\dots,X_n$ des v.a.r. indépendantes et de même loi, dont on note $F$ la fonction de répartition. Soit $Y = \max_{1 \leq i \leq n}X_i$ et $F_Y$ sa fonction de répartition. Pour tout $x \in \R$,
\begin{equation*}
F_Y(x) = \P\parentheses*{\max_{1 \leq i \leq n} X_i \leq x} = \P\parentheses*{\forall i \in \ssquarebrackets{1}{n}, X_i \leq x} = F_X(x,\dots,x) = \prod_{i=1}^n F_{X_i}(x) = F(x)^n.
\end{equation*}
Donc $F_Y = F^n$, ce qui décrit totalement la loi de $Y$ en fonction de la loi commune des $(X_i)_{1 \leq i \leq n}$.

\begin{lem}
\label{lem: independance et var}
Soient $X_1,\dots,X_n$ des v.a.r. $L^2$ indépendantes. Pour tout $i, j \in \ssquarebrackets*{1}{n}$ tels que $i \neq j$, on a $\cov{X_i}{X_j}=0$. De plus $\var{\sum_{i=1}^n X_i}=\sum_{i=1}^n \var{X_i}$.
\end{lem}

\begin{proof}
Quitte à remplacer $X_i$ par $X_i-\esp{X_i}$ pour tout $i \in \ssquarebrackets{1}{n}$, ce qui ne modifie pas les variances et covariances considérées, on peut supposer les $(X_i)_{1 \leq i \leq n}$ centrées. Soit $i \neq j$ dans $\ssquarebrackets{1}{n}$, on a $\cov{X_i}{X_j}=\esp{X_iX_j} = \esp{X_i}\esp{X_j}=0$, en utilisant l'indépendance de $X_i$ et $X_j$ sous la forme \eqref{item: fct int}, voir proposition~\ref{prop: var independantes}. Ensuite, $\parentheses*{\sum_{i=1}^n X_i}^2 = \sum_{1 \leq i,j \leq n}X_iX_j$, donc
\begin{equation*}
\var{\sum_{i=1}^n X_i} = \esp{\parentheses*{\sum_{i=1}^n X_i}^2} =\sum_{1 \leq i,j \leq n} \esp{X_iX_j} = \sum_{1 \leq i,j \leq n} \cov{X_i}{X_j} = \sum_{i=1}^n \var{X_i},
\end{equation*}
en utilisant le premier point pour annuler les $\cov{X_i}{X_j}$ avec $i \neq j$.
\end{proof}

Soient $\P_1,\dots, \P_n$ des mesures de probabilités sur $\R$. Par le théorème~\ref{thm: mesure produit}, la mesure produit $\P = \bigotimes_{i=1}^n \P_i$ existe. Soit $X=(X_1,\dots,X_n)$ un vecteur aléatoire de loi $\P$. Pour tout $i \in \ssquarebrackets{1}{n}$, $X_i$ est une v.a.r. de loi $\P_i$ d'après le lemme~\ref{lem: marginale produit}. De plus les $(X_i)_{1 \leq i \leq n}$ sont indépendantes. Donc, il existe une famille $(X_i)_{1 \leq i \leq n}$ indépendantes et de lois prescrites. Ceci reste vrai si on considère des suites de variables aléatoires.

\begin{thm}[Kolmogorov]
\label{thm: Kolmogorov}
Soit $(\P_k)_{k \in \N}$ une suite de mesures de probabilités sur $(\R,\cB(\R))$. Il existe un espace de probabilités $\parentheses*{\Omega,\cA,\P}$ est une suite $(X_k)_{k \in \N}$ de v.a.r. sur $\parentheses*{\Omega,\cA,\P}$ telle que:
\begin{itemize}
\item pour tout $k \in \N$, $\P_{X_k}=\P_k$;
\item les $(X_k)_{k \in \N}$ sont indépendantes.
\end{itemize}
\end{thm}

\begin{proof}
Admis, voir\cite[app.~A]{Ouv2009}.
\end{proof}

\begin{dfn}[Suites de v.a.i.i.d.]
\label{def: vaiid}
Si $(X_k)_{k \in \N}$ est une suite de variables aléatoires indépendantes et de même loi, et on dit que c'est une suite de \emph{variables aléatoires indépendantes et identiquement distribuées} (v.a.i.i.d.).
\end{dfn}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%



\chapter{Convergence de suites de variables aléatoires}
\label{chap: CV suites de va}

Dans ce chapitre, toutes les variables aléatoires définies sur un espace de probabilité $\parentheses*{\Omega,\cA,\P}$. On note $\Norm{\cdot}$ la norme euclidienne usuelle de $\R^n$.

\section{Convergence en probabilité}
\label{sec: CV proba}

\begin{dfn}[Convergence en probabilité]
\label{def: CV proba}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a. à valeurs dans $\R^n$. On dit que $(X_k)_{k \in \N}$ \emph{converge en probabilité} vers $X$, et on note $X_k \CVP{k \to +\infty} X$, si pour tout $\epsilon>0$ on a $\P \parentheses*{\Norm*{X_k-X}>\epsilon} \xrightarrow[k \to +\infty]{}0$.
\end{dfn}

\begin{ex}
\label{ex: CV proba}
Supposons que, pour tout $k \in \N^*$, $X_k \sim \cU([0;\frac{1}{k}])$. Soit $\epsilon>0$, pour tout $k > \frac{1}{\epsilon}$, $[0;\frac{1}{k}] \subset [-\epsilon;\epsilon]$ et donc $\P\parentheses*{\norm*{X_k}>\epsilon}=0$. Donc $\P\parentheses*{\norm*{X_k}>\epsilon} \xrightarrow[k \to +\infty]{}0$ pour tout $\epsilon>0$, et $X_k \CVP{k \to +\infty}0$.
\end{ex}

\begin{prop}
\label{prop: CV proba et continuite}
Soient $(X_k)_{k \in \N}$ une suite de v.a. à valeurs dans $\R^n$ qui converge en probabilité vers $X$ et $f:\R^n \to \R^m$ une fonction continue, alors $f(X_k) \CVP{k \to +\infty} f(X)$ dans $\R^m$.
\end{prop}

\begin{proof}
Soit $\epsilon>0$, on veut montrer que $\P\parentheses*{\Norm{f(X_n)-f(X)}>\epsilon}\xrightarrow[k \to +\infty]{}0$.

Soit $\delta >0$, comme $\P_X\parentheses*{B(0,R)^c}\xrightarrow[R \to +\infty]{}\P_X(\emptyset)=0$, il existe $R >0$ tel que $\P_X\parentheses*{B(0,R)^c} \leq \delta$. Sur la boule compacte $\bar{B(0,2R)}$ la fonction $f$ est uniformément continue. Il existe donc $\eta >0$ tel que si $x,y \in \bar{B(0,2R)}$ et $\Norm{x-y}\leq \eta$ alors $\Norm{f(x)-f(y)}\leq \epsilon$. On peut supposer $\eta\leq R$.

Si $\Norm{x}<R$ et $\Norm{y-x}\leq \eta$, alors  $x,y \in \bar{B(0,2R)}$ et $\Norm{f(x)-f(y)}\leq \epsilon$. Par contraposée, si $\Norm{f(x)-f(y)}> \epsilon$ alors $x \in B(0,R)^c$ ou $\Norm{y-x}>\eta$. Donc, pour tout $k$ assez grand,
\begin{equation*}
\P\parentheses*{\Norm{f(X_k)-f(X)}>\epsilon} \leq \P\parentheses*{X \in B(0,R)^c} + \P\parentheses*{\Norm{X_k-X}>\eta} \leq \delta + \P\parentheses*{\Norm{X_k-X}>\eta} \leq 2\delta.\qedhere
\end{equation*}
\end{proof}

\begin{ex}
\label{ex: CV proba somme}
Soient $(X_k)$ et $(Y_k)$ deux suites de v.a.r. telles que $X_k \CVP{k \to+\infty}X$ et $Y_k\CVP{k \to +\infty}Y$. Soit $\epsilon>0$. Si $\norm{X_k-X}\leq \frac{\epsilon}{2}$ et $\norm{Y_k-Y}\leq \frac{\epsilon}{2}$ alors $\Norm*{(X_k,Y_k)-(X,Y)} = \parentheses*{\norm*{X_k-X}^2+\norm{Y_k-Y}^2}^\frac{1}{2} \leq \epsilon$. Donc $\Norm*{(X_k,Y_k)-(X,Y)}>\epsilon$ implique $\norm{X_k-X}> \frac{\epsilon}{2}$ ou $\norm{Y_k-Y}> \frac{\epsilon}{2}$, donc
\begin{equation*}
\P\parentheses*{\Norm{(X_k,Y_k)-(X,Y)}>\epsilon} \leq \P\parentheses*{\norm{X_k-X}> \frac{\epsilon}{2}} +\P\parentheses*{\norm{Y_k-Y}> \frac{\epsilon}{2}} \xrightarrow[k \to +\infty]{}0.
\end{equation*}
Donc $(X_k,Y_k) \CVP{k \to +\infty} (X,Y)$ et, par continuité de $+$, on a $X_k+Y_k \CVP{k \to +\infty} X+Y$.
\end{ex}

\begin{thm}[Loi faible des grands nombres]
\label{thm: LGN faible}
Soit $(X_k)_{k \geq 1}$ une suite de v.a.i.i.d. $L^1$ réelles d'espérance $\mu \in \R$. Pour tout $n \in \N^*$, on note $S_n=\frac{1}{n}\sum_{k=1}^n X_k$. Alors $S_n \CVP{n \to +\infty}\mu$.
\end{thm}

\begin{proof}
On fait la preuve sous l'hypothèse supplémentaire que les $(X_k)_{k \geq 1}$ sont $L^2$.

Soit $n \in \N^*$, alors la v.a.r. $S_n$ est $L^2$ comme combinaison linéaire de v.a.r. $L^2$. Par linéarité de l'espérance, $\esp{S_n} = \frac{1}{n}\sum_{k=1}^n \esp{X_k} = \mu$. Enfin, $X_1,\dots,X_n$ étant indépendantes,
\begin{equation*}
\var{S_n} = \var{\frac{1}{n}\sum_{k=1}^n X_k} = \frac{1}{n^2}\sum_{k=1}^n \var{X_k} = \frac{\sigma^2}{n},
\end{equation*}
où $\sigma^2$ est la variance commune des $(X_k)_{k \geq 1}$. Soit $\epsilon>0$, par l'inégalité de Chebyshev,
\begin{equation*}
\P\parentheses*{\norm*{S_n - \mu}>\epsilon} = \P\parentheses*{\norm*{S_n - \esp{S_n}}>\epsilon} \leq \frac{1}{\epsilon^2}\var{S_n} = \frac{\sigma^2}{n\epsilon^2} \xrightarrow[n\to +\infty]{}0. \qedhere
\end{equation*}
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Convergence presque sûre}
\label{sec: CV ps}

\begin{dfn}[Convergence presque sûre]
\label{def: CV ps}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a. à valeurs dans $\R^n$. On dit que $(X_k)_{k \in \N}$ \emph{converge presque sûrement} vers $X$, et on note $X_k \CVps{k \to +\infty} X$, si
\begin{equation*}
\P\parentheses*{\brackets*{\omega \in \Omega \mvert X_k(\omega) \xrightarrow[k \to +\infty]{}X(\omega)}} = \P\parentheses*{X_k \xrightarrow[k \to +\infty]{}X} =1.
\end{equation*}
En tant que fonctions sur $\Omega$, c'est la convergence simple de $(X_k)_{k \in \N}$ vers $X$ en dehors d'un évènement de probabilité nulle.
\end{dfn}

\begin{lem}
\label{lem: CV ps et continuité}
Si $X_k \CVps{k \to +\infty}X$ dans $\R^n$ et $f:\R^n \to \R^m$ est continue alors $f(X_k) \CVps{k \to +\infty}f(X)$. En particulier, si $X_k \CVps{k \to +\infty}X$ et $Y_k \CVps{k \to +\infty}Y$, alors $X_k+Y_k \CVps{k \to +\infty}X+Y$.
\end{lem}

\begin{proof}
Exercice.
\end{proof}

\begin{lem}
\label{lem: CV ps implique en proba}
Si $X_k \CVps{k \to +\infty}X$ dans $\R^n$ alors $X_k \CVP{k \to +\infty}X$.
\end{lem}

\begin{proof}
Soit $\epsilon >0$. Soit $\omega \in \Omega$ tel que $X_k(\omega)\xrightarrow[k \to +\infty]{}X(\omega)$, il existe $m \in \N$ tel que pour tout $k \geq m$, $\Norm{X_k(\omega)-X(\omega)}\leq \epsilon$. Donc $\brackets*{X_k \xrightarrow[k \to +\infty]{} X} \subset \bigcup_{m \in \N} \brackets*{\forall k \geq m, \Norm{X_k-X}\leq \epsilon}$ et
\begin{equation*}
1=\P\parentheses*{X_k \xrightarrow[k \to +\infty]{} X} \leq \P\parentheses*{\bigcup_{m \in \N} \brackets*{\forall k \geq m, \Norm{X_k-X}\leq \epsilon}} = \lim_{m \to +\infty} \P\parentheses*{\forall k \geq m, \Norm{X_k-X}\leq \epsilon}.
\end{equation*}
Pour tout $m \in \N$, on a $\P\parentheses*{\forall k \geq m, \Norm{X_k-X}\leq \epsilon} \leq \P\parentheses*{\Norm{X_m-X}\leq \epsilon} \leq 1$. Donc, par le théorème des gendarmes, $\P\parentheses*{\Norm{X_m-X}\leq \epsilon} \xrightarrow[m \to +\infty]{}1$ et $\P\parentheses*{\Norm{X_m-X}> \epsilon} \xrightarrow[n \to +\infty]{}0$.
\end{proof}

En général, la réciproque du lemme~\ref{lem: CV ps implique en proba} est fausse. Cependant, on peut parfois obtenir une convergence p.s. si on a une convergence en proba quantitative assez rapide, grâce au lemme suivant.

\begin{lem}[Borel--Cantelli]
\label{lem: Borel--Cantelli}
Soit $(A_k)_{k \in \N}$ des évènements de $\cA$. Si $\sum_{k \in \N} \P(A_k) <+\infty$ alors $\P\parentheses*{\bigcap_{n \in \N} \bigcup_{k \geq n} A_k}=0$.
\end{lem}

\begin{proof}
Pour tout $p \in \N$, on a $\displaystyle\P\parentheses*{\bigcap_{n \in \N} \bigcup_{k \geq n} A_k} \leq \P\parentheses*{\bigcup_{k \geq p} A_k} \leq \sum_{k\geq p}\P(A_k)\xrightarrow[p \to +\infty]{}0$.
\end{proof}

\begin{thm}[Loi forte des grands nombres]
\label{thm: LGN forte}
Soit $(X_k)_{k \geq 1}$ une suite de v.a.i.i.d. $L^1$ réelles d'espérance $\mu \in \R$. Pour tout $n \in \N^*$, on note $S_n=\frac{1}{n}\sum_{k=1}^n X_k$. Alors $S_n \CVps{n \to +\infty}\mu$.
\end{thm}

\begin{rem}
\label{rem: LGN}
D'après le lemme~\ref{lem: CV ps implique en proba}, la loi forte (thm.~\ref{thm: LGN forte}) implique la loi faible (thm.~\ref{thm: LGN faible}).
\end{rem}

\begin{proof}[Démonstration sous hypothèse $L^4$]
Il suffit de prouver le résultat lorsque $\mu=0$. En effet, dans le cas général, si on pose $\tilde{X}_k=X_k-\mu$ pour tout $k \geq 1$ alors les $(\tilde{X}_k)_{k \geq 1}$ sont des v.a.i.i.d. $L^1$ d'espérance nulle. Pour tout $n \in \N^*$, on a $\tilde{S}_n = \frac{1}{n}\sum_{k =1}^n \tilde{X_k} = \frac{1}{n}\sum_{k =1}^n (X_k-\mu)=S_n-\mu$. Si le résultat est établi dans le cas $\mu=0$, alors $\tilde{S}_n \CVps{n \to +\infty}0$, ce qui implique $S_n \CVps{n \to +\infty}\mu$.

Reste à prouver le résultat lorsque $\mu=0$. On le fait sous l'hypothèse supplémentaire que les $(X_k)_{k \geq 1}$ sont $L^4$. On note $\sigma^2=\esp{X_1^2}$ et $\kappa=\esp{X_1^4} \geq 0$ leur moment (centré) d'ordre $4$. Pour tout $n \in \N^*$, la v.a.r. $S_n$ est $L^4$ comme combinaison linéaire de variables $L^4$ et, par linéarité de l'espérance, $\esp{S_n} = \frac{1}{n}\sum_{k=1}^n \esp{X_k} =0$. On montrera plus loin que,
\begin{equation}
\label{eq: preuve LGN}
\esp{\parentheses*{\sum_{k=1}^n X_k}^4}=3n(n-1)\sigma^4+n\kappa,
\end{equation}
ce qui implique que $\esp{S_n^4} = \frac{3n(n-1)\sigma^4+n\kappa}{n^4} \leq \frac{3\sigma^4+\kappa}{n^2}$. En admettant ceci pour l'instant, l'inégalité de concentration~\ref{lem: concentration} pour le moment d'ordre $4$ donne:
\begin{equation*}
\P\parentheses*{\norm{S_n}>n^{-\frac{1}{8}}} = \P\parentheses*{\norm{S_n-\esp{S_n}}>n^{-\frac{1}{8}}} \leq n^\frac{1}{2} \esp{\norm{S_n-\esp{S_n}}^4} = n^\frac{1}{2} \esp{S_n^4} \leq \frac{3\sigma^4+\kappa}{n^\frac{3}{2}}.
\end{equation*}
Cette quantité étant sommable, on a $\P\parentheses*{\bigcap_{N \geq 1} \bigcup_{n \geq N} \brackets*{\norm{S_n}>n^{-\frac{1}{8}}}}=0$ par Borel--Cantelli~\ref{lem: Borel--Cantelli}. En passant au complémentaire, $\P\parentheses*{\bigcup_{N \geq 1} \bigcap_{n \geq N} \brackets*{\norm{S_n}\leq n^{-\frac{1}{8}}}}=1$. Donc, presque sûrement, il existe $N \geq 1$ tel que, pour tout $n \geq N$, $\norm{S_n}\leq n^{-\frac{1}{8}}$. En particulier, $S_n \CVps{n\to+\infty} 0$.

Il reste à prouver~\eqref{eq: preuve LGN}, ce qu'on fait par récurrence sur $n$. Pour $n=1$, on a bien $\esp{X_1^4}=\kappa$. Supposons le résultat vrai pour~$n\geq 1$. On a
\begin{equation*}
\parentheses*{\sum_{k=1}^{n+1}X_k}^4 = \parentheses*{\sum_{k=1}^n X_k}^4+4\parentheses*{\sum_{k=1}^n X_k}^3X_{n+1}+6\parentheses*{\sum_{k=1}^n X_k}^2X_{n+1}^2+4\parentheses*{\sum_{k=1}^n X_k}X_{n+1}^3+X_{n+1}^4.
\end{equation*}
On calcule l'espérance de chacun des termes. On a $\esp{\parentheses*{\sum_{k=1}^n X_k}^4}=3n(n-1)\sigma^4+n\kappa$ par hypothèse de récurrence. Par indépendance, $\esp{\parentheses*{\sum_{k=1}^n X_k}^3X_{n+1}}=\esp{\parentheses*{\sum_{k=1}^n X_k}^3}\esp{X_{n+1}}=0$. De même,
\begin{equation*}
\esp{\parentheses*{\sum_{k=1}^n X_k}^2X_{n+1}^2}= \var{\sum_{k=1}^n X_k}\var{X_{n+1}}=\parentheses*{\sum_{k=1}^n \var{X_k}}\var{X_{n+1}}=n\sigma^4.
\end{equation*}
Puis $\esp{\parentheses*{\sum_{k=1}^n X_k}X_{n+1}^3}=\esp{\sum_{k=1}^n X_k}\esp{X_{n+1}^3}=\parentheses*{\sum_{k=1}^n\esp{ X_k}}\esp{X_{n+1}^3}=0$. Et $\esp{X_{n+1}^4}=\kappa$ par définition. Ainsi,
\begin{equation*}
\esp{\parentheses*{\textstyle\sum_{k=1}^{n+1}X_k}^4} = 3n(n-1)\sigma^4+n\kappa + 6n\sigma^4 + \kappa = 3n\sigma^4\parentheses*{n-1+2}+(n+1)\kappa = 3(n+1)n\sigma^4+(n+1)\kappa.
\end{equation*}
Cela prouve l'hérédité, conclut la récurrence, et termine la preuve. Pour une preuve sous hypothèse $L^1$ et diverses variantes, voir~\cite[chap.~10.2]{Ouv2009}.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Convergence en loi}
\label{sec: CV loi}

\subsection{Définition et caractérisations}
\label{definition CV loi}

\begin{dfn}[Convergence en loi]
\label{def: CV en loi}
Soit $\cC^0_b(\R^n)$ l'espace des fonctions continues bornées de~$\R^n$ dans $\R$. Soient $X$ et $(X_k)_{k \in \N}$ des variables aléatoires à valeurs dans $\R^n$, on dit que $(X_k)_{k \in \N}$ \emph{converge en loi} vers $X$, et on note $X_k \CVL{k \to +\infty}X$ si, pour tout $f \in \cC^0_b(\R^n)$, on a $\esp{f(X_k)} \xrightarrow[k \to +\infty]{} \esp{f(X)}$.
\end{dfn}

\begin{rem}
\label{rem: CV loi}
Cette notion de convergence dépend uniquement des lois $\P_X$ et $(\P_{X_k})_{k \in \N}$. En particulier, la v.a. limite n'est pas unique, seule sa loi l'est.
\end{rem}

\begin{lem}
\label{lem: CVP implique CVL}
Si $X_k \CVP{k\to+\infty} X$ (en particulier si $X_k \CVps{k\to+\infty} X$) alors $X_k \CVL{k\to+\infty} X$.
\end{lem}

\begin{proof}
Soient $f\in \cC^0_b(\R^n)$. Soit $\epsilon>0$, on note $A_k = \brackets*{\omega \in \Omega \mvert \norm*{f(X_k(\omega))-f(X(\omega))}> \epsilon}$ pour tout $k \in \N$. On a, $\forall \omega \in \Omega$, $\norm*{f(X_k(\omega))-f(X(\omega))} \leq \epsilon + 2\Norm{f}_\infty\one_{A_k}(\omega)$, donc
\begin{align*}
\norm*{\esp{f(X_k)}-\esp{f(X)}} &= \norm*{\esp{f(X_k)-f(X)}}\leq \esp{\norm{f(X_k)-(f(X)}} \leq \epsilon + 2\Norm{f}_\infty\esp{\one_{A_k}}\\
&\leq \epsilon + 2\Norm{f}_\infty\P(A_k) = \epsilon + 2 \Norm{f}_\infty \P\parentheses*{\norm*{f(X_k)-f(X)}>\epsilon}.
\end{align*}
Comme $f$ est continue, on a $f(X_k) \CVP{k \to +\infty} f(X)$. Donc $2 \Norm{f}_\infty \P\parentheses*{\norm*{f(X_k)-f(X)}>\epsilon} \xrightarrow[k \to\infty]{}0$ et donc, pour tout $k$ assez grand, cette quantité est inférieure à $\epsilon$ et $\norm*{\esp{f(X_k)}-\esp{f(X)}} \leq 2\epsilon$. Donc $\esp{f(X_k)}\xrightarrow[k\to+\infty]{}\esp{f(X)}$. C'est vrai pour tout $f \in \cC^0_b(\R^n)$, donc $X_k \CVL{k\to+\infty} X$.
\end{proof}

\begin{thm}[Portemanteau]
\label{thm: portemanteau}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a. à valeurs dans $\R^n$, $X_k \CVL{k \to +\infty} X$ si et seulement si, pour tout $B \in \cB(\R^n)$ tel que $\P(X \in \partial B)=0$, on a $\P(X_k \in B) \xrightarrow[k \to +\infty]{} \P(X \in B)$.
\end{thm}

\begin{proof}
Admis. Voir~\cite[chap.~14.1]{Ouv2009}.
\end{proof}

\begin{ex}
\label{ex: portemanteau densite}
Si $n=1$ et $X$ admet la densité $f$, pour tout $a<b$ on a $\partial [a;b] = [a;b] \setminus ]a;b[ = \brackets*{a;b}$ et $\P(X \in \brackets{a;b}) = 0$. Donc si $X_k \CVL{k\to+\infty} X$ alors $\P(X_k \in [a;b]) \xrightarrow[k\to+\infty]{} \int_a^b f(x)\dx x$ pour tout $a<b$.
\end{ex}

\begin{cor}
\label{cor: CV loi discrete}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a. discrètes à valeurs dans $D \subset \R^n$ dénombrable, alors $X_k \CVL{k\to+\infty} X$ si et seulement si, pour tout $x \in D$, on a $\P(X_k =x) \xrightarrow[k \to +\infty]{}\P(X=x)$.
\end{cor}

\begin{proof}
Admis.
\end{proof}

\begin{prop}
\label{prop: CV loi repartition}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a.r., $F$ et $(F_k)_{k \in \N}$ leurs fonctions de répartition. Soit $C = \brackets*{x \in \R \mvert F \ \text{est continue en} \ x}$. Alors $X_k \CVL{k\to+\infty} X \iff \forall x \in C$, $F_k(x) \xrightarrow[k \to +\infty]{} F(x)$. Si~de plus $F$ est continue (i.e. $C=\R$), alors ces conditions sont équivalentes à $\Norm{F_k-F}_\infty \xrightarrow[k \to +\infty]{}0$.
\end{prop}

\begin{proof}
Admis. Le dernier point se déduit d'un théorème de Dini.
\end{proof}


\subsection{Fonction caractéristique}
\label{subsec: fonction caracteristique}

Dans la suite, on note $\prsc{\cdot}{\cdot}$ le produit scalaire canonique de $\R^n$.

\begin{dfn}[Fonction caractéristique]
\label{def: fonction caracteristique}
Soit $X=(X_1,\dots,X_n)$ une variable aléatoire à valeur dans $\R^n$, pour tout $t=(t_1,\dots,t_n) \in \R^n$ la v.a. complexe $e^{i\prsc{t}{X}}=e^{i \sum_{j=1}^n t_j X_j}$ est bornée donc $L^1$. La \emph{fonction caractéristique} de $X$ est la fonction $\phi_X:\R^n \to \C$ définie par, $\forall t \in \R^n$, $\phi_X(t) = \esp{e^{i \prsc{t}{X}}}$. En particulier, si $n=1$, on a $\phi_X:t \mapsto \esp{e^{i t X}}$.
\end{dfn}

\begin{ex}
\label{ex: fonction caracteristique}
Pour tout $t \in \R^n$, $\phi_X(t) = \int_{\R^n} e^{i\prsc{t}{x}} \dx \P_X(x)$. En particulier, $\phi_X$ ne dépend que de~$\P_X$ et on parle aussi de la fonction caractéristique de la loi $\P_X$.

\begin{itemize}
\item Si $X$ est discrète à valeur dans $D$ dénombrable alors, $\forall t \in \R^n$, $\phi_X(t) = \sum_{x \in D} e^{i \prsc{t}{x}}\P(X=x)$.
\item Si $X \sim \Poisson(\lambda)$, pour tout $t \in \R$, $\phi_X(t)= \sum_{k \in \N} e^{itk}e^{-\lambda}\frac{\lambda^k}{k!}=e^{-\lambda}\sum_{k \in \N} \frac{(e^{it}\lambda)^k}{k!} = \exp\parentheses*{\lambda\parentheses*{e^{it}-1}}$.
\item Si $X$ admet la densité $f$ alors, $\forall t \in \R^n$, $\phi_X(t) = \int_{\R^n} e^{i\prsc{x}{t}}f(x) \dx x$.
\item Si $X \sim \gauss{\mu}{\sigma^2}$ alors $\phi_X:t \mapsto e^{it\mu-\frac{t^2}{2}\sigma^2}$. Exemple à connaître, preuve en TD.
\end{itemize}
\end{ex}

\begin{lem}
\label{lem: scaling fonction caracteristique}
Soient $a,b \in \R$ et $X$ une v.a. réelle. Pour tout $t \in \R$, on a $\phi_{aX+b}(t)= e^{itb} \phi_X(ta)$.
\end{lem}

\begin{proof}
Exercice.
\end{proof}

\begin{prop}
\label{prop: propriete phiX}
La fonction $\phi_X:\R^n \to \C$ est continue et, $\forall t \in \R^n$, $\norm{\phi_X(t)}\leq \phi_X(0)=1$.
\end{prop}

\begin{proof}
Pour tout $t \in \R^n$, $\norm{\phi_X(t)}=\norm*{\esp{e^{i\prsc{t}{X}}}}\leq \esp{\norm*{e^{i\prsc{t}{X}}}}=\esp{1}=1=\phi_X(0)$. On admet la continuité dans le cas général et va la prouver dans un cas particulier.

Si $X$ est discrète à valeurs dans $\N$, pour tout $t \in \R$, on a $\phi_X(t) = \esp{e^{itX}} = \sum_{k \in \N} p_ke^{itk}$ où, $\forall k \in \N$, $p_k=\P(X=k)$. Soit $k \in \N$, on note $f_k:t \mapsto p_k e^{itk}$ qui est continue de $\R$ dans $\C$ et telle que $\Norm{f_k}_\infty=p_k$. Comme $\sum_{k \in \N} p_k=1$, on a $\phi_X=\sum_{k \in \N} f_k$ avec convergence normale. Donc $\phi_X$ est continue comme somme d'une série normalement convergente de fonctions continues.
\end{proof}

\begin{prop}
\label{prop: phiX et moments}
Soient $X$ une v.a.r. et $p \in \N^*$. Si $X \in L^p(\Omega)$ alors $\phi_X:\R \to \C$ est $\cC^p$ et, pour tout $q \in \ssquarebrackets{0}{p}$, $\phi_X^{(q)}:t \mapsto \esp{(iX)^q e^{itX}}$. En particulier, $\phi_X^{(q)}(0) = i^q \esp{X^q}$ pour tout $q \in \ssquarebrackets{0}{p}$.
\end{prop}

\begin{proof}[Démonstration dans un cas particulier]
On fait la preuve pour $X$ est discrète à valeurs dans $\N$, avec les mêmes notations que précédemment. Pour tout $k \in \N$, $f_k:\R \to \C$ est $\cC^\infty$ et, pour tout $q \in \N$, $f_k^{(q)}:t \mapsto (ik)^q p_k e^{itk}$. Ainsi $\Norm{f_k^{(q)}}_\infty = k^q p_k$, et $\sum_{k \in \N} \Norm{f_k^{(q)}}_\infty = \sum_{k \in \N} k^q p_k = \esp{\norm{X}^q}$. Si $q \leq p$ alors $X \in L^p(\Omega) \subset L^q(\Omega)$ et la série de fonction $\sum_{k \in \N} f_k^{(q)}$ est normalement convergente sur $\R$.

On sait que $\phi_X=\sum_{k \in \N} f_k$. Soit $q \in \ssquarebrackets{0}{p-1}$, si $\phi_X$ est $\cC^q$ et $\phi_X^{(q)}=\sum_{k \in \N} f_k^{(q)}$ alors, comme $\sum_{k \in \N} f_k^{(q+1)}$ converge normalement, $\phi_X$ est $\cC^{(q+1)}$ et $\phi_X^{(q+1)}=\sum_{k \in \N} f_k^{(q+1)}$. Par récurrence, $\phi_X$ est de classe $\cC^p$ et, pour tout $q \in \ssquarebrackets{0}{p}$, $\phi_X^{(q)}:t \mapsto \sum_{k \in \N} f_k^{(q)}(t) = \sum_{k \in \N} (ik)^q e^{itk}p_k=\esp{(iX)^qe^{itX}}$.
\end{proof}

\begin{thm}
\label{thm: Fourier injective}
Soient $X$ et $Y$ deux v.a. à valeurs dans $\R^n$. Si $\phi_X=\phi_Y$ alors $X$ et $Y$ ont même loi. C'est-à-dire, la fonction caractéristique caractérise totalement la loi.
\end{thm}

\begin{proof}
Admis. Voir~\cite[chap.~12.2]{Ouv2009}.
\end{proof}

\begin{prop}
\label{prop: phiX et independance}
Soit $X=(X_1,\dots,X_n)$ un vecteur aléatoire à valeurs dans $\R^n$, alors les $(X_j)_{1 \leq j \leq n}$ sont indépendants si et seulement si $\phi_X = \bigotimes_{j=1}^n \phi_{X_j}$.
\end{prop}

\begin{proof}
Si les $(X_j)_{1 \leq j \leq n}$ sont indépendants, pour tout $(t_1,\dots,t_n) \in \R^n$, on a
\begin{equation*}
\phi_X(t_1,\dots,t_n) = \esp{e^{i\sum_{j=1}^n t_jX_j}} = \esp{\prod_{j=1}^n e^{it_jX_j}} = \prod_{j=1}^n \esp{e^{it_jX_j}} = \prod_{j=1}^n \phi_{X_j}(t_j).
\end{equation*}
Inversement, supposons $\phi_X = \bigotimes_{j=1}^n \phi_{X_j}$. Il existe $Y_1,\dots,Y_n$ indépendants tels que, $\forall j \in \ssquarebrackets{1}{n}$, $\dx \P_{Y_j}=\dx \P_{X_j}$. Soit $Y=(Y_1,\dots,Y_n)$, le sens direct montre que $\phi_X = \bigotimes_{j=1}^n \phi_{X_j} = \bigotimes_{j=1}^n \phi_{Y_j} = \phi_Y$. Par le théorème~\ref{thm: Fourier injective}, $\P_X = \P_Y = \bigotimes_{j=1}^n \P_{Y_j} = \bigotimes_{j=1}^n \P_{X_j}$, donc $X_1,\dots,X_n$ sont indépendants.
\end{proof}

\begin{lem}
\label{lem: somme vai et fonction caracteristique}
Soient $X_1,\dots,X_n$ des v.a. indépendantes et $S = \sum_{j=1}^n X_j$, on a $\phi_S = \prod_{j=1}^n \phi_{X_j}$.
\end{lem}

\begin{proof}
Exercice.
\end{proof}


\subsection{Théorème de Lévy et théorème central limite}
\label{subsec: Lévy et TCL}

\begin{prop}
\label{prop: CV loi implique CVS phi}
Soient $X$ et $(X_k)_{k \in \N}$ des v.a. à valeurs dans $\R^n$, soient $\phi$ et $(\phi_{k})_{k \in \N}$ leurs fonctions caractéristiques. On a $X_k \CVL{k\to+\infty} X$ si et seulement si, $\forall t \in \R^n$, $\phi_k(t) \xrightarrow[k\to+\infty]{}\phi(t)$.
\end{prop}

\begin{proof}
Supposons que $X_k \CVL{k\to+\infty} X$. Soient $t \in \R^n$, on pose $f_t:x \mapsto \cos\parentheses*{\prsc{t}{x}}$ et $g_t:x \mapsto \sin\parentheses*{\prsc{t}{x}}$. Comme $f_t$ et $g_t \in \cC^0_b(\R^n)$ on a
\begin{equation*}
\phi_k(t) = \esp{e^{i\prsc{t}{X_k}}} =\esp{f_t(X_k)}+i\esp{g_t(X_k)} \xrightarrow[k \to+\infty]{} \esp{f_t(X)}+i\esp{g_t(X)} = \esp{e^{i\prsc{t}{X}}}=\phi(t).
\end{equation*}
La réciproque est une conséquence du théorème de Lévy~\ref{thm: Levy} ci-dessous.
\end{proof}

\begin{thm}[Lévy]
\label{thm: Levy}
Soient $(X_k)_{k \in \N}$ des v.a. à valeurs dans $\R^n$. Si leurs fonctions caractéristiques $(\phi_k)_{k \in \N}$ convergent simplement vers une fonction $\phi:\R^n \to \C$ continue en $0$ alors $\phi$ est la fonction caractéristique d'une v.a. $X$ et $X_k \CVL{k \to +\infty} X$.
\end{thm}

\begin{proof}
Admis. Voir~\cite[chap.~14.2]{Ouv2009}.
\end{proof}

\begin{thm}[Théorème Central Limite]
\label{thm: TCL}
Soit $(X_k)_{k \in \N^*}$ une suite de $v.a.i.i.d.$ réelles $L^2$ d'espérance commune $\mu \in \R$ et de variance commune $\sigma^2$, où $\sigma>0$. Pour tout $n \in \N^*$, on définit $Y_n = \frac{1}{\sqrt{n}}\sum_{k=1}^n \frac{X_k-\mu}{\sigma} = \frac{\sqrt{n}}{\sigma}\parentheses*{\frac{1}{n}\sum_{k=1}^n X_k - \mu}$. Alors $Y_n \CVL{n \to+\infty} \gauss{0}{1}$.
\end{thm}

\begin{proof}
Pour tout $k \in \N^*$, notons $Z_k=\frac{X_k-\mu}{\sigma}$. Sous les hypothèses du théorème, les $\parentheses{Z_k}_{k \in \N}$ sont des v.a.i.i.d. réelles $L^2$ centrées et réduites. On note $\phi:\R \to \C$ leur fonction caractéristique. Soient $n \in \N^*$ et $\phi_n$ la fonction caractéristique de $Y_n= \frac{1}{\sqrt{n}}\sum_{k=1}^n Z_k$. On va montrer que $\phi_n$ converge simplement sur $\R$ vers la fonction caractéristique $t \mapsto e^{-\frac{t^2}{2}}$ de la loi $\gauss{0}{1}$. La proposition~\ref{prop: CV loi implique CVS phi} donnera alors le résultat.

Soit $t \in \R$. Les $(Z_k)_{k\geq 1}$ étant indépendantes, pour tout $n \in \N^*$, on a
\begin{equation*}
\phi_n(t) = \phi_{\sum_{k=1}^nZ_k}\parentheses*{\frac{t}{\sqrt{n}}} = \prod_{k=1}^n \phi_{Z_k}\parentheses*{\frac{t}{\sqrt{n}}} = \parentheses*{\phi\parentheses*{\frac{t}{\sqrt{n}}}}^n.
\end{equation*}
D'après la proposition~\ref{prop: phiX et moments}, la fonction $\phi$ est $\cC^2$ et, par Taylor-Young,
\begin{equation*}
\phi\parentheses*{\frac{t}{\sqrt{n}}} = \phi(0) + \frac{t}{\sqrt{n}}\phi'(0)+ \frac{t^2}{2n} \phi''(0) +o\parentheses*{\frac{t^2}{n}} = 1 + \frac{it}{\sqrt{n}}\esp{Z_1} -\frac{t^2}{2n}\esp{Z_1^2}+o\parentheses*{\frac{1}{n}} = 1 - \frac{t^2}{2n}+o\parentheses*{\frac{1}{n}}.
\end{equation*}
Donc $\parentheses*{\phi\parentheses*{\frac{t}{\sqrt{n}}}}^n = \parentheses*{1-\frac{t^2}{2n}+o\parentheses*{\frac{1}{n}}}^n=\exp\parentheses*{n\log\parentheses*{1-\frac{t^2}{2n}+o\parentheses*{\frac{1}{n}}}} =e^{-\frac{t^2}{2}+o(1)} \xrightarrow[n \to +\infty]{}e^{-\frac{t^2}{2}}$.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\chapter{Statistiques}
\label{chap: statistiques}

\section{Le point de vue des statistiques}
\label{sec: le point de vue des statistiques}

Les probabilités et les statistiques manipulent les mêmes objets: espaces probabilisés, variables aléatoires, lois, \dots \ mais avec des points de vue différents. Schématiquement, en probas, on travaille à partir d'une loi de probabilité connue, et on cherche à prédire le comportement des réalisations d'une variable aléatoire distribuée selon cette loi (en moyenne, avec grande probabilité, \dots). En stats, le point de vue est inversé. On travaille à partir d'un jeu de données $(x_1,\dots,x_n)$ que l'on suppose être des réalisations de variables aléatoires $(X_1,\dots,X_n)$, disons indépendantes et de même loi $\P_X$ inconnue. On cherche alors à retrouver $\P_X$ à partir des observations $(x_1,\dots,x_n)$. Plus réalistement, on cherche à estimer des grandeurs numériques associées à $\P_X$ (par exemple son espérance) et à quantifier l'erreur commise par notre estimation.


\subsection{Exemple introductif}
\label{subsec: exemple intro}

Un restaurateur rennais veut savoir s'il serait rentable d'investir dans une terrasse. Pour cela, il veut connaitre le nombre $X$ de jours de beau temps qu'il peut espérer sur une année.

Pour répondre à cette question, on peut poser un modèle probabiliste simpliste. On suppose que chaque jour il fait beau avec probabilité $\theta \in [0;1]$ et que la météo est indépendante d'un jour à l'autre. On modélise alors $X$ comme la somme de $N=365$ variables de Bernoulli $\cB(\theta)$ indépendantes, c'est-à-dire $X \sim \cB(N,\theta)$. En faisant des probas, on obtient $\esp{X}=N\theta$ et $\var{X}=N\theta(1-\theta)$ puis, par l'inégalité de Bienaymé--Chebishev, pour tout $\epsilon>0$,
\begin{equation*}
\P\parentheses*{\norm*{X-N\theta} \geq \epsilon} \leq \frac{N\theta(1-\theta)}{\epsilon^2}.
\end{equation*}
Par exemple, pour $\epsilon = \sqrt{10N\theta(1-\theta)}$ on obtient $X\in\squarebrackets*{N\theta - \sqrt{10N\theta(1-\theta)};N\theta + \sqrt{10N\theta(1-\theta)}}$ avec probabilité supérieure à $90\%$. Jusqu'ici on a supposé $N$ et $\theta$ connus et on en a déduit une information sur $X$. Détail gênant, on connait $N$ mais on n'a aucune idée de la valeur de $\theta$\dots

C'est là que les stats entre en scène. Pour tout $j \in \ssquarebrackets{1}{25}$, on connait le nombre $x_j \in \ssquarebrackets{0}{N}$ de jours de beau temps à Rennes pour l'année $2000+j$. On suppose que le nombre de jours de beau temps est de même loi chaque année, et indépendant d'une année sur l'autre. Dans notre modèle, les $(x_j)_{1 \leq j \leq 25}$ sont donc des réalisations de variables $\cB(N,\theta)$ indépendantes. Plus précisément, il existe un espace de probabilité $\parentheses*{\Omega,\cA,\P}$, des v.a.i.i.d. $X_1,\dots,X_{25}$ de loi $\cB(N,\theta)$ définies sur cet espace, et $\omega_0 \in \Omega$ tel que $x_j=X_j(\omega_0)$ pour tout $j \in \ssquarebrackets{1}{25}$.

Considérons la variable aléatoire réelle $\bar{X}=\frac{1}{25}\sum_{j=1}^{25}X_j$. On a
\begin{equation*}
\esp{\bar{X}}=\frac{1}{25}\sum_{j=1}^{25} \esp{X_j} = \esp{X} = N\theta,
\end{equation*}
et, par indépendance, 
\begin{equation*}
\var{\bar{X}}=\frac{1}{(25)^2}\sum_{j=1}^{25} \var{X_j} = \frac{1}{25} \var{X} = \frac{N\theta(1-\theta)}{25}.
\end{equation*}
Par Bienaymé--Chebishev de nouveau, pour tout $\epsilon>0$,
\begin{equation*}
\P\parentheses*{\norm*{\frac{\bar{X}}{N}-\theta} \geq \epsilon} = \P\parentheses*{\norm*{\bar{X}-N\theta} \geq N\epsilon} \leq \frac{\var{\bar{X}}}{(N\epsilon)^2} = \frac{\theta(1-\theta)}{25 N\epsilon^2} \leq \frac{1}{100 N \epsilon^2},
\end{equation*}
où on a utilisé que le maximum de $\theta \mapsto \theta(1-\theta)$ sur $[0;1]$ est atteint en $\frac{1}{2}$ et vaut $\frac{1}{4}$. Par exemple, pour $\epsilon = \frac{1}{\sqrt{10N}}$ on obtient que $\theta \in \squarebrackets*{\frac{\bar{X}}{N}-\frac{1}{\sqrt{10N}};\frac{\bar{X}}{N}+\frac{1}{\sqrt{10N}}}$ avec probabilité supérieure à $90\%$. En notant $\bar{x} =\frac{1}{25}\sum_{j=1}^{25}x_j= \bar{X}(\omega_0)$, on peut estimer que $\theta \in \squarebrackets*{\frac{\bar{x}}{N}-\frac{1}{\sqrt{10N}};\frac{\bar{x}}{N}+\frac{1}{\sqrt{10N}}}$ et ré-injecter cette information dans la partie proba. On parle alors d'estimation \emph{par intervalle de confiance}. Alternativement, on peut utiliser l'estimation \emph{ponctuelle} $\theta \simeq \frac{\bar{x}}{N}$.

\begin{rem}
\label{rem: ex intro}
\begin{itemize}
\item Dans la partie proba, on estime la probabilité que la grandeur aléatoire $X$ appartienne à un intervalle déterministe. Dans la partie stats, on estime la probabiltié que la grandeur déterministe $\theta$ appartienne à un intervalle aléatoire.
\item On serait tenté de dire que $\theta \in \squarebrackets*{\frac{\bar{x}}{N}-\frac{1}{\sqrt{10N}};\frac{\bar{x}}{N}+\frac{1}{\sqrt{10N}}}$ avec probabilité supérieure à $90\%$, mais ça n'a pas de sens. À ce stade tout est déterministe, ou bien $\squarebrackets*{\frac{\bar{x}}{N}-\frac{1}{\sqrt{10N}};\frac{\bar{x}}{N}+\frac{1}{\sqrt{10N}}}$ contient $\theta$ ou bien il ne le contient pas.
\end{itemize}
\end{rem}

Pour dire quelque chose du monde réel, on doit passer par une phase de modélisation lors de laquelle on fait de nombreuses hypothèses: existence d'une loi cachée ($\P_X$), forme de cette loi ($\cB(N,\theta)$, avec $\theta \in [0;1]$), indépendance des réalisations (plus exactement des v.a. $X_1,\dots,X_{25}$), \dots \\ Ces hypothèses de modélisation sont toujours discutables et souvent invérifiables. Lorsqu'on pose un modèle statistique, il faut trouver un compromis entre:
\begin{itemize}
\item un modèle suffisamment complexe pour être fidèle au phénomène observé;
\item un modèle assez simple pour être étudié mathématiquement et fournir un résultat.
\end{itemize}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Vocabulaire des statistiques}
\label{subsec: vocabulaire des stats}

\begin{dfn}[Modèle statistique]
\label{def: modele stat}
Définir un \emph{modèle statistique (paramétrique)} c'est se donner:
\begin{itemize}
\item un espace mesuré $\parentheses*{\cX,\cB}$, dans lequel vivent nos observations,
\item un \emph{ensemble de paramètres} $\Theta$,
\item une famille $\parentheses*{\P_\theta}_{\theta \in \Theta}$ de loi de probabilité sur $\parentheses*{\cX,\cB}$.
\end{itemize}
Lorsque $\Theta \subset \R^d$ pour un certain $d \in \N^*$, on dit que \emph{le paramètre $\theta$ est de dimension $d$}.
\end{dfn}

Dans la plupart des cas concrets, on sera dans l'une des deux situations suivantes: $\cX$ (fini ou) dénombrable et $\cB=\cP(\cX)$ ou $\cX= \R$ et $\cB=\cB(\R)$.

\begin{ex}
\label{ex: modele statistique}
\begin{itemize}
\item Dans l'exemple introductif, $\cX=\ssquarebrackets{0}{365}$, $\cB= \cP(\cX)$, $\Theta = [0;1]$ et, pour tout $\theta \in [0;1]$, $\P_\theta=\cB(N,\theta)$. Notamment, le paramètre est de dimension $1$.
\item $(\cX,\cB)=(\R,\cB(\R))$ avec $\Theta = \R \times \R_+^*$ et, pour tout $\theta=(\mu,\sigma) \in \Theta$, $\P_\theta=\gauss{\mu}{\sigma^2}$. Dans ce cas, le paramètre est de dimension $2$.
\end{itemize}
\end{ex}

\begin{dfn}[Échantillon]
\label{def: echantillon}
Étant donnés un modèle statistique $\parentheses*{\cX,\cB,\parentheses*{\P_\theta}_{\theta \in \Theta}}$ et $n \in \N^*$, un \emph{échantillon (aléatoire de taille $n$)} ou \emph{$n$-échantillon} est un $n$-uplet $(X_1,\dots,X_n)$ de v.a.i.i.d. de loi $\P_\theta$, où $\theta \in \Theta$ est fixé mais inconnu. La loi $\P_\theta$ est appelée \emph{loi-mère} de l'échantillon.
\end{dfn}

Un échantillon $(X_1,\dots,X_n)$ de loi-mère $\P_\theta$ est une variable aléatoire, à valeurs dans $\parentheses*{\cX^n,\cP(\cX^n)}$ si $\cX$ est dénombrable ou dans $\parentheses*{\R^n,\cB(\R^n)}$ si $(\cX,\cB)=\parentheses*{\R,\cB(\R)}$, de loi $\P_\theta^{\otimes n} := \P_\theta \otimes \dots \otimes \P_\theta$. Un jeu d'observations est un élément $(x_1,\dots,x_n) \in \cX^n$, pensé comme une réalisation de $(X_1,\dots,X_n)$, c'est-à-dire $(x_1,\dots,x_n) = (X_1(\omega_0),\dots,X_n(\omega_0))$ pour un certain $\omega_0 \in \Omega$. Grossièrement, le but des statistiques est de deviner qui est $\theta$ à partir des observations $(x_1,\dots,x_n)$.

\begin{dfn}[Statistique]
\label{def: statistique}
Soit $(X_1,\dots,X_n)$ un échantillon issu d'un modèle $\parentheses*{\cX,\cB,\parentheses*{\P_\theta}_{\theta \in \Theta}}$, on appelle \emph{statistique} toute variable aléatoire de la forme $T = h(X_1,\dots,X_n)$, où $h$ est une fonction sur $\cX^n$ suffisament gentille (par exemple continue) pour que $T$ soit mesurable.
\end{dfn}

\begin{ex}
\label{ex: moment empirique}
Soient $n \in \N^*$ et $(X_1,\dots,X_n)$ un $n$-échantillon de v.a. réelles, issu d'un certain modèle statistique. On peut définir les statistiques classiques suivantes:
\begin{itemize}
\item la \emph{moyenne empirique} $\bar{X}_n = \displaystyle\frac{1}{n}\sum_{k=1}^n X_k$;
\item la \emph{variance empirique} $\tilde{S}_n = \displaystyle\frac{1}{n}\sum_{k=1}^n (X_k - \bar{X}_n)^2$;
\item la \emph{variance de l'échantillon} $S_n = \displaystyle\frac{1}{n-1}\sum_{k=1}^n (X_k - \bar{X}_n)^2$;
\item le maximum $M_n = \displaystyle\max_{1 \leq k \leq n} X_k$.
\end{itemize}
\end{ex}

Connaissant la loi-mère de l'échantillon $(X_1,\dots,X_n)$, on ne sait en général pas déterminer la loi des statistiques associées. Dans les cas simples, on sait quand même dire des choses.

\begin{lem}
\label{lem: moyenne empirique}
Soient $X$ une v.a.r. et $(X_1,\dots,X_n)$ un $n$-échantillon dont la loi-mère est $\P_X$.
\begin{itemize}
\item Si $X$ est $L^1$ et $\esp{X}=\mu$ alors $\bar{X}_n$ est $L^1$ et $\esp{\bar{X}_n}=\mu$.
\item Si $X$ est $L^2$ et $\var{X}=\sigma^2$ alors $\bar{X}_n$ est $L^2$ et $\var{\bar{X}_n}=\frac{\sigma^2}{n}$.
\item Si $\phi_X$ est la fonction caractéristique de $X$, alors celle de $\bar{X}_n$ est $\phi_{\bar{X}_n}:t \mapsto \phi_X\parentheses*{\frac{t}{n}}^n$.
\end{itemize}
\end{lem}

\begin{proof}
Exercice.
\end{proof}

\begin{cor}
\label{cor: moyenne empirique gaussienne}
Si l'échantillon $(X_1,\dots,X_n)$ est de loi-mère $\gauss{\mu}{\sigma^2}$ alors $\bar{X}_n \sim \gauss{\mu}{\frac{\sigma^2}{n}}$.
\end{cor}

\begin{proof}
Soit $X \sim \gauss{\mu}{\sigma^2}$. D'après le lemme~\ref{lem: moyenne empirique}, pour tout $t \in \R$ on a
\begin{equation*}
\phi_{\bar{X}_n}(t) = \phi_X\parentheses*{\frac{t}{n}}^n = \parentheses*{\exp\parentheses*{i\frac{t}{n}\mu -\frac{t^2}{2n^2}\sigma^2}}^n = \exp\parentheses*{i t \mu - \frac{t^2}{2} \frac{\sigma^2}{n}}.
\end{equation*}
Comme la fonction caractéristique détermine totalement la loi, on a bien $\bar{X}_n \sim\gauss{\mu}{\frac{\sigma^2}{n}}$.
\end{proof}

\begin{lem}
\label{lem: variance empirique}
Soient $X$ une v.a.r. $L^2$ de variance $\sigma^2$ et $(X_1,\dots,X_n)$ un $n$-échantillon dont la loi-mère est $\P_X$. Alors $\tilde{S}_n$ est $L^1$ avec $\esp{\tilde{S}_n}=\frac{n-1}{n}\sigma^2$ et $S_n$ est $L^1$ avec $\esp{S_n} = \sigma^2$.
\end{lem}

\begin{proof}
Soit $k \in \ssquarebrackets{1}{n}$, on a $X_k - \bar{X}_n = X_k-\frac{1}{n}\sum_{i=1}^n X_i = \frac{n-1}{n}X_k + \sum_{i\neq k} \parentheses*{-\frac{1}{n}}X_i$. Par combinaison linéaire $X_k-\bar{X}_n$ est $L^2$, donc $(X_k-\bar{X}_n)^2$ est $L^1$, donc $\tilde{S}_n$ et $S_n$ sont~$L^1$. Ensuite,
\begin{equation*}
\esp{X_k - \bar{X}_n} = \frac{n-1}{n}\esp{X_k} - \sum_{i\neq k} \frac{1}{n}\esp{X_i} = \parentheses*{\frac{n-1}{n}-(n-1)\frac{1}{n}}\esp{X}=0.
\end{equation*}
Donc $\var{X_k - \bar{X}_n}=\esp{\parentheses*{X_k - \bar{X}_n}^2}$ et, par indépendance, on a
\begin{equation*}
\var{X_k - \bar{X}_n} = \var{\frac{n-1}{n}X_k} + \sum_{i \neq k}\var{-\frac{1}{n}X_i} = \parentheses*{\frac{(n-1)^2}{n^2}+\frac{n-1}{n^2}}\sigma^2= \frac{n-1}{n}\sigma^2.
\end{equation*}
Donc $\esp{\tilde{S}_n} = \frac{1}{n}\sum_{k=1}^n \esp{\parentheses*{X_k - \bar{X}_n}^2} =\frac{n-1}{n}\sigma^2$ et $\esp{S_n} = \esp{\frac{n}{n-1}\tilde{S}_n} = \frac{n}{n-1}\esp{\tilde{S}_n} =\sigma^2$.
\end{proof}

\begin{lem}
\label{lem: loi du max}
Soient $X$ une v.a.r. de fonction de répartition $F_X$ et $(X_1,\dots,X_n)$ un $n$-échantillon dont la loi-mère est $\P_X$. Alors la fonction de répartition de $M_n$ est $F_{M_n}=(F_X)^n$.
\end{lem}

\begin{proof}
Exercice.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Estimateurs ponctuels}
\label{sec: estimateurs ponctuels}

On considère un modèle statistique $\parentheses*{\cX,\cB,(\P_\theta)_{\theta \in \Theta}}$. Lorsque $(\P_\theta)_{\theta \in \Theta}$ est une famille de lois classiques, on notera parfois simplement $(\P_\theta)_{\theta \in \Theta}$ pour le modèle, l'ensemble mesuré $\parentheses*{\cX,\cB}$ étant implicite. Dans l'exemple introductif, on peut prendre comme modèle $\parentheses*{\N,\cP\parentheses*{\N},\parentheses*{\cB(N,\theta)}_{\theta \in [0;1]}}$ avec $N = 365$, ce qu'on abrégera en $\parentheses*{\cB(N,\theta)}_{\theta \in [0;1]}$.


\subsection{Notion d'estimateur}
\label{subsec: notion estimateur}

\begin{dfn}[Estimateur et estimation]
\label{def: estimateur}
Soient $\psi$ une fonction sur $\Theta$ et $T = h(X_1,\dots,X_n)$ une statistique basée sur un $n$-échantillon dans notre modèle. Dire que $T$ est un \emph{estimateur} de $\psi(\theta)$, c'est affirmer qu'on pense que les réalisations de $T$ sont proches de $\psi(\theta)$.

Si $T$ est un estimateur de $\psi(\theta)$, soient $\omega_0 \in \Omega$ et $(x_1,\dots,x_n) = (X_1(\omega_0),\dots,X_n(\omega_0))$ une réalisation de notre $n$-échantillon, on dit que $h(x_1,\dots,x_n)=T(\omega_0)$ est une \emph{estimation} de $\psi(\theta)$.
\end{dfn}

\begin{rem}
\begin{itemize}
\item Le terme estimateur est flou. Il n'y a pas de différence formelle entre estimateurs et statistiques. On ajoute juste une nuance disant que cette statistique est intéressante.
\item "Les réalisations de $T$ sont proches de $\psi(\theta)$" signifie que: pour tout $\theta \in \Theta$, si la loi-mère de l'échantillon est $\P_\theta$, alors la distribution de $T$ (qui dépend de $\theta$ via $(X_1,\dots,X_n)$) "est concentrée" autour de $\psi(\theta)$. C'est toujours flou\dots
\item Souvent $\Theta \subset \R$ avec $\psi:\theta \mapsto \theta$ l'inclusion, et on s'intéresse à des estimateurs de $\theta$.
\end{itemize}
\end{rem}

\begin{ex}
\begin{itemize}
\item Dans l'exemple introductif, le modèle est $(\cB(N,\theta))_{\theta \in \Theta}$ avec $N =365$, $n=25$, et on a considéré la statistique $T=\frac{1}{N}\bar{X}= \frac{1}{25 N}\sum_{k=1}^{25} X_k$ comme un estimateur de $\theta$.
\item Dans le modèle $\parentheses*{\gauss{\mu}{\sigma^2}}_{(\mu,\sigma) \in \R \times \R_+^*}$, pour $\psi:(\mu,\sigma)=\theta \mapsto \mu$ de $\Theta = \R\times \R_+^*$ dans $\R$, la statistique $\bar{X}_n=\frac{1}{n}\sum_{k=1}^n X_k$ est un estimateur de $\mu = \psi(\theta)$.
\end{itemize}
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Qualité d'un estimateur}
\label{subsec: qualite estimateur}

N'importe quelle fonction mesurable $h:\cX^n \to \R$ appliquée à un $n$-échantillon $(X_1,\dots,X_n)$ définit une statistique $T=h(X_1,\dots,X_n)$. On va introduire des notions permettant de quantifier la pertinence de $T$ en tant qu'estimateur d'une quantité $\psi(\theta)$, où $\psi:\Theta \to \R$.

Dans la suite, pour tout $\theta \in \Theta$, on note $\esp[\theta]{T}$ (resp.~$\var[\theta]{T}$) l'espérance (resp.~la variance) de $T=h(X_1,\dots,X_n)$ lorsque la loi-mère de l'échantillon est $\P_\theta$, sous réserve qu'elle soit bien définie.

\begin{dfn}[Biais]
\label{def: biais}
Soit $\theta \in \Theta$ tel que $\esp[\theta]{\norm{T}}<+\infty$. On définit le \emph{biais} $b_T(\theta) \in \R$ de $T$ en $\theta$ par $b_T(\theta) = \esp[\theta]{T} - \psi(\theta)$. On dit que $T$ est un estimateur de $\psi(\theta)$ \emph{sans biais} si, $\forall \theta \in \Theta$, $b_T(\theta)=0$.
\end{dfn}

\begin{dfn}[Risque quadratique]
\label{def: risque}
Soit $\theta \in \Theta$ tel que $\esp[\theta]{T^2}<+\infty$. On définit le \emph{risque (quadratique)} $R_T(\theta) \geq 0$ de $T$ en $\theta$ par $R_T(\theta) = \esp[\theta]{\parentheses*{T - \psi(\theta)}^2}$.
\end{dfn}

\begin{lem}
\label{lem: decomposition biais-variance}
Pour tout $\theta \in \Theta$ tel que $\esp[\theta]{T^2}<+\infty$, on a $R_T(\theta) = b_T(\theta)^2 + \var[\theta]{T}$.
\end{lem}

\begin{proof}
On calcule
\begin{align*}
R_T(\theta) &= \esp[\theta]{\parentheses*{T - \psi(\theta)}^2} = \esp[\theta]{\parentheses*{T-\esp[\theta]{T}+\esp[\theta]{T}-\psi(\theta)}^2} = \esp[\theta]{\parentheses*{T-\esp[\theta]{T}+b_T(\theta)}^2}\\
&=  \esp[\theta]{\parentheses*{T-\esp[\theta]{T}}^2} + \esp[\theta]{2\parentheses*{T-\esp[\theta]{T}}b_T(\theta)} + \esp[\theta]{b_T(\theta)^2}\\
&= \var[\theta]{T} + 2b_T(\theta) \esp[\theta]{\parentheses*{T-\esp[\theta]{T}}} +b_T(\theta)^2 = \var[\theta]{T} +b_T(\theta)^2. \qedhere
\end{align*}
\end{proof}

\begin{ex}
\label{ex: biais risque}
Dans le modèle $\parentheses*{\cB(N,\theta)}_{\theta \in [0;1]}$ de l'exemple introductif, on a montré que, pour tout $\theta \in [0;1]$, $\esp[\theta]{\bar{X}}=N\theta$, donc $\esp[\theta]{\frac{1}{N}\bar{X}}=\theta$. Donc $T=\frac{1}{N}\bar{X}$ est un estimateur sans biais de $\theta$. Ensuite, pour tout $\theta \in [0;1]$,
\begin{equation*}
R_T(\theta) = \var[\theta]{T}=\frac{1}{N^2}\var[\theta]{\bar{X}}= \frac{\theta(1-\theta)}{25 N} \leq \frac{1}{100 N}.
\end{equation*}
\end{ex}

\begin{lem}
\label{lem: concentration risque}
Soit $\theta \in \Theta$ tel que $\esp[\theta]{T^2}<+\infty$. Pour tout $\epsilon >0$ on a $\P_\theta\parentheses*{\norm*{T-\psi(\theta)}>\epsilon} \leq \frac{R_T(\theta)}{\epsilon^2}$, où l'indice $\theta$ signifie qu'on calcule la probabilité sous l'hypothèse que la loi-mère est $\P_\theta$.
\end{lem}

\begin{proof}
Soit $\epsilon>0$, par l'inégalité de Markov,
\begin{equation*}
\P_\theta\parentheses*{\norm*{T-\psi(\theta)}>\epsilon} = \P_\theta\parentheses*{\parentheses*{T-\psi(\theta)}^2>\epsilon^2} \leq \frac{1}{\epsilon^2}\esp[\theta]{\parentheses*{T-\psi(\theta)}^2} = \frac{1}{\epsilon^2}R_T(\theta).\qedhere
\end{equation*}
\end{proof}

Plus le risque $R_T(\theta)$ est petit, plus la variable $T$ est concentrée autour de $\psi(\theta)$. Notamment, si $R_T(\theta)=0$ alors $T = \psi(\theta)$ presque sûrement. Dans ces estimations tout dépend de $\theta$, qui est inconnu. On cherche donc à avoir $R_T(\theta)$ petit indépendamment de $\theta$, comme dans l'exemple introductif. Un bon estimateur est donc un estimateur de risque faible (uniformément en $\theta$). On peut alors dire qu'un estimateur est meilleur qu'un autre si son risque est (uniformément) plus petit.

\begin{dfn}[Domination]
\label{def: estimateur dominant}
Soient $T$ et $\tilde{T}$ deux estimateurs d'une même quantité~$\psi(\theta)$. On dit que $T$ \emph{domine} $\tilde{T}$ si:
\begin{itemize}
\item pour tout $\theta \in \Theta$, $R_T(\theta) \leq R_{\tilde{T}}(\theta)$;
\item il existe $\theta_0 \in \Theta$ tel que $R_T(\theta_0) < R_{\tilde{T}}(\theta_0)$.
\end{itemize}
\end{dfn}

Jusqu'à présent, on a travaillé avec des échantillons de taille fixée. Pour les estimateurs usuels, tels la moyenne empirique $\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k$, on a en fait une suite d'estimateurs indexée par $n \in \N^*$ et on peut en étudier le comportement asymptotique quand $n \to +\infty$.

Dans la suite, on considère une suite $(X_k)_{k \in \N^*}$ de v.a.i.i.d. de loi-mère $\P_\theta$ inconnue. On considère, pour tout $n \in \N^*$, un estimateur $T_n = h_n(X_1,\dots,X_n)$ de $\psi(\theta)$ basé sur le $n$-échantillon $(X_1,\dots,X_n)$.

Quand $n$ augmente, on augmente la taille du jeu de données $(x_1,\dots,x_n)=(X_1(\omega_0),\dots,X_n(\omega_0))$ sur lequel se base l'estimation $\psi(\theta)\simeq h_n(x_1,\dots,x_n)$ associée à $T_n$. Comme on utilise plus d'information, il est logique d'espérer un meilleur résultat. À la limite $n \to +\infty$, on utilise moralement une infinité d'informations, et il est raisonnable d'espérer que ça suffise à reconstruire $\psi(\theta)$ parfaitement. Un comportement souhaitable est donc que $(T_n)_{n \in \N^*}$ converge vers $\psi(\theta)$ en un certain sens.

\begin{dfn}[Consistance]
\label{def: consistance}
Soit $(T_n)_{n \in \N^*}$ une suite d'estimateurs de $\psi(\theta)$ comme ci-dessus.
\begin{itemize}
\item Si, pour tout $\theta \in \Theta$, sous l'hypothèse que la loi-mère est $\P_\theta$ on a $T_n \CVP{n \to +\infty} \psi(\theta)$, alors on dit que la suite $(T_n)_{n \in \N^*}$ est \emph{consistante}.
\item Si, pour tout $\theta \in \Theta$, sous l'hypothèse que la loi-mère est $\P_\theta$ on a $T_n \CVps{n \to +\infty} \psi(\theta)$, alors on dit que la suite $(T_n)_{n \in \N^*}$ est \emph{fortement consistante}.
\end{itemize}
Par abus de langage, on dira que $T_n$ est un \emph{estimateur consistant} (resp. \emph{fortement consistant}).
\end{dfn}

\begin{dfn}[Normalité asymptotique]
\label{def: normalite asymptotique}
Soit $(T_n)_{n \in \N^*}$ une suite d'estimateurs de $\psi(\theta)$ comme ci-dessus. On dit que $(T_n)_{n \in \N^*}$ est \emph{asymptotiquement normale} s'il existe une suite $(R_n)_{n \in \N^*}$ positive telle que: pour tout $\theta \in \Theta$, il existe $\sigma_\theta >0$ tel que, sous l'hypothèse que la loi-mère est $\P_\theta$, on a 
\begin{equation*}
R_n\parentheses*{T_n -\psi(\theta)} \CVL{n \to +\infty} \gauss{0}{\sigma_\theta^2}.
\end{equation*}
\end{dfn}

\begin{ex}
Revenons au modèle $\parentheses*{\cB(N,\theta)}_{\theta \in [0;1]}$ de l'exemple introductif. Pour tout $\theta \in [0;1]$, les $(X_k)_{k \in \N^*}$ sont des v.a.i.i.d. $L^1$ d'espérance $N\theta$. Par la loi forte des grands nombres, on a donc $\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k \CVps{n \to +\infty} N\theta$. Donc, sous $\P_\theta$, on a $T_n = \frac{1}{N}\bar{X}_n \CVps{n\to +\infty} \theta$. Donc $(T_n)_{n \in \N^*}$ est une suite fortement consistante d'estimateurs de~$\theta$.

Par ailleurs, si on suppose $\theta \in ]0;1[$, on a
\begin{equation*}
\parentheses*{T_n - \theta} = \frac{1}{N}\parentheses*{\frac{1}{n}\sum_{k=1}^n X_k - N\theta} = \sqrt{\frac{\theta(1-\theta)}{Nn}}\parentheses*{\frac{1}{\sqrt{n}}\sum_{k=1}^n \frac{X_k - N\theta}{\sqrt{N\theta(1-\theta)}}}.
\end{equation*}
Comme les $(X_k)_{k \in \N^*}$ sont $L^2$ d'espérance $N\theta$ et de variance $N\theta(1-\theta)$, par le théorème central limite on a $\frac{1}{\sqrt{n}}\sum_{k=1}^n \frac{X_k - N\theta}{\sqrt{N\theta(1-\theta)}} \CVL{n\to +\infty} \gauss{0}{1}$. On en déduit que
\begin{equation*}
\sqrt{n}\parentheses*{T_n - \theta} = \sqrt{\frac{\theta(1-\theta)}{N}}\parentheses*{\frac{1}{\sqrt{n}}\sum_{k=1}^n \frac{X_k - N\theta}{\sqrt{N\theta(1-\theta)}}} \CVL{n \to +\infty} \gauss{0}{\frac{\theta(1-\theta)}{N}}.
\end{equation*}
Si on restreint l'espace des paramètres à $]0;1[$, la suite $(T_n)_{n \in \N^*}$ est donc asymptotiquement normale. Si $\theta \in \brackets{0;1}$ alors, pour tout $n \in \N^*$, $T_n = \theta$ presque sûrement sous $\P_\theta$. Pour ces paramètres, on n'a aucune chance d'avoir une limite en loi non-nulle, même après renormalisation.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Méthode des moments}
\label{subsec: methode des moments}

Supposons que notre modèle $\parentheses*{\cX,\cB,\parentheses*{\P_\theta}_{\theta \in \Theta}}$ est tel que $\cX \subset \R$ et $\Theta \subset \R^d$. On va présenter une méthode classique, appelée \emph{méthode des moments}, pour construire des estimateurs de~$\theta$ ($d=1$) ou de ses composantes ($d>1$). Dans la suite on note $X$ une v.a.r. de loi $\P_\theta$.

\begin{dfn}[Fonctions moments]
\label{def: mu k}
Soit $p \in \N^*$. Si pour tout $\theta \in \Theta$ on a $\esp[\theta]{\norm{X}^p}<+\infty$, on pose $\mu_p:\theta \mapsto \esp[\theta]{X^p}$ de $\Theta$ dans $\R$.
\end{dfn}

On présente la méthode dans le cas le plus simple, qui est aussi le plus utile en pratique. Supposons que, pour tout $\theta \in \Theta$, la v.a. $X$ est $L^1$. Soit $(X_k)_{k \in \N^*}$ une suite de v.a.i.i.d. de loi-mère $\P_\theta$. D'après la loi des grands nombres, pour tout $\theta \in \Theta$, on a
\begin{equation*}
\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k \CVps{n \to +\infty} \esp[\theta]{X} = \mu_1(\theta).
\end{equation*}
Il est donc raisonnable de considérer $\bar{X}_n$ comme un estimateur de $\mu_1(\theta)$. Une réalisation $\bar{x}_n$ de $\bar{X}_n$ fournit alors une estimation $\mu_1(\theta) \simeq \bar{x}_n$. Si $\mu_1$ est injective, elle réalise une bijection de $\Theta$ vers son image, et un choix naturel est d'estimer $\theta \simeq \mu_1^{-1}(\bar{x}_n)$. L'estimateur de $\theta$ correspondant est $\mu_1^{-1}\parentheses*{\bar{X}_n}$.

\begin{dfn}[Estimateur par la méthode des moments, dimension $1$]
\label{def: estimateur moments dim1}
Supposons la fonction $\mu_1:\Theta \to \R$ bien définie et injective. Pour tout $n \in \N^*$ tel que $\bar{X}_n=\frac{1}{n}\sum_{k=1}^n X_k$ est presque sûrement à valeurs dans $\mu_1(\Theta)$, on définit l'\emph{estimateur de $\theta$ par la méthode des moments} comme $T_n = \mu_1^{-1}(\bar{X}_n)$.
\end{dfn}

\begin{ex}
Dans le modèle $\parentheses*{\cE(\theta)}_{\theta >0}$, c'est-à-dire $\Theta =\, ]0,+\infty[$ et $\P_\theta$ est la loi exponentielle de paramètre $\theta$ sur $]0,+\infty[$. Pour tout $\theta>0$, on a $\mu_1(\theta) =\esp[\theta]{X}=\frac{1}{\theta}$. En particulier, $\mu_1$ est injective d'image $]0;+\infty[$, et $\mu_1^{-1}:x \mapsto \frac{1}{x}$ de $]0,+\infty[$ dans lui-même. Sous la loi-mère $\P_\theta$, pour tout $n \in \N^*$, $\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k$ est à valeurs strictement positives, et $T_n = \frac{1}{\bar{X}_n} = \frac{n}{\sum_{k=1}^n X_k}$ est l'estimateur de $\theta$ par la méthode des moments.
\end{ex}

\begin{rem}
\label{rem: regularite mu1}
Dans les cas concrets, $\mu_1$ est en général continue. Pour espérer que $\mu_1(\theta) \simeq \bar{x}_n$ implique $\theta \simeq \mu_1^{-1}(\bar{x}_n)$, il faut que $\mu_1^{-1}$ soit un minimum régulière. Sauf cas pathologiques, on a $\mu_1^{-1}$ continue aussi, et donc $\mu_1$ réalise un homéomorphisme de $\Theta \subset \R^d$ vers $\mu_1(\Theta) \subset \R$. Si $\Theta$ n'est pas d'intérieur vide, comme c'est en général le cas, cela impose $d=1$. On ne peut donc espérer construire un estimateur raisonnable de $\theta$ par cette méthode que si le paramètre est de dimension~$1$.
\end{rem}

Il arrive que $\mu_1$ ne soit pas injective, ou plus généralement pas sympathique. Si $X$ est $L^p$ sous $\P_\theta$, alors $X^p$ est $L^1$ et $\frac{1}{n}\sum_{k=1}^n X_k^p \CVps{n \to +\infty} \esp[\theta]{X^p}=\mu_p(\theta)$. On peut alors raisonner de même avec~$\mu_p$.

\begin{dfn}[Estimateur par la méthode des moments, variante]
\label{def: estimateur moments variante}
Soit $p \in \N^*$, supposons la fonction $\mu_p:\Theta \to \R$ bien définie et injective. Pour tout $n \in \N^*$ tel que $\frac{1}{n}\sum_{k=1}^n X_k^p$ est presque sûrement à valeurs dans $\mu_p(\Theta)$, on définit un estimateur de $\theta$ par $T_n = \mu_p^{-1}\parentheses*{\frac{1}{n}\sum_{k=1}^n X_k^p}$.
\end{dfn}

De nouveau, si $\mu_p$ et $\Theta$ sont raisonnables, cette variante ne peut fonctionner que si le paramètre est de dimension $1$. Pour un paramètre de dimension $d \geq 2$, il faut utiliser plusieurs fonctions moments simultanément. Si $X$ est $L^d$ sous $\P_\theta$, alors on a
\begin{equation*}
\forall p \in \ssquarebrackets{1}{d}, \qquad \frac{1}{n}\sum_{k=1}^n X_k^p \CVps{n \to +\infty} \esp[\theta]{X^p}=\mu_p(\theta).
\end{equation*}
Si la fonction $\mu_{\ssquarebrackets{1}{d}}:\theta \mapsto \parentheses*{\mu_1(\theta),\dots,\mu_d(\theta)}$ est injective de $\Theta$ vers $\R^d$, on joue au même jeu qu'avant.

\begin{dfn}[Estimateur par la méthode des moments, dimension $d$]
\label{def: estimateur moments v3}
Soit $d \in \N^*$, supposons $\Theta \subset \R^d$ et la fonction $\mu_{\ssquarebrackets{1}{d}}:\Theta \to \R^d$ bien définie et injective. Pour tout $n \in \N^*$ tel que $\parentheses*{\frac{1}{n}\sum_{k=1}^n X_k^p}_{1 \leq p \leq d}$ est presque sûrement à valeurs dans $\mu_{\ssquarebrackets{1}{d}}(\Theta)$, on définit un estimateur de $\theta$ par
\begin{equation*}
T_n = \mu_{\ssquarebrackets{1}{d}}^{-1}\parentheses*{\frac{1}{n}\sum_{k=1}^n X_k,\frac{1}{n}\sum_{k=1}^n X_k^2,\dots, \frac{1}{n}\sum_{k=1}^n X_k^d}.
\end{equation*}
Par estimateur de $\theta=(\theta_1,\dots,\theta_d)$, on entend que $T_n=(T_{n,1},\dots,T_{n,d})$ est tel que, pour tout $j \in \ssquarebrackets{1}{d}$, $T_{n,j}$ est un estimateur de $\theta_j$.
\end{dfn}

\begin{thm}[Consistance de la méthode des moments]
\label{thm: consistance moment}
Supposons que:
\begin{itemize}
\item $\Theta \subset \R$ est un intervalle;
\item $\mu_1:\Theta \to \R$ est bien définie (i.e. $\forall \theta \in \Theta$, $\esp[\theta]{\norm{X}}<+\infty$), continue et injective;
\item pour tout $n \in \N^*$, l'estimateur $T_n = \mu_1^{-1}(\bar{X}_n)$ de $\theta$ est bien défini.
\end{itemize}
Alors $(T_n)_{n \in \N^*}$ est une suite fortement consistante d'estimateurs de $\theta$.
\end{thm}

\begin{proof}
Sous $\P_\theta$, la variable $X$ est $L^1$. Par la loi forte des grands nombres, on a donc $\bar{X}_n \CVps{n \to +\infty} \mu_1(\theta)$. Sous nos hypothèses, $\mu_1$ est une bijection de $\Theta$ vers $\mu_1(\Theta)$. Pour conclure, il suffit de vérifier que $\mu_1^{-1}$ est continue. On aura alors $T_n = \mu_1^{-1}(\bar{X}_n) \CVps{n \to +\infty} \theta$.

Comme $\mu_1$ est continue, injective et définie sur un intervalle, elle est strictement monotone (faire un dessin). On conclut en utilisant le résultat classique qu'une fonction continue et strictement monotone réalise un homéomorphisme vers son image. En particulier, $\mu_1^{-1}$ est continue.
\end{proof}

\begin{rem}
\label{rem: consistance moment}
Ce résultat s'étend à la variante, en remplaçant $\mu_1$ par $\mu_p$ et $\bar{X}_n$ par $\frac{1}{n}\sum_{k=1}^n X_k^p$. Il s'étend aussi en dimension $d$, en remplaçant $\mu_1$ par $\mu_{\ssquarebrackets{1}{d}}$ et en supposant $\Theta \subset \R^d$ ouvert. En pratique, $\mu_1^{-1}$ est explicite, et il est souvent plus simple de refaire le raisonnement plutôt que d'appliquer le théorème~\ref{thm: consistance moment}.
\end{rem}

\begin{thm}[Normalité asymptotique de la méthode des moments]
\label{thm: normalite asymptotique moment}
On suppose que:
\begin{itemize}
\item $\Theta \subset \R$ est un intervalle ouvert;
\item $\forall \theta \in \Theta$, $\esp[\theta]{X^2}<+\infty$;
\item $\mu_1$ est de classe $\cC^1$ et $\mu_1'$ ne s'annule pas;
\item pour tout $n \in \N^*$, l'estimateur $T_n = \mu_1^{-1}(\bar{X}_n)$ de $\theta$ est bien défini.
\end{itemize}
Alors, pour tout $\theta \in \Theta$, on a $\sqrt{n}(T_n - \theta) \CVL{n \to +\infty} \gauss{0}{\frac{\var[\theta]{X}}{\mu_1'(\theta)^2}}$.
\end{thm}

\begin{proof}
Admis.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Méthode du maximum de vraisemblance}
\label{subsec: maximum de vraisemblance}

On va présenter une seconde méthode pour construire des estimateurs, pour une famille de lois discrètes ou à densité. On considère un modèle statistique $\parentheses*{\cX,\cA,(\P_\theta)_{\theta \in \Theta}}$, où $\cX \subset \R$ et $\Theta \subset \R^d$.

Commençons par le cas à densité. On suppose que, pour tout $\theta \in \Theta$, la loi $\P_\theta$ est une mesure de probabilité à densité sur $\cX \subset \R$. On définit alors $f:\Theta \times \cX \to \R_+$ telle que, pour tout $\theta \in \Theta$, la fonction $f(\theta,\cdot):x \mapsto f(\theta,x)$ est la densité de $\P_\theta$. Soit $(X_1,\dots,X_n)$ un $n$-échantillon de loi-mère $\P_\theta$. Ce vecteur aléatoire admet la densité $(x_1,\dots,x_n) \mapsto \prod_{k=1}^n f(\theta,x_i)$.

\begin{dfn}[Fonction de vraisemblance, cas à densité]
\label{def: fonction de vraisemblance densite}
On définit $f_n:\Theta \times \cX^n \to \R_+$ par $f_n:(\theta,x_1,\dots,x_n)\mapsto \prod_{k=1}^n f(\theta,x_i)$. On appelle \emph{fonction de vraisemblance} en $(x_1,\dots,x_n) \in \cX^n$ la fonction $V_{(x_1,\dots,x_n)}:\theta \mapsto f_n(\theta,x_1,\dots,x_n)$ de $\Theta$ dans $\R_+$.
\end{dfn}

Le principe de la méthode est que, si on connait une réalisation $(x_1,\dots,x_n) \in \cX^n$ de l'échantillon, alors le paramètre le plus plausible est celui pour lequel la fonction de vraisemblance $V_{(x_1,\dots,x_n)}$ est maximale, c'est-à-dire $\theta_0 \in \Theta$ tel que $V_{(x_1,\dots,x_n)}(\theta_0) = \max_{\theta \in \Theta} V_{(x_1,\dots,x_n)}(\theta)$. Pour que cela ait du sens, il faut que $V_{(x_1,\dots,x_n)}$ atteigne son maximum en un unique point. On définit $D_n \subset \cX^n \subset \R^n$ l'ensemble des points $(x_1,\dots,x_n)$ pour lesquels c'est le cas.

\begin{dfn}[Argmax]
\label{def: argmax}
Soit $V :\Theta \to \R$. Si $V$ atteint un maximum en un unique point $\theta_0 \in \Theta$, on dit que $\theta_0$ est l'\emph{argmax} de $V$, et on le note $\theta_0=\arg\max_{\theta \in \Theta} V(\theta)$.
\end{dfn}

\begin{dfn}[Estimateur du maximum de vraisemblance, cas à densité]
\label{def: estimateur du MV, a densite}
Soit $h_n : D_n \to \Theta$ la fonction $h_n:(x_1,\dots,x_n) \mapsto \arg\max_{\theta \in \Theta} V_{(x_1,\dots,x_n)}(\theta)$. Si l'échantillon $(X_1,\dots,X_n)$ est presque sûrement à valeurs dans $D_n$, l'\emph{estimateur du maximum de vraisemblance} de $\theta$ est $T_n = h_n(X_1,\dots,X_n)$.
\end{dfn}

\begin{ex}
\label{ex: estimateur MV exp}
Dans le modèle $\parentheses*{\cE(\theta)}_{\theta >0}$, on a $\Theta = ]0;+\infty[$, et on peut prendre $\cX=]0;+\infty[$. Pour tout $\theta >0$, la loi $\P_\theta$ admet la densité $x \mapsto \theta e^{-\theta x}$. On a donc $f:(\theta,x) \mapsto \theta e^{-\theta x}$ et
\begin{equation*}
f_n:(\theta,x_1,\dots,x_n) \longmapsto \prod_{k=1}^n \theta e^{-\theta x_k} = \theta^n e^{-\theta \sum_{k=1}^n x_k}.
\end{equation*}

Soit $(x_1,\dots,x_n) \in \cX^n$. La fonction $V_{(x_1,\dots,x_n)}:\theta \mapsto \theta^n \exp\parentheses*{-\theta \sum_{k=1}^n x_k}$ est continue, strictement positive et elle tend vers $0$ lorsque $\theta \to 0$ (car $n \in \N^*$) et lorsque $\theta \to +\infty$ (car $\sum_{k=1}^n x_k >0$). Elle atteint donc un maximum sur $\Theta = ]0;+\infty[$. Cette fonction étant en fait dérivable, ce maximum est atteint en un point d'annulation de sa dérivée $V_{(x_1,\dots,x_n)}': \theta \mapsto \parentheses*{n - \theta \sum_{k=1}^n x_i}\theta^{n-1} e^{-\theta \sum_{k=1}^n x_k}$. Or,
\begin{equation*}
V_{(x_1,\dots,x_n)}'(\theta) = 0 \iff n - \theta \sum_{k=1}^n x_i=0 \iff \theta = \frac{n}{\sum_{k=1}^n x_k}.
\end{equation*}
Donc $(x_1,\dots,x_n) \in D_n$ et $\arg\max_{\theta>0} V_{(x_1,\dots,x_n)}(\theta) = \frac{n}{\sum_{k=1}^n x_k}$. Ainsi, $h_n:(x_1,\dots,x_n)\mapsto \frac{n}{\sum_{k=1}^n x_i}$ de $D_n =\cX^n$ vers $\Theta$. Comme $\P\parentheses*{(X_1,\dots,X_n) \in D_n}=1$, l'estimateur du maximum de vraisemblance est bien défini, et c'est $T_n = h_n(X_1,\dots,X_n) = \frac{n}{\sum_{k=1}^n X_i} = \frac{1}{\bar{X}_n}$. On retrouve la même que l'estimateur par la méthode des moments.
\end{ex}

Même principe dans le cas discret. Soit $\cX$ dénombrable. Supposons que, pour tout $\theta \in \Theta$, si $X\sim \P_\theta$ alors $X$ est à valeurs dans $\cX$. On définit $p:\Theta \times \cX \to [0;1]$ par $p(\theta,x) = \P_\theta(X=x)$ pour tout $(\theta,x) \in \Theta \times \cX$. Ainsi, $\parentheses*{p(\theta,x)}_{x \in \cX}$ est la fonction de probabilité de $X$. La fonction de probabilité d'un $n$-échantillon $(X_1,\dots,X_n)$ de loi-mère $\P_\theta$ est alors $\parentheses*{\prod_{k=1}^n p(\theta,x_i)}_{(x_1,\dots,x_n) \in \cX^n}$.

\begin{dfn}[Fonction de vraisemblance, cas discret]
\label{def: fonction de vraisemblance discret}
On définit $p_n:\Theta \times \cX^n \to [0;1]$ par $p_n:(\theta,x_1,\dots,x_n)\mapsto \prod_{k=1}^n p(\theta,x_i)$. On appelle \emph{fonction de vraisemblance} en $(x_1,\dots,x_n) \in \cX^n$ la fonction $V_{(x_1,\dots,x_n)}:\theta \mapsto p_n(\theta,x_1,\dots,x_n)$ de $\Theta$ dans $[0;1]$.
\end{dfn}

Comme précédemment, on note $D_n \subset \cX^n$ l'ensemble des points $(x_1,\dots,x_n) \in \cX^n$ tels que $V_{(x_1,\dots,x_n)}$ atteint son maximum en un unique point.

\begin{dfn}[Estimateur du maximum de vraisemblance, cas discret]
\label{def: estimateur du MV, discret}
Soit $h_n : D_n \to \Theta$ la fonction $h_n:(x_1,\dots,x_n) \mapsto \arg\max_{\theta \in \Theta} V_{(x_1,\dots,x_n)}(\theta)$. Si l'échantillon $(X_1,\dots,X_n)$ est presque sûrement à valeurs dans $D_n$, l'\emph{estimateur du maximum de vraisemblance} de $\theta$ est $T_n = h_n(X_1,\dots,X_n)$.
\end{dfn}

\begin{rem}
\label{rem: determination du max}
Dans la méthode du maximum de vraisemblance, il faut savoir déterminer si une fonction $V:\Theta \to \R_+$ admet un unique maximum, puis déterminer où ce maximum est atteint.
\begin{itemize}
\item Supposons que $\Theta \subset \R$ est un intervalle et que $V$ est dérivable. Si $V$ atteint un maximum en $\theta \in \Theta$ alors $V'(\theta)=0$ ou $\theta$ est une borne de l'intervalle. Un éventuel maximum global est donc à chercher parmi les bornes et les points critiques (i.e. les solutions de l'équation $V'(\theta)=0$). On rappelle que les points critiques ne sont pas tous des maxima globaux, il y a aussi des maxima locaux, des minima locaux et des points d'inflexion.

\item Supposons que $\Theta \subset \R^d$ est un ouvert et que $V$ est différentiable. Si $V$ atteint un maximum en $\theta=(\theta_1,\dots,\theta_d) \in \Theta$ alors $\theta$ est un point critique de $V$ i.e., $\forall k \in \ssquarebrackets{1}{d}$, $\partial_kV(\theta_1,\dots,\theta_d)=0$. On trouve donc les candidats à être des maxima globaux en résolvant un système de $d$ équations à $d$ inconnues. Là encore, tous les points critiques ne sont pas des maxima globaux.
\end{itemize}
\end{rem}

\begin{dfn}[Support d'une fonction]
\label{def: support}
Soit $V: \Theta \to \R_+$ une fonction, on appelle \emph{support} de~$V$ l'ensemble $\supp(V) = \brackets*{\theta \in \Theta \mvert V(\theta)> 0}$.
\end{dfn}

Dans de nombreux cas, la fonction de vraisemblance est un produit de fonctions puissance et exponentielle. Il peut alors être plus simple de maximiser la fonction de \emph{$\log$-vraisemblance}: $\ln\circ V_{(x_1,\dots,x_n)}$.

Plus précisément, soit $(x_1,\dots,x_n) \in \cX^n$. Comme $V_{(x_1,\dots,x_n)}$ est à valeurs positives ou nulles, si elle n'est pas constante à $0$, alors $\supp V_{(x_1,\dots,x_n)} \neq \emptyset$ et un éventuel maximum de $V_{(x_1,\dots,x_n)}$ est nécessairement atteint sur ce support. Sur $\supp V_{(x_1,\dots,x_n)}$, la fonction $\ln\circ V_{(x_1,\dots,x_n)}$ est bien définie. Comme $\ln$ est strictement croissante, $\ln\circ V_{(x_1,\dots,x_n)}$ atteint un maximum en $\theta$ si et seulement si $V_{(x_1,\dots,x_n)}$ atteint un maximum et $\theta$. Ainsi, $(x_1,\dots,x_n) \in D_n$ si et seulement si $\supp(V_{(x_1,\dots,x_n)}) \neq \emptyset$ et $\ln\circ V_{(x_1,\dots,x_n)}$ atteint un unique maximum sur cet ensemble. De plus, dans ce cas,
\begin{equation*}
h_n(x_1,\dots,x_n)=\arg\max_{\theta \in \Theta} V_{(x_1,\dots,x_n)}(\theta) = \arg\max_{\theta \in \supp(V_{(x_1,\dots,x_n)})} \ln(V_{(x_1,\dots,x_n)}(\theta)).
\end{equation*}

\begin{ex}
\label{ex: log vraisemblance}
Si on revient au modèle $\parentheses{\cE(\theta)}_{\theta>0}$. Soit $(x_1,\dots,x_n) \in \cX^n$, où $\cX= \,]0;+\infty[$. On a $\supp\parentheses*{V_{(x_1,\dots,x_n)}}=\Theta = \,]0;+\infty[$ et, pour tout $\theta>0$, $\ln\circ V_{(x_1,\dots,x_n)}(\theta)=n\ln(\theta) - \theta\sum_{k=1}^n x_k$. Cette fonction $\cC^\infty$ tend vers $-\infty$ en $0$ et en $+\infty$, donc elle atteint un maximum. Puis
\begin{equation*}
\parentheses*{\ln\circ V_{(x_1,\dots,x_n)}}'(\theta)=0 \iff \frac{n}{\theta} - \sum_{k=1}^n x_k=0 \iff \theta = \frac{n}{\sum_{k=1}^n x_k}.
\end{equation*}
Donc le maximum est unique, $(x_1,\dots,x_n) \in D_n$ et $h_n(x_1,\dots,x_n)=\frac{n}{\sum_{k=1}^n x_k}$.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Intervalles de confiance}
\label{sec: intervalles de confiance}

On se place toujours dans un modèle statistique paramétrique $\parentheses*{\cX,\cA,(\P_\theta)_{\theta \in \Theta}}$. On supposera ici que le paramètre est de dimension $1$, c'est-à-dire $\Theta \subset \R$.
Dans la section précédente, on a cherché des estimateurs du paramètre $\theta$, c'est-à-dire des statistiques dont les réalisations sont proches de $\theta$. On va maintenant s'intéresser à construire des intervalles de confiance, c'est-à-dire des intervalles aléatoires qui vont contenir $\theta$ avec grande probabilité.


\subsection{Intervalles de confiance non-asymptotiques}
\label{subsec: IC non asymptotiques}

\begin{dfn}[Intervalle de confiance]
\label{def: IC}
Soit $\gamma \in\, ]0;1[$, on appelle \emph{intervalle de confiance (non-asymptotique)} de \emph{niveau} $\gamma$, pour le paramètre $\theta$, tout intervalle aléatoire de la forme $[T^-;T^+]$, où $T^-$ et $T^+$ sont des statistiques telles que:
\begin{equation*}
\forall \theta \in \Theta, \qquad \P_\theta\parentheses*{T^- \leq \theta \leq T^+} \geq \gamma.
\end{equation*}
Si $T^-$ et $T^+$ sont à valeurs réelles, on dit que l'intervalle de confiance est \emph{bilatère}. On autorise aussi le cas où $T^-$ (resp.~$T^+$) est constante à $-\infty$ (resp.~$+\infty$). On considère alors plutôt $]-\infty;T^+]$ (resp.~$[T^-;+\infty[$) et on parle d'intervalle de confiance \emph{unilatère}.
\end{dfn}

\begin{rem}
\label{rem: IC}
\begin{itemize}
\item Les statistiques $T^-$ et $T^+$ sont basées sur un certain échantillon $(X_1,\dots,X_n)$ de loi-mère $\P_\theta$. En particulier, leur loi dépend de $\theta$.

\item Si $S^-$ et $S^+$ sont des statistiques tels que $S^- \leq T^-\leq T^+ \leq S^+$ et $[T^-;T^+]$ est un intervalle de confiance de niveau $\gamma$ pour $\theta$, alors $[S^-;S^+]$ aussi, et bien sûr $]-\infty;+\infty[$ aussi. Pour que l'intervalle de confiance soit pertinent, il faut que sa largeur soit aussi petite que possible.

\item Si on augmente le niveau $\gamma$, il faut en général élargir l'intervalle. Des choix classiques sont $\gamma =0,\!95$ ou $\gamma=0,\!99$.
\end{itemize}
\end{rem}

Souvent, les intervalles de confiance sont construits à partir d'un estimateur ponctuel de $\theta$. Une première méthode pour cela est d'utiliser des inégalités de concentration.

\begin{lem}
\label{lem: IC concentration}
Soient $C >0$ et $T$ un estimateur $L^2$ de $\theta$ tel que, pour tout $\theta \in \Theta$, $R_T(\theta) \leq C$. Pour tout $\gamma \in \,]0;1[$, $\squarebrackets*{T-\sqrt{\frac{C}{1-\gamma}};T+\sqrt{\frac{C}{1-\gamma}}}$ est un intervalle de confiance de niveau $\gamma$ pour $\theta$.
\end{lem}

\begin{proof}
Soit $\gamma \in \, ]0;1[$, pour tout $\theta \in \Theta$, on a:
\begin{equation*}
\P_\theta\parentheses*{T-\sqrt{\frac{C}{1-\gamma}} \leq \theta \leq T+\sqrt{\frac{C}{1-\gamma}}} = \P_\theta\parentheses*{\norm{T-\theta} \leq \sqrt{\frac{C}{1-\gamma}}} = 1 -\P_\theta\parentheses*{\norm{T-\theta} > \sqrt{\frac{C}{1-\gamma}}}.
\end{equation*}
Puis, en utilisant le lemme~\ref{lem: concentration risque}, on a $\P_\theta\parentheses*{\norm{T-\theta} > \sqrt{\frac{C}{1-\gamma}}} \leq \frac{1-\gamma}{C}R_T(\theta) \leq 1-\gamma$. D'où le résultat.
\end{proof}

\begin{ex}
\label{ex: IC concentration}
Dans l'exemple introductif, $\parentheses*{\cB(N,\theta)}_{\theta \in [0;1]}$ avec $N= 365$ et on a utilisé l'estimateur de $T = \frac{1}{N}\bar{X}_{25}$. On a vérifié que $R_T(\theta) \leq \frac{1}{100N}$ pour tout $\theta \in [0;1]$, ce dont on a déduit que,
\begin{equation*}
\P_\theta \parentheses*{T - \frac{1}{\sqrt{10N}} \leq \theta \leq T + \frac{1}{\sqrt{10N}}} \geq 0,\!9,
\end{equation*}
c'est-à-dire $\squarebrackets*{T - \frac{1}{\sqrt{10N}};T + \frac{1}{\sqrt{10N}}}$ est un intervalle de confiance de niveau $0,\!9$.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Méthode de la fonction pivot}
\label{subsec: methode de la fonction pivot}

\begin{dfn}[Quantile]
\label{def: quantile}
Soient $X$ une v.a.r. de fonction de répartition $F$ et $\alpha \in\, ]0;1[$, on appelle \emph{quantile d'ordre $\alpha$} de $X$ (ou de sa loi) tout $q_\alpha \in \R$ tel que $\P(X \leq q_\alpha)=F(q_\alpha)=\alpha$.
\end{dfn}

Il n'y a pas toujours existence (si $F$ n'est pas surjective) ni unicité (si $F$ n'est pas injective) d'un quantile d'ordre $\alpha$ pour une loi donnée. Typiquement, ça se passe mal pour les lois discrètes. En revanche, si $X$ admet une densité $f$ et $\supp(f)$ est un intervalle $]a;b[$, alors $F$ est continue, nulle sur $]-\infty;a]$, strictement croissante sur $]a;b[$ et constante à $1$ sur $[b;+\infty[$. Donc $F$ est une bijection de $]a;b[$ vers $]0;1[$ et, pour tout $\alpha \in ]0;1[$, il existe un unique $q_\alpha \in \, ]a;b[$ tel que $F(q_\alpha)=\alpha$. Dans la suite, quand on parle de quantiles, on se place implicitement dans ce cadre.

\begin{ex}
\label{ex: quantile guassienne}
Un cas utile est $X \sim \gauss{0}{1}$, où $F:x \mapsto \frac{1}{\sqrt{2	\pi}}\int_{-\infty}^x e^{-\frac{t^2}{2}} \dx t$ réalise une bijection de~$\R$ vers $]0;1[$. Pour tout $\alpha \in ]0;1[$, le quantile de niveau $\alpha$ de la $\gauss{0}{1}$ est uniquement défini et vaut $q_\alpha= F^{-1}(\alpha)$. Par parité de la densité, on a $q_\frac{1}{2}=0$ et, pour tout $\alpha \in ]0;1[$, $q_{1-\alpha}=-q_{\alpha}$, en effet,
\begin{equation*}
F\parentheses*{q_{1-\alpha}} = 1 - \alpha = 1 -F(q_\alpha) = 1 - \int_{-\infty}^{q_\alpha} \frac{e^{-\frac{t^2}{2}}}{\sqrt{2\pi}} \dx t= \int_{q_\alpha}^{+\infty} \frac{e^{-\frac{t^2}{2}}}{\sqrt{2\pi}} \dx t = \int_{-\infty}^{-q_\alpha} \frac{e^{-\frac{t^2}{2}}}{\sqrt{2\pi}} \dx t = F(-q_\alpha).
\end{equation*}
Ni $F$ ni $F^{-1}$ n'ont d'expression analytique simple. Pour déterminer $q_\alpha$, on utilise des valeurs tabulées. Par exemple, $q_{0,975} = -q_{0,025} \simeq 1,\!960$ et $q_{0,995} = -q_{0,005} \simeq 2,\!576$.
\end{ex}

\begin{lem}
\label{lem: quantile}
Soit $X$ une v.a.r. dont la fonction de répartition $F$ est continue. Soient $q_\alpha$ et $q_\beta$ des quantiles de $X$ d'ordre $\alpha$ et $\beta$ respectivement, où $0<\alpha < \beta<1$. Alors $\P(q_\alpha \leq X \leq q_\beta) = \beta - \alpha$. En particulier, pour tout $\gamma \in \,]0;1[$, $\P\parentheses*{q_\frac{1-\gamma}{2} \leq X \leq q_\frac{1+\gamma}{2}} = \gamma$.
\end{lem}

\begin{proof}
Comme $\brackets*{\omega \in \Omega \mvert q_\alpha \leq X(\omega) \leq q_\beta} = \brackets*{\omega \in \Omega \mvert X(\omega) \leq q_\beta} \setminus \brackets*{\omega \in \Omega \mvert X(\omega) < q_\alpha}$,
\begin{equation*}
\P\parentheses*{q_\alpha \leq X \leq q_\beta} = \P\parentheses*{X \leq q_\beta} - \P\parentheses*{X < q_\alpha} = F(q_\beta) - \lim_{x \to q_\alpha^-} F(x) = F(q_\beta)-F(q_\alpha)=\beta-\alpha.\qedhere
\end{equation*}
\end{proof}

\begin{ex}
\label{ex: encadrement quantile}
Si $X \sim \gauss{0}{1}$, alors $\P\parentheses*{X \in [-1,\!97;1,\!97]} \geq \P\parentheses*{X \in [q_{0,025};q_{0,975}]} = 0,\!95$ et $\P\parentheses*{X \in [-2,\!58;2,\!58]} \geq \P\parentheses*{X \in [q_{0,005};q_{0,995}]} = 0,\!99$.
\end{ex}

\begin{dfn}[Fonction pivot]
\label{def: fonction pivot}
Soient $n \in \N^*$ et $(X_1,\dots,X_n)$ un $n$-échantillon de loi-mère $\P_\theta$. Une fonction $g:\Theta \times \cX^n \to \R$ est appelée \emph{fonction pivot} si:
\begin{itemize}
\item la loi de $g(\theta,X_1,\dots,X_n)$ ne dépend pas de $\theta$;
\item pour tout $a < b$, il existe des fonctions $h^-$ et $h^+$ de $\cX^n$ dans $\Theta$ telles que:
\begin{equation*}
\forall (x_1,\dots,x_n) \in \cX^n , \qquad a \leq g(\theta,x_1,\dots,x_n) \leq b \iff h^-(x_1,\dots,x_n) \leq \theta \leq h^+(x_1,\dots,x_n).
\end{equation*}
\end{itemize}
\end{dfn}

Supposons qu'une telle fonction pivot existe pour notre modèle, et notons $Y$ une v.a.r. de même loi que la loi commune des $\parentheses*{g(\theta,X_1,\dots,X_n)}_{\theta \in \Theta}$. Soient $(q_\alpha)_{0<\alpha <1}$ les quantiles de la loi de $Y$, que l'on suppose bien définis. Soit $\gamma \in \,]0;1[$, pour tout $\theta \in \Theta$, on a
\begin{equation*}
\P_\theta\parentheses*{q_\frac{1-\gamma}{2} \leq g(\theta,X_1,\dots,X_n) \leq q_\frac{1+\gamma}{2}} = \P\parentheses*{q_\frac{1-\gamma}{2} \leq Y \leq q_\frac{1+\gamma}{2}} = \gamma.
\end{equation*}
On peut ensuite pivoter en utilisant les fonctions $h^-$ et $h^+$ telles que
\begin{equation*}
\forall (x_1,\dots,x_n) \in \cX^n , \qquad q_\frac{1-\gamma}{2} \leq g(\theta,x_1,\dots,x_n) \leq q_\frac{1+\gamma}{2} \iff h^-(x_1,\dots,x_n) \leq \theta \leq h^+(x_1,\dots,x_n).
\end{equation*}
En définissant les statistiques $T^-=h^-(X_1,\dots,X_n)$ et $T^+=h^+(X_1,\dots,X_n)$, on obtient que:
\begin{equation*}
\forall \theta \in \Theta, \qquad \P_\theta\parentheses*{T^- \leq \theta \leq T^+} = \P_\theta\parentheses*{q_\frac{1-\gamma}{2} \leq g(\theta,X_1,\dots,X_n) \leq q_\frac{1+\gamma}{2}} =\gamma, 
\end{equation*}
c'est-à-dire $[T^-;T^+]$ est un intervalle de confiance pour $\theta$ de niveau $\gamma$.

\begin{ex}
Considérons le modèle $\parentheses*{\gauss{\theta}{1}}_{\theta \in \R}$, on a donc $\Theta = \R = \cX$. Soient $n \in \N^*$ et $(X_1,\dots,X_n)$ un $n$-échantillon de loi-mère $\gauss{\theta}{1}$. On sait que $\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k$ est de loi $\gauss{\theta}{\frac{1}{n}}$, donc $\sqrt{n}(\bar{X}_n-\theta) \sim \gauss{0}{1}$.

Posons $g:(\theta,x_1,\dots,x_n) \mapsto \sqrt{n}\parentheses*{\frac{1}{n}\sum_{k=1}^n x_k - \theta}$. Pour tout $\theta \in \R$, $g(\theta,X_1,\dots,X_n) \sim \gauss{0}{1}$. De plus, soient $(x_1,\dots,x_n) \in \R^n$ et $\bar{x}_n = \frac{1}{n}\sum_{k=1}^n x_k$, pour tout  $a<b$ on a:
\begin{align*}
a\leq g(\theta,x_1,\dots,x_n) \leq b &\iff \frac{a}{\sqrt{n}} \leq \bar{x}_n-\theta \leq \frac{b}{\sqrt{n}} \iff -\bar{x}_n + \frac{a}{\sqrt{n}} \leq -\theta \leq -\bar{x}_n + \frac{b}{\sqrt{n}}\\
&\iff \bar{x}_n - \frac{b}{\sqrt{n}} \leq \theta \leq \bar{x}_n - \frac{a}{\sqrt{n}}.
\end{align*}
Donc $g$ est bien une fonction pivot, et les fonctions associées à $a<b$ sont
\begin{align*}
h^-:(x_1,\dots,x_n) &\mapsto \frac{1}{n}\sum_{k=1}^n x_k - \frac{b}{\sqrt{n}} & &\text{et} & h^+:(x_1,\dots,x_n) &\mapsto \frac{1}{n}\sum_{k=1}^n x_k - \frac{a}{\sqrt{n}}.
\end{align*}
Soit $\gamma = 0,\!95$, on utilise ce qui précède avec $a = q_\frac{1-\gamma}{2}= q_{0,025}$ et $b=q_\frac{1+\gamma}{2}=q_{0,975}$ les quantiles de la $\gauss{0}{1}$, on obtient $T^- = h^-(X_1,\dots,X_n)=\bar{X}_n - \frac{q_{0,975}}{\sqrt{n}} \simeq \bar{X}_n -\frac{1,96}{\sqrt{n}}$ et $T^+ = \bar{X}_n - \frac{q_{0,025}}{\sqrt{n}} \simeq \bar{X}_n +\frac{1,96}{\sqrt{n}}$, et $[T^-;T^+]$ est un intervalle de confiance de niveau $0,\!95$ pour $\theta$.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Retour sur la convergence en loi}
\label{subsec: retour sur la CVL}

Contrairement aux autres formes de convergence, la convergence en loi se comporte mal avec les opérations: si $X_n \CVL{n \to +\infty}X$ et $Y_n \CVL{n \to +\infty}Y$, il n'est pas vrai en général que $X_n + Y_n \CVL{n \to +\infty} X+Y$. Par exemple, soient $X$ et $Y$ deux $\gauss{0}{1}$ indépendantes, de sorte que $X+Y \sim \gauss{0}{2}$. Si on pose, pour tout $n \in \N$, $X_n=X=-Y_n$, alors $X_n \CVL{n \to +\infty} X$. Par ailleurs, pour tout $n \in \N$, $Y_n \sim \gauss{0}{1}$, et donc $Y_n \CVL{n \to +\infty} Y$. Cependant, pour tout $n \in \N$, $X_n+Y_n =0$ et cette somme ne converge pas en loi vers $X+Y$. Ce genre de problème vient du fait que, pour connaître la loi de $X+Y$, il ne suffit pas de connaître la loi de $X$ et la loi de $Y$, mais il faut connaître la loi du couple $(X,Y)$.

\begin{lem}
\label{lem: CV loi constante}
Soit $(X_n)_{n \in \N}$ une suite de variables aléatoires réelles, qui converge en loi vers une constante $c \in \R$. Alors $X_n \CVP{n \to +\infty} c$.
\end{lem}

\begin{proof}

Soit $\epsilon>0$, le bord de l'intervalle $[c-\epsilon;c+\epsilon]$ est la paire $\brackets*{c-\epsilon;c+\epsilon}$. Comme $X_n \CVL{n \to +\infty} c$ et $\P\parentheses{c \in \brackets*{c-\epsilon;c+\epsilon}}=0$, le théorème de Portemanteau assure que
\begin{equation*}
\P\parentheses*{X_n \in [c-\epsilon;c+\epsilon]} \xrightarrow[n \to +\infty]{} \P\parentheses*{c \in [c-\epsilon;c+\epsilon]}=1.
\end{equation*}
En passant au complémentaire,
\begin{equation*}
\P\parentheses*{\norm{X_n-c}>\epsilon} = \P\parentheses*{X_n \notin [c-\epsilon;c+\epsilon]} = 1 -P\parentheses*{X_n \in [c-\epsilon;c+\epsilon]} \xrightarrow[n \to +\infty]{}0.\qedhere
\end{equation*}
\end{proof}

\begin{thm}[Slutsky]
\label{thm: Slutsky}
Soient $(X_n)_{n \in \N}$ et $(Y_n)_{n \in N}$ deux suites de variables aléatoires réelles, soient $c \in\R$ et $Y$ une v.a. réelle. Si $X_n \CVL{n \to +\infty} c$ et $Y_n \CVL{n \to +\infty} Y$, alors $(X_n,Y_n) \CVL{n \to +\infty} (c,Y)$.
\end{thm}

\begin{proof}
La convergence en loi est équivalente à la convergence simple des fonctions caractéristiques. Il suffit donc de montrer que, pour tout $s$ et $t \in \R$, on a $\esp{e^{i(sX_n+tY_n)}} \xrightarrow[n \to +\infty]{} \esp{e^{i(sc+tY)}}$. Soient $s$ et $t \in \R$,
\begin{equation*}
\norm*{\strut \esp{e^{i(sX_n+tY_n)}} - \esp{e^{i(sc+tY)}}} \leq \norm*{\strut \esp{e^{i(sX_n+tY_n)}} - \esp{e^{i(sc+tY_n)}}} + \norm*{\esp{e^{i(sc+tY_n)}} - \esp{e^{i(sc+tY)}}}.
\end{equation*}
Pour le second terme, comme $Y_n \CVL{n \to +\infty} Y$,
\begin{equation*}
\norm*{\esp{e^{i(sc+tY_n)}} - \esp{e^{i(sc+tY)}}} =\norm*{e^{isc}\parentheses*{\esp{e^{itY_n}} - \esp{e^{itY}}}} = \norm*{\esp{e^{itY_n}} - \esp{e^{itY}}} \xrightarrow[n \to +\infty]{}0.
\end{equation*}
Pour le premier terme,
\begin{align*}
\norm*{\strut \esp{e^{i(sX_n+tY_n)}} - \esp{e^{i(sc+tY_n)}}} &= \norm*{\strut \esp{e^{i(sX_n+tY_n)}-e^{i(sc+tY_n)}}}= \norm*{\esp{\parentheses*{e^{is(X_n-c)}-1}e^{i(sc+tY_n)}}}\\
&\leq \esp{\norm*{e^{is(X_n-c)}-1}},
\end{align*}
et il reste à voir que ce dernier terme tend vers $0$.

Soit $\epsilon>0$, par continuité de $x \mapsto e^{isx}$, il existe $\delta >0$ tel que, $\norm{x}\leq \delta \implies \norm*{e^{isx}-1}\leq \epsilon$. Alors,
\begin{align*}
\esp{\norm*{e^{is(X_n-c)}-1}} &= \esp{\norm*{e^{is(X_n-c)}-1} \one_{\brackets*{\norm{X_n-c}\leq \delta}}} + \esp{\norm*{e^{is(X_n-c)}-1} \one_{\brackets*{\norm{X_n-c}> \delta}}}\\
&\leq \epsilon + 2\P\parentheses*{\norm{X_n-c}>\delta}.
\end{align*}
D'après le lemme~\ref{lem: CV loi constante}, on a en fait $X_n \CVP{n \to +\infty} c$. Donc $\P\parentheses*{\norm{X_n-c}>\delta} \xrightarrow[n \to +\infty]{}0$ et, pour tout $n$ assez grand, $\esp{\norm*{e^{is(X_n-c)}-1}} \leq 2\epsilon$. Donc $\esp{\norm*{e^{is(X_n-c)}-1}} \xrightarrow[n \to +\infty]{}0$.
\end{proof}

\begin{cor}
\label{cor: Slutsky}
Si $X_n \CVL{n \to +\infty} c$ et $Y_n \CVL{n \to +\infty} Y$, alors on a $X_n + Y_n \CVL{n \to+\infty}c+Y$ et $X_n Y_n \CVL{n \to+\infty}cY$. De plus, si $c \neq 0$, alors $\frac{Y_n}{X_n} \CVL{n \to+\infty} \frac{Y}{c}$.
\end{cor}

\begin{proof}
On fait la preuve pour l'addition, les autres cas étant similaires. Soit $f:\R \to \R$ continue et bornée. Comme $(x,y) \mapsto x+y$ est continue, alors $g:(x,y) \mapsto f(x+y)$ est continue de $\R^2$ dans $\R$ et bornée. D'après le théorème de Slutsky, $(X_n,Y_n) \CVL{n \to+\infty} (c,Y)$, donc
\begin{equation*}
\esp{f(X_n+Y_n)} = \esp{g(X_n,Y_n)} \xrightarrow[n \to +\infty]{} \esp{g(c,Y)}= \esp{f(c,Y)}.
\end{equation*}
C'est valable pour tout $f \in \cC^0_b(\R)$, donc $X_n+Y_n \CVL{n \to +\infty} c+Y$.
\end{proof}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\subsection{Intervalles de confiance asymptotiques}
\label{subsec: IC asymptotique}

\begin{dfn}[Intervalle de confiance asymptotique]
\label{def: ICA}
Soient $(T_n^-)_{n \in \N^*}$ et $(T_n^+)_{n \in \N^*}$ deux suites de statistiques dans notre modèle $\parentheses*{\cX,\cA,(\P_\theta)_{\theta \in \Theta}}$. Soit $\gamma \in\, ]0;1[$, on dit que $[T_n^-;T_n^+]$ est un \emph{intervalle de confiance asymptotique} de \emph{niveau} $\gamma$, pour le paramètre $\theta$, si
\begin{equation*}
\forall \theta \in \Theta, \qquad \lim_{n \to +\infty} \P_\theta\parentheses*{T_n^- \leq \theta \leq T_n^+} \geq \gamma.
\end{equation*}
Comme dans le cas non-asymptotique, les intervalles de confiance asymptotiques peuvent être \emph{bilatères} ou \emph{unilatères}.
\end{dfn}

Comme dans le cas non-asymptotique, une façon de construire des intervalles de confiance asymptotique est de partir d'une suite d'estimateurs de $\theta$ et de quantifier leur concentration autour de $\theta$. Typiquement, soit $(T_n)_{n \in \N^*}$ une suite d'estimateurs de $\theta$ qui est asymptotiquement normale. Il existe donc $(R_n)_{n \in \N^*}$ une suite positive, et $\sigma:\Theta \to \R_+^*$ telles que:
\begin{equation*}
\forall \theta \in \Theta, \qquad R_n\frac{T_n - \theta}{\sigma(\theta)} \CVL{n \to +\infty} \gauss{0}{1}.
\end{equation*}
Notons $(q_\alpha)_{0 < \alpha < 1}$ les quantiles de la gaussienne standard. Soit $\theta \in \Theta$, on a alors, pour tout $\alpha < \beta$,
\begin{equation*}
\P_\theta\parentheses*{q_\alpha \leq R_n\frac{T_n - \theta}{\sigma(\theta)} \leq q_\beta} = \P_\theta\parentheses*{R_n\frac{T_n - \theta}{\sigma(\theta)} \in [q_\alpha;q_\beta]} \xrightarrow[n \to +\infty]{} \P\parentheses*{\gauss{0}{1} \in [q_\alpha;q_\beta]\strut } = \beta-\alpha.
\end{equation*}

\begin{rem}
\label{rem: loi limite}
Dans ce raisonnement, on peut remplacer la loi $\gauss{0}{1}$ par n'importe quelle loi limite (indépendante de $\theta$) dont on connait les quantiles.
\end{rem}

À ce stade, on n'a pas encore un intervalle de confiance asymptotique. Si $R_n\frac{T_n - \theta}{\sigma(\theta)}$ est de la forme $g(\theta,X_1,\dots,X_n)$ où $g$ est une fonction pivot et $(X_1,\dots,X_n)$ est un $n$-échantillon de loi-mère $\P_\theta$, alors on peut pivoter comme dans le cas non-asymptotique.

\begin{ex}
\label{ex: ICA}
Si $\sigma$ est constante à $\sigma_0 >0$ alors, pour tout $n \in \N^*$
\begin{equation*}
q_\alpha \leq R_n\frac{T_n-\theta}{\sigma_0}\leq q_\beta \iff T_n - q_\beta\frac{\sigma_0}{R_n} \leq  \theta \leq T_n - q_\alpha\frac{\sigma_0}{R_n}.
\end{equation*}
On a donc $\P_\theta\parentheses*{T_n - q_\beta\frac{\sigma_0}{R_n} \leq  \theta \leq T_n - q_\alpha\frac{\sigma_0}{R_n}} \xrightarrow[n \to +\infty]{} \beta - \alpha$, ce qui fournit un intervalle de confiance asymptotique de niveau $\beta-\alpha$.
\end{ex}

En général $\sigma$ n'est pas constante. La proposition suivante donne un énoncé pour fixer les idées, mais il faut surtout connaître la méthode preuve et savoir l'adapter.

\begin{prop}
\label{prop: methode ICA}
Dans notre modèle statistique, soit $(T_n)_{n \in \N^*}$ une suite asymptotiquement normale d'estimateur de $\theta$. Soient $(R_n)_{n \in \N^*}$ une suite positive et $\sigma:\Theta \to \R_+^*$ telles que:
\begin{equation*}
\forall \theta \in \Theta, \qquad R_n(T_n-\theta) \CVL{} \gauss{0}{\sigma(\theta)^2}.
\end{equation*}
On suppose que la suite $(T_n)_{n \in \N^*}$ est consistante et que $\sigma$ est continue. Alors, pour tout $\gamma \in ]0;1[$,
\begin{equation*}
\P_\theta\parentheses*{T_n - q_\frac{1+\gamma}{2} \frac{\sigma(T_n)}{R_n} \leq  \theta \leq T_n + q_\frac{1+\gamma}{2}\frac{\sigma(T_n)}{R_n}} \xrightarrow[n \to +\infty]{} \gamma,
\end{equation*}
i.e.~$\squarebrackets*{T_n - q_\frac{1+\gamma}{2} \frac{\sigma(T_n)}{R_n};T_n + q_\frac{1+\gamma}{2}\frac{\sigma(T_n)}{R_n}}$ est un intervalle de confiance asymptotique de niveau~$\gamma$.
\end{prop}

\begin{proof}
Fixons $\theta \in \Theta$ et travaillons sous $\P_\theta$. Comme $(T_n)_{n \in \N^*}$ est consistante, $T_n \CVP{n \to +\infty} \theta$. Donc, par continuité de $\sigma$, on a $\sigma(T_n) \CVP{n \to +\infty} \sigma(\theta)$. Comme $\sigma$ est à valeurs strictement positive, on peut appliquer le corollaire~\ref{cor: Slutsky} du théorème de Slutsky pour le quotient:
\begin{equation*}
R_n \frac{T_n-\theta}{\sigma(T_n)} \CVL{n \to +\infty} \frac{1}{\sigma(\theta)}\gauss{0}{\sigma(\theta)^2} = \gauss{0}{1}.
\end{equation*}
Soit $\gamma \in \,]0;1[$, on a donc $\P_\theta\parentheses*{q_\frac{1-\gamma}{2} \leq R_n \frac{T_n-\theta}{\sigma(T_n)} \leq q_\frac{1+\gamma}{2}} \xrightarrow[n \to +\infty]{} \P\parentheses*{q_\frac{1-\gamma}{2} \leq \gauss{0}{1} \leq q_\frac{1+\gamma}{2}}=\gamma$. Comme $q_\frac{1-\gamma}{2}=-q_\frac{1+\gamma}{2}$, par le même calcul que précédemment,
\begin{equation*}
q_\frac{1-\gamma}{2} \leq R_n \frac{T_n-\theta}{\sigma(T_n)} \leq q_\frac{1+\gamma}{2} \iff T_n - q_\frac{1+\gamma}{2} \frac{\sigma(T_n)}{R_n} \leq  \theta \leq T_n + q_\frac{1+\gamma}{2}\frac{\sigma(T_n)}{R_n}.\qedhere
\end{equation*}
\end{proof}

\begin{ex}[Le cas des sondages]
\label{ex: sondage}
On cherche a estimer la probabilité $\theta\in \,]0;1[$ que les individus d'une certaine population répondent oui à une question donnée. On considère donc le modèle $\parentheses*{\cB(\theta)}_{0 < \theta <1}$. Soit $(X_k)_{k \in \N^*}$ une suite de v.a.i.i.d. de loi $\cB(\theta)$ et pour tout $n \in \N^*$, $\bar{X}_n = \frac{1}{n}\sum_{k=1}^n X_k$.

Par la loi des grands nombres, on sait que $\bar{X}_n \CVps{n \to +\infty} \theta$, donc $\parentheses*{\bar{X}_n}_{n \in \N^*}$ est une suite fortement consistante d'estimateurs de $\theta$. Par ailleurs, d'après le théorème central limite, sous $\P_\theta$,
\begin{equation*}
\sqrt{n}(\bar{X}_n - \theta) = \frac{1}{\sqrt{n}}\sum_{k=1}^n (X_k-\theta) \CVL{n \to +\infty} \gauss{0}{\theta(1-\theta)}.
\end{equation*}
On applique la proposition~\ref{prop: methode ICA} avec $\gamma=0,\!95$ en utilisant la valeur approchée $q_{0,975}\simeq 1,\!96$. On obtient que $\squarebrackets*{\bar{X}_n - 1,\!97 \sqrt{\frac{\bar{X}_n(1-\bar{X}_n)}{n}};\bar{X}_n + 1,\!97 \sqrt{\frac{\bar{X}_n(1-\bar{X}_n)}{n}}}$ est un intervalle de confiance asymptotique de niveau $0,\!95$ pour $\theta$.

La demi-largeur de cet intervalle est de l'ordre de $2 \sqrt{\frac{\bar{X}_n(1-\bar{X}_n)}{n}} \leq \frac{1}{\sqrt{n}}$. Si $t \in [0,\!4;0,\!6]$ alors on a $0,\!24 \leq t(1-t) \leq 0,\!25$. Si le paramètre que l'on cherche à estimer est de l'ordre de $0,\!5$ alors l'inégalité précédente est quasi-optimale. Pour obtenir un intervalle de demi-largeur inférieure à $0,\!001$, il faudrait donc $n \geq 10^6$. À garder en tête lorsqu'on voit des sondages dont les résultats sont donnés à $0,\!1\%$ près.

Même pour $n=10^6$, on n'a rien dit sur $\P_\theta\parentheses*{\bar{X}_n - 1,\!97 \sqrt{\frac{\bar{X}_n(1-\bar{X}_n)}{n}} \leq \theta \leq \bar{X}_n + 1,\!97 \sqrt{\frac{\bar{X}_n(1-\bar{X}_n)}{n}}}$ car on n'a qu'un résultat asymptotique lorsque $n \to +\infty$. Pour cela il faudrait avoir une estimation de la vitesse de convergence.
\end{ex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\section{Régression linéaire}
\label{sec: regression lineaire}

\subsection{Droite des moindres carrés}
\label{subsec: moindres carrés}

On s'intéresse au problème déterministe suivant. Soient $n \geq 2$ et $x_1,\dots,x_n$ des réels distincts. Soient $y_1,\dots,y_n \in \R$, on cherche la droite affine de $\R^2$ la plus proche des couples $(x_i,y_i)$. Plus précisément, on cherche $a$ et $b \in \R$ tels que les $ax_i+b$ sont proches des $y_i$. Notons $x=(x_1,\dots,x_n)$, $y=(y_1,\dots,y_n)$ et $\one=(1,\dots,1)$. Soient $a$ et $b \in \R$, on a
\begin{equation*}
\Norm{y - (ax+b\one)}^2 = \Norm*{\begin{pmatrix}
y_1 - (ax_1+b) \\ \vdots \\ y_n - (ax_n+b)
\end{pmatrix}}^2 = \sum_{i=1}^n (y_i-ax_i-b)^2.
\end{equation*}
On formalise alors notre problème en cherchant $(a,b) \in \R^2$ qui minimise $\sum_{i=1}^n (y_i-ax_i-b)^2$, ou de façon équivalente qui minimise la distance euclidienne $\Norm{y - (ax+b\one)}$ entre $y$ et $ax+b\one$ dans $\R^n$.

Ce problème est important en sciences expérimentales. Typiquement les $y_i$ sont les résultats de mesures d'une quantité dépendant des $x_i$ via une fonction affine $x \mapsto ax +b$ dont on cherche à déterminer les coefficients. Dans un cas idéal, on aurait $y_i=ax_i+b$ pour tout $i \in \ssquarebrackets{1}{n}$, et on pourrait déterminer $a$ et $b$. En pratique, diverses sources d'erreur expérimentales font qu'on obtient plutôt, pour tout $i \in \ssquarebrackets{1}{n}$, $y_i = a x_i+b + \eta_i$, où $\eta_i$ est un terme d'erreur qu'on espère petit. Notre problème revient alors à trouver $a$ et $b$ tel que $\sum_{i=1}^n \eta_i^2$ soit minimale.

\begin{prop}
\label{prop: moindres carres}
Soit $n\geq 2$. Soient $y=(y_1,\dots,y_n)$ et $x=(x_1,\dots,x_n) \in\R^n$ tel que $x_1,\dots,x_n$ sont distincts, on note $\bar{x}=\frac{1}{n}\sum_{k=1}^n x_i$ et $\bar{y}=\frac{1}{n}\sum_{k=1}^n y_i$. Alors la fonction
\begin{equation*}
F:(a,b) \longmapsto \Norm{y - (ax+b\one)}^2 = \sum_{i=1}^n (y_i-ax_i-b)^2
\end{equation*}
atteint un unique minimum global sur $\R^2$. De plus ce minimum est atteint en unique point $(a^*,b^*)$, où $a^* = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}$ et $b^* =\bar{y}-\bar{x}\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\bar{y}-\bar{x}a^*$. 
\end{prop}

\begin{dfn}[Droite des moindres carrés]
\label{def: droite moindres carres}
La droite affine $\brackets*{(x,a^*x+b^*) \mvert x \in \R} \subset \R^2$ est appelée \emph{droite des moindres carrés} associée aux points $\parentheses*{(x_i,y_i)}_{1 \leq i \leq n}$.
\end{dfn}

\begin{proof}
Commençons par prouver l'existence d'un minimum global. Soit $(a,b) \in \R^2$, on a
\begin{align*}
F(a,b) &= \Norm*{y-(ax+b\one)}^2 = \prsc{y-(ax+b\one)}{y-(ax+b\one)}= \Norm{y^2} -2 \prsc{ax+b\one}{y}+\Norm{ax+b\one}^2\\
&= \Norm{y}^2 -2\parentheses*{a\prsc{x}{y} +b\prsc{\one}{y}} + a^2\Norm{x}^2 +2ab\prsc{\one}{x}+b^2\Norm{\one}^2= \Norm{y}^2 -2 L(a,b) + Q(a,b),
\end{align*}
où $L:(a,b) \mapsto a\prsc{x}{y} +b\prsc{\one}{y}$ et $Q$ est la forme quadratique sur $\R^2$ associée à $S = \parentheses*{\begin{smallmatrix}
\Norm{x}^2	& \prsc{\one}{x} \\ \prsc{\one}{x} & \Norm{\one}^2
\end{smallmatrix}}$.

La matrice $S$ est symétrique, donc il exite $O \in O_2(\R)$ tel que $S=\trans{O}\parentheses*{\begin{smallmatrix}
\lambda_1 & 0 \\ 0 & \lambda_2
\end{smallmatrix}}O$, où $\lambda_1 \leq \lambda_2$ sont les valeurs propres de $S$. On a $\det(S) = \Norm{x}^2 \Norm{\one}^2 - \prsc{\one}{x}^2 \geq 0$ par l'inégalité de Cauchy-Schwarz. Le cas d'égalité correspond à $x$ et $\one$ colinéaires. S'il y avait égalité, il existerait $c \in \R$ tel que $x=c\one$. Or $x_1,\dots,x_n$ sont distincts, donc $\det(S)=\lambda_1\lambda_2>0$ et $\lambda_1$ et $\lambda_2$ sont de même signe strict. Par ailleurs $\Tr(S)=\lambda_1+\lambda_2=\Norm{x}^2+\Norm{\one}^2 >0$, donc $0<\lambda_1\leq\lambda_2$. En notant $v= \parentheses*{\begin{smallmatrix}
v_1 \\ v_2
\end{smallmatrix}}=O\parentheses*{\begin{smallmatrix}
a \\ b
\end{smallmatrix}}$, on a:
\begin{align*}
Q(a,b) &= \begin{pmatrix}
a & b
\end{pmatrix} S \begin{pmatrix}
a \\ b
\end{pmatrix} = \begin{pmatrix}
a & b
\end{pmatrix} \trans{O}\parentheses*{\begin{smallmatrix}
\lambda_1 & 0 \\ 0 & \lambda_2
\end{smallmatrix}}O \begin{pmatrix}
a \\ b
\end{pmatrix} = \parentheses*{\begin{smallmatrix}
v_1 & v_2
\end{smallmatrix}}\parentheses*{\begin{smallmatrix}
\lambda_1 & 0 \\ 0 & \lambda_2
\end{smallmatrix}}\parentheses*{\begin{smallmatrix}
v_1 \\ v_2
\end{smallmatrix}}= \lambda_1v_1^2 + \lambda_2v_2^2\\
&\geq \lambda_1 \Norm{v}^2 =\lambda_1 \Norm*{O\parentheses*{\begin{smallmatrix}
a \\ b
\end{smallmatrix}}}^2 = \lambda_1\Norm{(a,b)}^2.
\end{align*}
En notant $\Norm{L}$ la norme d'opérateur de la forme linéaire $L$, on a $\norm*{L(a,b)} \leq \Norm{L}\Norm{(a,b)}$. Finalement, pour tout $(a,b) \in \R^2$, $F(a,b) \geq \Norm{y}^2 - 2\Norm{L}\Norm{(a,b)} + \lambda_1 \Norm{(a,b)}^2 \xrightarrow[\Norm{(a,b)}\to +\infty]{} +\infty$ car $\lambda_1 >0$. Donc $F$ est continue sur $\R^2$ et tend vers $+\infty$ à l'infini, donc elle admet un minimum global.

Comme $F$ est en fait $\cC^\infty$, son minimum est atteint en un point critique. Pour tout $(a,b) \in \R^2$,
\begin{align*}
\partial_1F(a,b) &= -2\prsc{x}{y}+2a\Norm{x}^2+2b\prsc{\one}{x} & &\text{et} & \partial_2F(a,b) &= -2\prsc{\one}{y}+2b\Norm{\one}^2+2a\prsc{\one}{x},
\end{align*}
et $(a,b)$ est un point critique de $F$ si et seulement si:
\begin{align*}
\begin{cases}a \Norm{x}^2 + b \prsc{\one}{x} = \prsc{x}{y} \\ a \prsc{\one}{x} + b \Norm{\one}^2 = \prsc{\one}{y} \end{cases}\hspace{-1em} &\iff \begin{cases}a \Norm{x}^2 + b n\bar{x} = \prsc{x}{y} \\ a n\bar{x} + b n = n \bar{y} \end{cases} \iff \begin{cases}a \Norm{x}^2 - a n\bar{x}^2+n\bar{x}\bar{y} = \prsc{x}{y} \\ bn = n\bar{y}- an \bar{x} \end{cases}\\
& \iff \begin{cases}a\parentheses*{\Norm{x}^2 - n\bar{x}^2} = \prsc{x}{y}-n\bar{x}\bar{y} \\ b = \bar{y}- a \bar{x} \end{cases}.
\end{align*}
On a $\Norm{x}^2 - n \bar{x}^2 = \frac{1}{n}\parentheses*{\Norm{x}^2\Norm{\one}^2 - \prsc{\one}{x}^2} = \frac{1}{n}\det(S) \neq 0$. Donc le système a une unique solution $(a^*,b^*)$, qui est l'unique point critique de $F$, et est nécessairement son unique minimum global. De plus, $b^*=\bar{y}- a^* \bar{x}$ et $a^* = \frac{\prsc{x}{y}-n\bar{x}\bar{y}}{\Norm{x}^2 - n\bar{x}^2}$. Or, $\prsc{x}{y}-n\bar{x}\bar{y} = \sum_{i=1}^n x_iy_i - n \bar{x}\bar{y} = \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})$, et $\Norm{x}^2 - n\bar{x}^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2 = \sum_{i=1}^n (x_i-\bar{x})^2$. Donc $a^*$ et $b^*$ sont comme annoncé.
\end{proof}


\subsection{Le modèle linéaire}
\label{subsec: le modele lineaire}

On considère de nouveau $n \geq 2$ et $x_1,\dots,x_n \in \R$ distincts. Pour $i \in \ssquarebrackets*{1}{n}$, on considère les variables aléatoires $Y_i = ax_i+b+\epsilon_i$, où $a$ et $b \in \R$ et $\parentheses*{\epsilon_1,\dots,\epsilon_n}$ sont des v.a.i.i.d. que l'on suppose $L^2$ et centrées. Notre but est désormais de construire des estimateurs de $a$ et $b$ basés sur $(Y_1,\dots,Y_n)$.

\begin{rem}
\label{rem: modele pas modele}
Cette situation n'entre pas exactement dans le cadre des modèles paramétriques discutés précédemment. Notamment les $(Y_i)_{1 \leq i \leq n}$ sont indépendants mais pas de même loi. Néanmoins, leur loi dépend uniquement des paramètres $a$ et $b \in \R$ et de la loi-mère de $\parentheses*{\epsilon_1,\dots,\epsilon_n}$, et les concepts utilisés pour les modèles paramétriques s'étendent naturellement.
\end{rem}


On pense aux $y_i$ de la section précédente comme à des réalisations des $Y_i$, disons $y_i = Y_i(\omega)$. L'erreur de mesure $\eta_i$ est alors $\epsilon_i(\omega)$. On suppose donc que les erreurs sont aléatoires, indépendantes et de même  loi. Dans ce contexte, on cherche un procédé renvoyant des estimations de $a$ et $b$ à partir des observations $(y_1,\dots,y_n)$. Vue la proposition~\ref{prop: moindres carres}, on définit les estimateurs suivants.

\begin{dfn}[Estimateurs des moindres carrés]
\label{def: estimateurs des moindres carres}
Notons $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ et $\bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i$. On définit les estimateurs suivants, respectivement de $a$ et $b$:
\begin{align*}
\alpha_n &= \frac{\sum_{i=1}^n (x_i-\bar{x})(Y_i-\bar{Y})}{\sum_{i=1}^n (x_i-\bar{x})^2} & &\text{et} & \beta_n &= \bar{Y}- \bar{x}\alpha_n.
\end{align*}
\end{dfn}

\begin{lem}
\label{lem: estimateur moindres carres}
Soit $n \geq 2$, alors $\alpha_n$ (resp.~$\beta_n$) est un estimateur sans biais de $a$ (resp.~$b$) dépendant linéairement des $(Y_1,\dots,Y_n)$. De plus, en notant $\sigma^2$ la variance commune des $\parentheses*{\epsilon_i}_{1 \leq i \leq n}$, alors
\begin{align*}
\var{\alpha_n} &= \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}, & \var{\beta_n} &= \frac{\sigma^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2} & &\text{et} & \cov{\alpha_n}{\beta_n} &= -\frac{\sigma^2\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2}.
\end{align*}
\end{lem}

\begin{proof}
Déjà, $\bar{Y}$ est combinaison linéaire des $(Y_i)$, donc les $(Y_i-\bar{Y})$ aussi, et donc $\alpha_n$ et $\beta_n$ dépendent bien linéairement de $(Y_1,\dots,Y_n)$. Ensuite, fixons $a$ et $b \in \R$ et la loi commune de $\epsilon_1,\dots,\epsilon_n$, que l'on suppose de moyenne nulle et de variance $\sigma^2$. Ces éléments étant fixés, on a
\begin{equation*}
\forall i \in \ssquarebrackets{1}{n}, \qquad \esp{Y_i} = \esp{ax_i+b+\epsilon_i} = ax_i+b +\esp{\epsilon_i}= ax_i+b \quad \text{et} \quad \var{Y_i} = \var{\epsilon_i}=\sigma^2.
\end{equation*}
Donc $\esp{\bar{Y}}=\frac{1}{n}\sum_{i=1}^n \esp{Y_i} = \frac{1}{n}\sum_{i=1}^n (ax_i+b) = a\bar{x}+b$ et $\esp{Y_i-\bar{Y}}=a(x_i-\bar{x})$ pour tout $i$. Finalement, 
\begin{align*}
\esp{\alpha_n} &= \frac{\sum_{i=1}^n (x_i-\bar{x})\esp{Y_i-\bar{Y}}}{\sum_{i=1}^n (x_i-\bar{x})^2} = \frac{\sum_{i=1}^n a (x_i-\bar{x})^2}{\sum_{i=1}^n (x_i-\bar{x})^2}=a & &\text{et} & \esp{\beta_n} = \esp{\bar{Y}}-\bar{x}\esp{\alpha_n} = b.
\end{align*}
Donc $\alpha_n$ (resp.~$\beta_n$) est bien un estimateur sans biais de $a$ (resp.~$b$). Pour calculer les variances, on remarque déjà que $\sum_{i=1}^n (x_i-\bar{x}) = \sum_{i=1}^n x_i- n\bar{x}=0$ donc
\begin{equation*}
\sum_{i=1}^n (x_i-\bar{x})(Y_i-\bar{Y}) = \sum_{i=1}^n (x_i-\bar{x})Y_i-\bar{Y}\sum_{i=1}^n (x_i-\bar{x}) = \sum_{i=1}^n (x_i-\bar{x})Y_i.
\end{equation*}
Donc, comme les $(Y_i)_{1 \leq i \leq n}$ sont indépendantes,
\begin{equation*}
\var{\alpha_n} = \var{\sum_{i=1}^n \frac{(x_i-\bar{x})}{\sum_{k=1}^n (x_k-\bar{x})^2}Y_i} = \sum_{i=1}^n \frac{(x_i-\bar{x})^2}{\parentheses*{\sum_{k=1}^n (x_k-\bar{x})^2}^2}\var{Y_i} = \frac{\sigma^2}{\sum_{k=1}^n (x_k-\bar{x})^2}.
\end{equation*}
Les calculs de $\var{\beta_n}$ et $\cov{\alpha_n}{\beta_n}$ sont du même type et laissés en exercice.
\end{proof}

\begin{cor}[Prédiction]
\label{cor: estimateur moindre carre}
Pour tout $t \in \R$, la variable $\alpha_n t + \beta_n$ est un estimateur de $at+b$ basé sur les $(Y_i)_{1 \leq i \leq n}$, linéaire en $(Y_1,\dots,Y_n)$, sans biais, et de variance $\sigma^2\parentheses*{\frac{1}{n}+\frac{(t-\bar{x})^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}$.
\end{cor}

\begin{proof}
Exercice.
\end{proof}

Les estimateurs des moindres carrés sont optimaux parmi les estimateurs linéaires sans biais.

\begin{thm}[Gauss--Markov]
Soit $S_n$ (resp.~$T_n$) un estimateur de $a$ (resp.~$b$) basé sur les $(Y_i)_{1 \leq i \leq n}$, linéaire en $(Y_1,\dots,Y_n)$ et sans biais. Pour tout $a$ et $b \in \R$, pour tout choix de loi $L^2$ et centrée des erreurs $(\epsilon_i)_{1 \leq i \leq n}$, on a $\var{\alpha_n} \leq \var{S_n}$ (resp.~$\var{\beta_n} \leq \var{T_n}$).
\end{thm}

\begin{proof}
Admis.
\end{proof}

Un cas particulier intéressant est celui où les erreurs $(\epsilon_i)_{1 \leq i \leq n}$ sont supposées gaussiennes, de loi commune $\gauss{0}{v}$. On obtient alors un modèle paramétrique indexé par $(a,b,v) \in \R^2 \times \R_+^*=\Theta$. Pour tout $(a,b,v) \in \Theta$ et $n \geq 2$ les variables $(Y_i)_{1 \leq i \leq n}$ sont alors des gaussiennes indépendantes, avec $Y_i \sim \gauss{ax_i+b}{v}$ pour tout $i \in \ssquarebrackets{1}{n}$. Leur loi jointe admet donc la densité suivante sur~$\R^n$:
\begin{equation*}
(y_1,\dots,y_n) \longmapsto \frac{1}{(\sqrt{2\pi v})^n} \exp\parentheses*{-\sum_{i=1}^n \frac{(y_i-(ax_i+b))^2}{2v}}.
\end{equation*}
Pour tout $y=(y_1,\dots,y_n) \in \R^n$, on obtient donc la fonction de log-vraisemblance:
\begin{equation*}
\ln \circ V_y : (a,b,v) \longmapsto -\frac{n}{2}\parentheses*{\ln(2\pi) + \ln(v)} - \frac{1}{2v} \sum_{i=1}^n \parentheses*{y_i-(ax_i+b)\strut}^2.
\end{equation*}
Des arguments similaires à ceux de la section~\ref{subsec: moindres carrés} montrent que, pour tout $(y_1,\dots,y_n) \in \R^n$, cette fonction admet un maximum global en un unique point $(a^*,b^*,v^*)$, où $a^* = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}$, $b^* =\bar{y}-\bar{x}a$ et $v^* = \frac{1}{n} \sum_{i=1}^n \parentheses*{\strut y_i-(a^*x_i+b^*)}^2$. On en déduit les estimateurs du maximum de vraisemblance de $a$, $b$ et $v$. Pour $a$ et $b$, ce sont les estimateurs des moindres carrés $\alpha_n$ et $\beta_n$. Pour~$v$, c'est l'estimateur $S_n = \frac{1}{n}\sum_{i=1}^n \parentheses*{Y_i - (\alpha_n x_i - \beta_n)\strut }^2$. L'intérêt pratique de ce dernier estimateur est de fournir des estimations de l'erreur de mesure $v=\var{\epsilon_i}$ uniquement basées sur les observations.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


\nocite{Lej2010,Ouv2007,Ouv2009}

\bibliographystyle{amsplain}
\bibliography{/home/thomas/Documents/Biblio/main}

\end{document}