Linear Models

Linear ModelsLearning ObjectivesIntroduction to Linear ModelsThe method of least squaresRegarding optimality of Least squared estimatorsConfidence intervals and hypothesis testing related to regression modelsConfidence intervals for the regression parametersA $1-\alpha$ confidence interval for the average response value at $x^\star$ A $1-\alpha$ prediction interval for a new response value at $x^\star$ Hypothesis tests for the regression parametersSimulated example

Learning Objectives

Understand how to find the best fitting line between the explanatory variable and the dependent variable.
Know how to make confidence intervals for each regression coefficient and regression line.
Know how to perform a hypothesis testing for each regression coefficient and regression line.
Understand how to analyze real data using the simple and multiple regression models.
Know how to interpret computer outcomes from R.

Introduction to Linear Models

Often, we are interested in understanding the relationship between one variable, called the dependent variable or response, on a number of other variables, called the independent variablespredictors $Y$ $X_1,X_2,\ldots,X_p$ .

Example: Suppose we are interested in predicting a final score of stat 415 class based on a number of predictors.

Response: $Y$ )

Predictors: $X_1$ $X_2$ $X_3$ $X_4$ ), etc.

Goal: predict a 415 final score based on given predictor values. For example, what would be the expected 415 final score when

hours of study per week = 3, number of previous math/stat classes = 5, number of cups of coffee before the exam =2, final percentage of stat/math 414 = 89%, or
hours of study per week = 5, number of previous math/stat classes = 2, number of cups of coffee before the exam =5, final percentage of stat/math 414 = 72%?

Suppose

Y = f(X_1,\dots,X_p) + \epsilon

$\epsilon$ $E[\epsilon] = 0$ $f$ $f$ expected value $Y$ $X_1,\dots,X_p$ . In other words,

E[Y|X_1=x_1,\dots,X_p=x_p] = f(x_1,\dots,x_p)

$f(3,5,2,.89)$ .

A linear model assumes that $f$ is linear. In other words,

f(x_1,\dots,x_p) = \beta_0 +\beta_1 x_1+\beta_2 x_2+\dots+\beta_p x_p.

$\beta_0,\cdots,\beta_p$ $p=1$ (one explanatory model), a linear model is called as a simple linear regression model. Otherwise, the model is called multiple linear regression. In this class, we will mostly focus on simple linear regression.

The method of least squares

$X$ $Y$ $Y= f(X) + \epsilon$ $X$ $Y$ $f$ $f(x) = \beta_0+\beta_1 x$ , i.e.,

$y_i$ $\beta_0$ $\beta_1$ $x_i$ $i=1,\dots,n$ .

lm1

$b_0$ $b_1$ $(x_1,y_1)$ $(x_2,y_2)$ $(x_n,y_n)$ $y_i$ $Y$ $X=x_i$ .

Remark: $X$ $(X_1, Y_1), . . . ,(X_n, Y_n)$ $n$ $X_1,\dots,X_n$ $Y_1,\dots,Y_n$ not identically distributed $Y_i$ $X_i$ .

$Y_i$ $X_i = x$ $Y_i$ conditional $Y_i$ $X_i=x_i$ .

deterministic predictors (fixed design) $x_1, . . . , x_n$ to denote predictors.

$Y_i$ has the following representation:

Y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \,\, i=1,\dots,n \tag{1}

$\epsilon_i \sim N(0, \sigma^2)$ $x_i$ $Y_i \sim N(\beta_0 + \beta_1x_i, \sigma^2)$ $(x_1,y_1),\dots,(x_n,y_n)$ $f(x) = \beta_0 + \beta_1 x$ ?

$f$ $f$ $\beta_0,\beta_1$ $\sum_{i=1}^n (y_i - f(x_i))^2 = \sum_{i=1}^n (y_i - (\beta_0 +\beta_1x_i))^2$ is minimized.

$H(\beta_0,\beta_1) = \sum_{i=1}^n (y_i - (\beta_0 +\beta_1x_i))^2$ $(\hat{\beta}_0,\hat{\beta}_1)$ $H(\beta_0,\beta_1)$ $β_0$ $β_1$ observed $y_i$ random $Y_i$ ) are called least square estimators (LSE).

$\beta_0$ $\beta_1$ in simple linear regression) $(\beta_0,\beta_1)$ are

\begin{align*} \hat{\beta}_1 &= \frac{n\sum_{i=1}^{n}x_i Y_i - \left(\sum_{i=1}^{n}x_i\right)\left(\sum_{i=1}^{n}Y_i\right)}{n\sum_{i=1}^{n}x_i^2 - \left(\sum_{i=1}^{n}x_i\right)^2}\\ \hat{\beta}_0 &= \bar{Y}-\hat{\beta}_1\bar{x}. \end{align*}

Remark: $\hat{\beta}_0$ $\hat{\beta}_1$ $Y_i$ .

With some algebra, we can show

\begin{align*} \hat{\beta}_1 &= \sum_{i=1}^{n}\left(\frac{(x_i-\bar{x})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}\right) Y_i = \sum_{i=1}^n w_i Y_i\\ \hat{\beta}_0 &= \bar{Y}- \sum_{i=1}^n (\bar{x}w_i) Y_i = \sum_{i=1}^n (\frac{1}{n} - \bar{x}w_i) Y_i . \end{align*}

$w_i = \frac{(x_i-\bar{x})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}$ $i=1,\dots,n$ .

Proof. Following the standard procedures for minimizing a function, we find the partial derivatives
$\begin{align*} \frac{\partial S}{\partial \beta_0}&= -2\sum_{i=1}^{n}(y_i-\beta_0-\beta_1 x_i)\\ \frac{\partial S}{\partial \beta_1}&= -2\sum_{i=1}^{n}x_i(y_i-\beta_0-\beta_1 x_i). \end{align*}$
Setting both to zero we get
$\begin{align*} \sum_{i=1}^{n}y_i &= n \hat{\beta}_0 + \hat{\beta}_1\sum_{i=1}^{n}x_i\\ \sum_{i=1}^{n} x_i y_i &= \hat{\beta}_0 \sum_{i=1}^{n} x_i + \hat{\beta}_1 \sum_{i=1}^{n} x_i^2. \end{align*}$
${\beta}_0$ ${\beta}_1$ , and treat them as estimates (i.e., putting on hats).
$\begin{align*} \hat{\beta}_1 &= \frac{n\sum_{i=1}^{n}x_i y_i - \left(\sum_{i=1}^{n}x_i\right)\left(\sum_{i=1}^{n}y_i\right)}{n\sum_{i=1}^{n}x_i^2 - \left(\sum_{i=1}^{n}x_i\right)^2}\\ \hat{\beta}_0 &= \bar{y}-\hat{\beta}_1\bar{x}. \end{align*}$

Remark $f(x_1,\dots,x_p) = \beta_0 + \beta x_1+\dots+\beta_px_p$ $(\hat{\beta}_0,\hat{\beta}_1,\dots,\hat{\beta}_p)$ $(\beta_0,\beta_1,\dots,\beta_p)$ are

(\hat{\beta}_0,\hat{\beta}_1,\dots,\hat{\beta}_p) = {\rm argmin}_{\beta_0,\dots,\beta_p} \sum_{i=1}^{n} \left(y_i - f(x_{i1},x_{i2},\ldots,x_{ip})\right)^2

$\sigma^2$ $\beta_0$ $\beta_1$ in simple linear regression) $\beta_0$ $\beta_1$ $\sigma^2$ is given by

\hat{\sigma^2} = \frac{1}{n} \sum_{i=1}^n (Y_i - (\hat{\beta_0}+\hat{\beta_1} x_i)^2)

$\beta_0$ $\beta_1$ ) $\epsilon_i \sim N(0,\sigma^2)$ ,

$\hat{\beta_1} \sim N(\beta_1, \frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2})$ ,

$\hat{\beta_0}\sim N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2}))$

Regarding optimality of Least squared estimators

$\hat{\beta_0}$ $\hat{\beta}_1$ $\beta_0$ $\beta_1$ $\epsilon_i \sim N(0,\sigma^2)$ $\hat{\beta_0}$ $\hat{\beta}_1$ are minimum variance unbiased estimators (MVUEs).
$\hat{\beta_0}$ $\hat{\beta}_1$ $\hat{\beta_0}$ $\hat{\beta_1}$ $\rm{Var}(\epsilon_i) = \sigma^2$ $i=1,\dots,n$ $\hat{\beta_0}$ $\hat{\beta}_1$ Best Linear Unbiased Estimators (BLUEs) $\beta_0$ $\beta_1$ $Y_i$ ’s.

Confidence intervals and hypothesis testing related to regression models

$\hat{\beta}_0$ $\hat{\beta}_1$ $Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\epsilon_i \sim N(0,\sigma^2)$ :

$\hat{\beta_1} \sim N(\beta_1, \frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2})$ ,

$\hat{\beta_0}\sim N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})).$

$N(0, 1)$ random variables, i.e.,

\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}} \sim N(0, 1), \qquad \frac{\hat{\beta_0}-\beta_0}{\sqrt{\sigma^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})}}\sim N(0, 1). \tag{2}

$\sigma^2$ $\sigma^2$ $\widehat{\sigma^2}$ defined as

S^2 = \frac{1}{n-2} \sum_{i=1}^n (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2.

$\sigma^2$ $\chi^2(n-2)$ , i.e.,

\sum_{i=1}^n (\frac{Y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)}{\sigma})^2 \sim \chi^2(n-2).

$S^2$ $\sigma^2$ .

$\bar{Y}, \hat{\beta}_1$ $S^2$ are independent.

$\sigma^2$ $S^2$ in (2), we have,

\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}} \sim t(n-2), \qquad \frac{\hat{\beta_0}-\beta_0}{\sqrt{S^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})}}\sim t(n-2),

since,

$β_0$ $β_1$ , and to carry out hypothesis tests using t-tests.

Confidence intervals for the regression parameters

Using

\frac{\hat{\beta_1}-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}} \sim t(n-2), \qquad \frac{\hat{\beta_0}-\beta_0}{\sqrt{S^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})}}\sim t(n-2)

as pivotal quantities,

$1-\alpha$ $\beta_0$ is
$\hat{\beta}_0\pm t_{\alpha/2}(n-2)\sqrt{s^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})}$
$1-\alpha$ $\beta_1$ is
$\hat{\beta}_1\pm t_{\alpha/2}(n-2)\sqrt{\frac{s^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}$

$1-\alpha$ $x^\star$

average $X=x^\star$ $E[Y] = β_0 + β_1x^\star$ $w = E[Y]$ $1-\alpha$ $w$ .

$Y$ $X = x^\star$ $\hat{w} = \hat{\beta}_0 + \hat{\beta}_1x^\star$ .

$\hat{w}$ $w$ is

\hat{w} = \hat{\beta}_0 + \hat{\beta}_1x^\star \sim N(\beta_0 + \beta_1 x^\star, \sigma^2 (\frac{1}{n} + \frac{(x^\star-\bar{x})^2} {\sum_{i=1}^n (x_i - \bar{x})^2})).

Standardization gives

\frac{\hat{\beta}_0 x^\star + \hat{\beta}_1 -(\beta_0 + \beta_1 x^\star)}{\sqrt{\sigma^2 (\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2})}} \sim N(0,1),

$\sigma^2$ $S^2$ , we obtain the following pivotal quantity:

T=\frac{\hat{\beta}_0 x^\star + \hat{\beta}_1 -(\beta_0 + \beta_1 x^\star)}{\sqrt{S^2 (\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2})}} \sim t(n-2).

$1-\alpha$ $w = \beta_0 + \beta_1 x^\star$ as

\hat{\beta}_0 + \hat{\beta_1}x^\star \pm t_{\alpha/2}(n-2)\sqrt{S^2 (\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2})}.

$1-\alpha$ $x^\star$

$Y$ $X=x^\star$ $Y$ $X = x^\star$ ,

Y_{n+1} = \beta_0 + \beta_1 x^\star + \epsilon_{n+1}

$\epsilon_{n+1} \sim N(0,\sigma^2)$ .

$\beta_0 + \beta_1 x^\star$ $\sigma^2$ $Y_{n+1} \sim N(\beta_0 + \beta_1 x^\star, \sigma^2)$ $100(1-\alpha)$ $\beta_0 + \beta_1 x^\star \pm z_{\alpha/2} \sigma$ .

$(\beta_0,\beta_1, \sigma^2)$ are unknown, and we have to estimate these unknown quantities. The variation in the prediction of a new response depends on two components:

$\beta_0 + \beta_1 x^\star$ $\hat{\beta_0} + \hat{\beta}_1 x^\star$ .
$\epsilon_{n+1}$ .

Adding the two variance components, we obtain

\begin{align} &\widehat{Var}(\hat{\beta}_0 + \hat{\beta}_1 x^\star ) + \widehat{\sigma^2}\\ &=S^2 (\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}) + S^2\\ &=S^2 (1+\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}) \end{align}

$1-\alpha$ $Y_{n+1}$ is

\hat{\beta}_0 + \hat{\beta}_1 x^\star \pm t_{\alpha/2}(n-2)\sqrt{S^2 (1+\frac{1}{n} + \frac{(x^\star-\bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2})}.

$X=x^\star$ many times, we would expect that next value to lie within this prediction interval in 95% of the samples.

Remark: comparing confidence intervals and prediction intervals

$(1-\alpha)$ $(1-\alpha)$ confidence intervals
$(x_i,Y_i)$ $(1-\alpha)$ $\beta_0 + \beta_1 x^\star$ $0$
$(x_i,Y_i)$ $(1-\alpha)$ prediction $Y_{n+1}$ not $0$

Hypothesis tests for the regression parameters

$\beta_1$ $\beta_{10}$ $\beta_1$ $\beta_{10}=0$ )

$H_0: \beta_1 = \beta_{10}$ $H_1: \beta_1 \ne \beta_{10}$ .
Test statistic
$T = \frac{\hat{\beta_1}-\beta_{10}}{\sqrt{\frac{S^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}}$
$H_0$ $T \sim t(n-2)$ .
$H_0$ $t_{obs}$ $\alpha=.05$ $H_0$ $t_{obs}\le -t_{.025}(n-2)$ $t_{obs}\ge t_{.025}(n-2)$ .

$\beta_0$ $H_0: \beta_0 = \beta_{00}$ ), with the test statistic

T = \frac{\hat{\beta_0}-\beta_{00}}{\sqrt{S^2(\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2})}}.

Simulated example


x
# true parameters
beta0 <- 1
beta1 <- 10
sigma <- 40
# generate a random sample of size n
set.seed(1234)
n <- 100
x <- rnorm(n, 50, 5)
y <- rnorm(n, beta0 + beta1 * x, sigma)
plot(x, y, pch = 16, col = 4)

By hand


xxxxxxxxxx
> cor(x, y)
[1] 0.7659389
> mean(x)
[1] 49.21619
> mean(y)
[1] 494.8116
> var(x)
[1] 25.22075
> var(y)
[1] 4121.471

R output


xxxxxxxxxx
# Fitting a linear model
model <- lm(y ~ x)
# LM output
> summary(model)
Call:
lm(formula = y ~ x)
Residuals:
     Min       1Q   Median       3Q      Max 
-115.450  -24.560    0.094   23.458  119.509 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  12.9201    41.0697   0.315    0.754    
x             9.7913     0.8302  11.794   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 41.48 on 98 degrees of freedom
Multiple R-squared:  0.5867,    Adjusted R-squared:  0.5824 
F-statistic: 139.1 on 1 and 98 DF,  p-value: < 2.2e-16
# Confidence intervals
> confint(model,level = .95)
                 2.5 %   97.5 %
(Intercept) -68.581325 94.42161
x             8.143801 11.43884
# 95% confidence interval when x = 50
> predict(model,newdata = data.frame(x=50),interval = "confidence",level = .95)
       fit      lwr      upr
1 502.4862 494.1531 510.8192
# 95% prediction interval when x = 50
> predict(model,newdata = data.frame(x=50),interval = "prediction",level = .95)
       fit      lwr     upr
1 502.4862 419.7414 585.231

Linear Models

Learning Objectives

Introduction to Linear Models

The method of least squares

Regarding optimality of Least squared estimators

Confidence intervals and hypothesis testing related to regression models

Confidence intervals for the regression parameters

A 1-\alpha confidence interval for the average response value at x^\star

A 1-\alpha prediction interval for a new response value at x^\star

Hypothesis tests for the regression parameters

Simulated example

$1-\alpha$ $x^\star$

$1-\alpha$ $x^\star$