Class 17: Events

Here courses is a matrix, not a data frame

courses <- replicate(1000, epilepsy(97))
courses[,723] # show replica 723

 [1] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[13] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[25] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[37] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[49] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[61] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "Yes"
[73] "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[85] "No"  "No"  "No"  "Yes" "No"  "No"  "No"  "No"  "No"  "No"  "No"  "No" 
[97] "No"

There are several ways to do this.

For example we can use table()

table(courses[,723])["Yes"]

What happens if there isn’t any "Yes"? We get NA, and we have to handle it

cases[723] <- table(courses[,723])["Yes"]
if(is.na(cases[723])) {
    cases[723] <- 0
}

The best one is to use logic vectors instead of character

courses[,723]=="Yes"

 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[61] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE
[73] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[85] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[97] FALSE

cases <- rep(NA, ncol(courses))
for(i in 1:ncol(courses)) {
    cases[i] <- sum(courses[,i]=="Yes")
}
cases

   [1] 1 2 0 1 0 0 1 1 1 1 0 3 0 1 1 3 3 0 1 0 0 1 3 4 2 1 0 0 0 1 1 3 0 1 2 0 3
  [38] 1 0 1 2 0 1 1 1 0 0 1 1 0 1 0 1 2 0 0 0 0 1 1 1 1 0 1 0 3 2 1 1 2 0 1 4 1
  [75] 3 0 1 0 4 0 1 0 0 0 1 0 1 2 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 3 2 0 1 0 0 1 1
 [112] 2 0 1 0 2 1 2 0 0 4 0 2 1 1 1 0 0 0 1 0 0 0 1 2 1 1 1 1 0 0 1 1 1 1 0 0 1
 [149] 1 0 0 0 3 0 1 3 2 2 1 0 0 1 2 0 1 0 0 1 2 1 3 1 3 1 2 2 3 1 0 1 0 0 2 0 1
 [186] 0 0 0 1 1 1 0 1 1 2 2 0 0 0 1 0 2 0 2 2 0 2 2 1 0 3 0 0 3 0 0 0 1 2 1 0 1
 [223] 0 2 0 0 0 1 2 1 1 2 0 2 3 1 1 1 1 3 0 0 1 2 2 3 0 2 1 1 4 0 2 1 2 0 0 2 0
 [260] 1 1 1 1 2 2 0 2 1 1 1 2 0 0 2 0 2 0 1 0 1 2 1 1 2 1 1 3 1 1 0 0 2 0 1 1 1
 [297] 1 0 0 2 2 1 2 0 0 1 2 3 2 4 1 1 0 0 1 0 2 1 1 2 1 0 1 2 1 2 1 2 1 0 1 1 0
 [334] 2 2 3 1 2 1 1 1 0 2 0 1 0 2 2 1 0 4 1 0 0 0 1 1 2 2 0 1 2 1 2 0 2 1 3 0 0
 [371] 0 1 0 1 3 0 3 1 1 3 4 0 2 0 2 0 1 2 0 1 1 2 1 1 2 2 2 1 1 0 1 1 0 0 1 3 1
 [408] 0 1 3 1 0 3 2 2 0 0 2 1 1 1 0 2 0 0 0 0 0 1 0 0 2 1 2 0 3 1 1 3 0 2 2 1 1
 [445] 1 0 2 1 0 3 1 0 1 1 0 2 2 1 0 1 0 1 0 0 1 1 0 0 2 4 0 0 1 0 0 0 0 1 2 0 0
 [482] 3 1 0 1 1 1 1 0 3 1 0 1 0 1 2 1 2 0 0 2 0 1 0 1 2 0 0 0 0 0 1 0 1 1 0 1 1
 [519] 0 2 1 1 0 1 0 0 1 1 1 0 0 0 0 0 0 1 0 0 2 1 2 0 1 2 1 2 3 1 2 1 1 0 0 1 1
 [556] 1 2 2 1 0 2 1 2 0 1 1 0 0 0 3 2 0 3 1 0 2 0 1 0 1 0 0 1 1 3 0 3 1 1 1 2 2
 [593] 0 2 3 0 2 0 0 1 1 0 0 1 2 0 0 0 2 2 1 1 0 2 1 1 0 0 0 2 2 0 2 0 1 0 2 1 4
 [630] 0 0 1 1 1 0 0 2 1 0 0 0 0 3 0 1 1 2 0 0 1 2 2 1 0 2 2 0 1 0 3 1 0 1 1 0 2
 [667] 5 2 2 1 0 2 2 2 0 1 0 1 1 0 1 1 1 3 0 0 1 1 0 0 2 2 0 1 2 1 0 1 2 3 1 0 0
 [704] 2 0 0 1 4 1 2 1 0 1 0 0 2 4 1 1 0 0 0 2 0 2 0 0 2 0 0 0 0 1 3 2 1 1 1 1 1
 [741] 0 0 1 0 1 0 2 2 1 2 2 0 1 2 1 2 0 2 2 2 1 1 2 0 1 1 0 0 2 2 1 0 1 0 2 2 1
 [778] 0 1 0 1 0 0 0 0 1 0 1 2 1 2 1 0 2 1 3 0 3 1 0 1 0 1 1 4 1 0 0 2 0 4 1 0 0
 [815] 1 0 0 0 1 1 0 1 1 1 2 5 3 0 0 1 1 2 2 1 2 0 1 0 0 1 1 2 2 2 0 1 0 0 0 0 2
 [852] 2 0 2 1 1 1 0 2 1 1 1 0 0 3 1 1 1 0 0 0 1 1 0 0 0 0 2 1 0 2 2 3 0 1 0 2 0
 [889] 0 0 0 0 2 1 2 0 1 2 0 0 0 1 0 3 1 1 2 3 1 0 1 0 0 1 1 0 1 0 0 2 1 1 0 0 2
 [926] 1 1 1 0 0 3 1 2 1 1 0 1 2 2 1 0 1 0 0 3 0 1 2 4 1 0 0 1 0 1 3 0 0 1 3 1 1
 [963] 1 0 1 1 0 1 1 1 2 0 1 0 4 0 1 0 0 1 0 0 1 0 0 0 1 0 0 2 1 0 1 1 2 0 1 2 2
[1000] 1

Many important or interesting question can be answered YES or NO

For example:

Is this medicine improving health?
Does this sweetener help us to lose weight?
Is this DNA sequence related to that organism?

N <- c(10, 100, 1000, 10000)
plot(x=range(N), y=c(0,1), log="x", type="n")
for(n in N) {
    y <- replicate(200, empirical_freq(n, p))
    points(x=rep(n, 200), y=y, pch=19)
}
abline(h=p)

N <- (10^seq(from=1, to=4, by=0.1))
plot(x=range(N), y=c(0,1), log="x", type="n")
for(n in N) {
    y <- replicate(200, empirical_freq(n, p))
    points(x=rep(n, 200), y=y, pch=19, cex=0.5)
}
abline(h=p)

For each N we can find intervals containing most of the experiments.
Size of the interval depends on how sure you want to be. It is called confidence interval.

The meaning of 1%

One in 100 people has epilepsy

We replicate 1000 groups of size 97

We want numbers, not words

Better use `logic`

This is better because `logic` can be `numeric`

Homework

Counting `TRUE` is easy

Let’s count the number of cases in each course

Let’s make a table and a barplot

But it was only 1%! Is this right?

What did we learn here?

There are two type of questions

Events

Events are TRUE or FALSE

Event: do we have someone with epilepsy?

Event: did you win Super-Lotto?

Is the sum of pair of dice an even number?

Events’ frequencies are easy

The two sides of this coin

We use real data to find probabilities

Empirical frequencies v/s real probabilities

Test for powers of 10

Same with more detail

There is an envelope

More data gives better results

Frequency must be close to real probability

Can we do it backwards?

Interval correction

Simple version of Interval correction

Visually

Summary

References