Ch 02. Random Variables
📊

Ch 02. Random Variables

Date
Sep 13, 2023
Link
Description
상태
Done
Tags
Math

이산 확률 변수

정의

💡
랜덤 변수
랜덤 변수는 특정 실험의 각 결과에 수치 값을 할당함으로써 얻어진다.
notion image
 

예시 1. 기계 고장

  • 기계 고장 문제에 대한 표본 공간
  • 이런 고장들 각각은 수리 비용과 관련될 수 있음
    • 전기적 고장은 평균 $200의 수리 비용이 발생함
    • 기계적 고장은 평균 수리 비용이 $350임
    • 오용으로 인한 고장은 평균 수리 비용이 단지 $50임
  • 상태 공간:
notion image
 

확률 질량 함수

💡
확률 질량 함수 랜덤 변수 확률 질량 함수(p.m.f.)는 이산 랜덤 변수가 취하는 각 값 에 할당된 확률 값 의 집합임. 이 확률 값들은 및 모든 에 대한 의 합은 을 만족해야 함. 랜덤 변수가 값 를 가질 확률을 라고 하며, 이는 로 표기됨
 
  • 예제 1. 기계 고장
    • , , 그리고
      • notion image
 

누적 분포 함수

💡
누적 분포 함수 확률 변수 누적 분포 함수(c.d.f.)는 함수 로 정의됨
 
  • 예제 1. 기계 고장
notion image
 

연속 확률 변수

연속 확률 변수의 예시

  • 예제 14. 금속 원통 생산
    • 회사에서는 금속 원통을 제조함. 이 원통들은 50mm의 지름을 가지도록 설계되었음. 그러나 회사는 제조한 원통의 지름이 49.5mm에서 50.5mm 사이의 어떤 값이라도 가질 수 있음을 발견함
    • 랜덤으로 선택된 이 회사에서 제조된 원통의 지름을 확률 변수 라고 가정. 이 확률 변수는 49.5와 50.5 사이의 어떤 값을 가질 수 있기 때문에, 이는 연속 확률 변수임
 

확률 밀도 함수

💡
확률 밀도 함수
확률 밀도 함수 는 연속 확률 변수의 확률적 특성을 정의한다. 이는 을 만족해야 한다.
확률 변수가 두 값 사이에 있을 확률은 두 값 사이에서 확률 밀도 함수를 적분함으로써 얻어진다.
  • 예제 14. 금속 실린더 생산
    • 금속 실린더의 지름이 pdf를 가진다고 가정
notion image
 
  • 금속 원통의 지름이 49.8mm와 50.1mm 사이에 있을 확률은 다음과 같이 계산할 수 있음
notion image
 

누적 분포 함수

 
예제 14. 금속 실린더 생산
  • 금속 원통의 지름에 대1한 누적 분포 함수는 확률 밀도 함수로부터 구성될 수 있음
  • 지름이 49.7mm와 50.0mm 사이인 원통이 있을 확률은
notion image
 

확률 변수의 기댓값

확률 변수의 기댓값

💡
확률변수의 기대값 확률변수의 기대값 또는 확률질량함수 를 가지는 확률변수의 기대값은 임 E(X)는 확률변수가 취하는 평균값의 요약 척도를 제공하며, 이는 확률변수의 평균으로도 알려져 있음
  • 예제 1. 기계 고장 기대 수리 비용
notion image
 

연속 확률 변수의 기댓값

연속 확률변수의 기대값 또는 확률밀도함수 를 가지는 확률변수의 기대값은
기대값은 확률변수가 취하는 평균값의 요약 척도를 제공하며, 확률변수의 평균으로도 알려져 있음
 
  • 예제 14. 금속 원통 생산
    • 금속 원통의 기대 지름은 다음과 같음
    • 이 적분의 평가는 y = x - 50.0의 변환을 사용하여 단순화될 수 있으므로, E(X)는
      • notion image
 

대칭 확률변수

💡
대칭 확률변수 만약 연속 확률변수 가 확률 밀도 함수 를 가지며, 이 함수가 어떤 점 에 대해 대칭이라면, 즉 모든 에 대해 라면, 임. 따라서 확률변수의 기대값은 대칭의 중심점과 같음
notion image
 
  • 예시 15. 배터리 방전 시간
    • 확률변수: 새로 충전된 배터리 방전까지의 시간
    • 확률 밀도 함수
      • 이 배터리는 평균적으로 작동 후 한 시간 뒤 방전됨
        • notion image
 
  • 예시 16. 콘크리트 슬랩의 파괴 강도
    • 확률변수 X: 파괴 강도
    • 확률 밀도 함수
    • notion image
 
  • 확률변수는 라는 함수로
    • 이산 확률변수로서의 함수에 대해서
    • 연속 확률변수로서의 함수에 대해서
    • 일 때,
 

확률 변수의 중앙값

💡
중앙값 연속 확률변수 가 누적분포함수 를 가질 때, 상태 공간의 값 에 대해 라면, 확률변수는 중앙값 위나 아래로 떨어질 가능성이 동일함.
💡
대칭 확률 변수 연속 확률 변수 가 중심 주변에서 대칭인 확률밀도함수 를 갖는다면, 확률 변수의 중앙값과 기댓값 모두 와 같음
  • Ex. 14 금속 실린더 제조
    • 금속 실린더 지름의 중앙값은 다음 식의 해
    • 따라서,
 
  • Ex. 15 배터리 방전 시간
    • 누적 분포 함수
    • 배터리 고장 시간의 중앙값
      • 평균적으로 배터리가 1시간 동안 작동할 것으로 예상되지만, 그 중 절반은 0.414시간, 즉 약 25분 전에 방전될 것임
      • 예상 수명이 중앙값 수명보다 훨씬 긴 이유는 25분보다 오래 지속되는 배터리들이 상당히 긴 시간동안 지속될 가능성이 있기 때문
        • notion image
 

확률 변수의 분산

분산

분산

💡
분산
확률 변수 의 분산은
로 정의됨
또는 동등하게
로 표현됨
 
분산은 양의 값으로, 확률 변수의 분포가 평균 값 주변에서 얼마나 퍼져 있는지를 측정함. 분산의 값이 클수록 분포는 더 넓게 퍼져 있음을 나타냄
 

표준 편차

💡
표준 편차
확률 변수 의 표준 편차는 분산의 양의 제곱근으로 정의됨. 기호는 종종 확률 변수의 분산을 나타내는 데 사용되며, 는 표준 편차를 나타냄
 
  • 평균 값은 다르지만 분산이 동일한 두 분포
    • notion image
  • 평균 값은 동일하지만 분산이 다른 두 분포
    • notion image
 

분산 계산의 예시

  • Ex. 1 기계 고장
  • 수리 비용은 각각 $50, $200, $350이며, 각각의 확률값은 0.3, 0.2, 0.5이고 예상 수리 비용은 $230이라는 것을 가정
  • 수리 비용의 분산은 다음의 공식을 통해 계산될 수 있음
  • 표준 편차
  • 다른 방법으로
 

체비쉐프의 부등식

💡
체비셰프의 부등식
평균이 이고 분산이 인 확률 변수에 대하여 다음과 같은 부등식이 성립함
여기서 는 1 이상의 값임
  • 이 결과는 확률 변수의 실제 분포에 관계없이 평균값 주변의 몇몇 표준 편차 내에서 그 값이 매우 큰 확률로 나타날 것임을 나타냄
  • 예를 들어, 로 하면 가 됨
  • 으로 하면 가 됨
notion image
 
  • 예제 18. 토마토 식물 높이
    • 한 연구자는 토마토 식물이 다른 성장 조건에 어떻게 영향을 받는지에 관심을 가지고 있음. 특정 성장 조건 하에서 식재 3주 후, 식물의 높이는 평균 29.4cm와 표준 편차 2.1cm로 나타남
      • 평균 주변의 두 배 표준 편차 (확률 최소 75%)
      • 평균 주변의 세 배 표준 편차 (확률 최소 89%)
    • 이러한 결론은 식물 높이의 실제 분포를 알지 못하더라도, 평균과 표준 편차만 필요하기 때문에 도출할 수 있다는 것을 주목해야 함 (그러나 중요한 질문은 연구자가 이러한 값을 어떻게 추정하는지임). 7장의 통계적 추정에 관한 논의에서 연구자가 평균 값을 29.4cm, 표준 편차를 2.1cm로 추정할 수 있는 방법을 설명할 것임
    • 평균과 표준 편차만 필요하므로, 토마토 식물의 높이의 실제 분포를 알지 못해도 도출 가능함
 

확률 변수의 사분위수

사분위수

💡
사분위수
누적 분포 함수 를 가진 확률 변수 번째 분위수는 다음 조건을 만족하는 값 로 정의됨:
이는 확률 변수의 번째 백분위수로도 언급됨. 확률 변수가 번째 분위수보다 작은 값을 가질 확률은
notion image
 

사분위수와 사분위범위

💡
사분위수와 사분위범위
분포의 상위 사분위수는 분포의 75번째 백분위수로 정의되며, 분포의 하위 사분위수는 25번째 백분위수로 정의됨. 사분위범위는 두 사분위수 사이의 거리로서, 분산과 마찬가지로 분포의 퍼짐 정도를 나타내는 지표임
  • 상위 사분위수: 분포의 75번째 백분위수
  • 하위 사분위수: 분포의 25번째 백분위수
  • 사분위범위: 두 사분위수 사이의 거리
    • notion image
      notion image
 
  • 예 14. 금속 원통 생산
    • 금속 원통 지름의 누적 분포 함수는
    • 상위 사분위수는 일 때
    • 하위 사분위수는 일 때
    • 사분위 범위는
      • 원통의 절반은 지름이 에서 사이에 위치할 것임
        • notion image
 

결합 분포 확률 변수

결합 분포 확률 변수

  • 두 확률 변수 및 그들의 결합 확률 분포를 고려하는 것이 종종 적절함
  • 확률 변수가 이산형이라면, 결합 확률 질량 함수는 확률 값
    • 로 구성되며, 이는
      을 만족함
  • 확률 변수가 연속형이라면, 결합 확률 밀도 함수는 함수
    • 이며, 이는
      을 만족함
  • 이산 확률 변수의 경우, 결합 누적 분포 함수
    • 로 정의됨
  • 연속 확률 변수의 경우, 결합 누적 분포 함수
    • 로 정의됨
      💡
      결합 확률 분포
      두 확률변수 의 결합 확률 분포는 이산 확률 변수의 경우 확률 값 의 집합으로, 또 연속 확률 변수의 경우 결합 확률 밀도 함수 로 지정됨. 어느 경우든, 결합 누적 분포 함수는
      로 정의됨
  • Ex. 19 에어컨 유지 보수
    • 주거 및 사무실 건물에서 에어컨을 서비스하는 회사는 기술자들을 어떻게 가장 효율적으로 스케줄링할 것인지에 관심이 있음
      • 구체적으로 회사는 기술자가 특정 장소에 방문하여 서비스를 하는데 얼마나 걸리는지에 관심이 있으며, 이것은 주로 서비스가 필요한 장소의 에어컨 단위 수에 따라 다르다는 것을 인식함
    • 확률 변수 는 특정 장소에서의 서비스 시간(시간 단위)이며, 값은 1, 2, 3, 4임
    • 확률 변수 는 장소에 있는 에어컨 단위의 수이며, 값은 1, 2, 3임
    • 결합 확률 질량 함수 (p.m.f.)
    • 결합 누적 분포 함수 (c.d.f.)
    • 특정 장소에 서비스가 필요한 에어컨 단위가 두 대 이하이며, 서비스에 두 시간 이하가 걸리는 확률
      • notion image
        notion image
 

주변 확률 분포

💡
주변 확률 분포
확률변수 의 주변 분포는 두 확률변수 의 결합 확률 분포로부터 얻어지며, 확률변수 의 값들에 대해 합하거나 적분함으로써 얻어짐. 주변 분포는 확률변수 가 단독으로 고려될 때의 개별 확률 분포임
  • 두 이산 확률 변수 X와 Y에 대해, X의 주변 분포의 확률 값은 다음과 같음
  • 두 연속 확률 변수에 대해, X의 주변 분포의 확률 밀도 함수는 다음과 같음
  • Ex. 19 에어컨 유지 보수
    • 특정 위치에서 에어컨 유닛을 서비스하는 데 걸리는 시간인 의 주변 확률 질량 함수는 아래 그림에 나와 있으며, 공동 확률 질량 함수의 적절한 값을 합하여 얻어짐
      • 의 주변 p.m.f.
      • 의 주변 p.m.f.
        • notion image
  • Ex. 20 광물 매장량
    • 이전 섹션의 Ex. 20 설명
      • 특정 지역에서 광업의 경제적 타당성을 판단하기 위해 광산 회사는 해당 위치에서 광석 샘플을 얻어 그들의 아연 함량과 철 함량을 측정함. 랜덤 변수 를 광석의 아연 함량이라고 가정하면 값이 0.5에서 1.5 사이로, 그리고 랜덤 변수 는 광석의 철 함량이라고 가정하면 값이 20.0에서 35.0 사이로 설정됨. 게다가, 그들의 공동 확률 밀도 함수는 다음과 같음
    • 이 공동 확률 밀도 함수의 유효성은 다음과 같이 확인할 수 있음
    • 광석의 아연 함량인 X의 주변 확률 밀도 함수(p.d.f.)는 다음과 같음
    • Fig. 2.63에서 예상 아연 함량
    • 아연 함량의 분산은 다음과 같음
    • 표준 편차
      • notion image
  • 광석 샘플의 아연 함량이 0.8과 1.0 사이일 확률은 주변 확률 밀도 함수(marginal p.d.f.)로부터 다음과 같이 계산될 수 있음
    • 따라서 광석의 약 27%는 이 범위 내에서 아연 함량을 가짐
  • 광석의 철 함량인 Y의 주변 확률 밀도 함수(marginal p.d.f.)는 다음과 같음
    • 예상되는 철 함량
    • 철 함량의 표준 편차
      • notion image
 

조건부 확률 분포

💡
조건부 확률 분포
확률변수 가 특정 값을 가질 때의 확률변수 의 조건부 분포는 확률변수 의 값에 의해 제공되는 지식 하에서 확률변수 의 확률적 성질을 요약함. 이는 다음 확률값들로 구성됨
이는 이산 확률변수에 대한 것이거나 확률밀도함수
이며, 여기서 는 확률변수 의 주변 분포임
  • Ex. 19 에어컨 유지보수
    • 기술자가 에어컨 유닛이 세 대 있는 위치에 방문하고 있다고 가정하면, 다음과 같은 확률을 가짐
    • 서비스 시간 의 조건부 분포는 다음 확률 값으로 구성됨
    • 서비스 시간의 조건부 기대값은
  • Ex. 20 광물 매장
    • 광석 샘플의 아연 함량이 인 경우 철 함량에 대해서는 어떤 것을 알 수 있을까? 철 함량 에 대한 정보는 아연 함량 의 주변 분포를 0.55에서 평가한 분모에서 철 함량의 조건부 확률 밀도 함수로 요약됨
    • 결합 확률 밀도 함수
    • 조건부 확률 밀도 함수
    • 철 함량의 조건부 기대 값은 27.14
    • 조건부 표준 편차는 4.14
      • notion image
 

독립성 및 공분산

💡
독립적인 확률 변수
두 확률 변수 는 그들의 결합 확률 질량 함수 또는 결합 확률 밀도 함수가 두 마진 분포의 곱일 경우 독립적으로 정의됨. 만약 확률 변수가 이산적이라면, 그들은 모든 값에 대해
의 식을 가짐. 만약 확률 변수가 연속적이라면, 그들은 모든 값에 대해
의 식을 가짐. 만약 두 확률 변수가 독립적이라면, 한 확률 변수의 확률 분포는 다른 확률 변수가 취하는 값에 의존하지 않음
 
💡
공분산
두 확률 변수 의 공분산은 다음과 같이 정의됨
공분산은 어떤 양수나 음수의 값을 가질 수 있으며, 독립적인 확률 변수들의 공분산은 0임
  • 두 무작위 변수가 서로 얼마나 의존적인지의 강도
  • 양수 또는 음수 값
  • 만약 두 변수가 독립적이라면,
 
💡
상관관계
두 확률 변수 사이의 상관관계는 다음과 같이 정의됨
상관관계는 사이의 값을 가지며, 독립적인 확률 변수들의 상관관계는 0임
  • 두 랜덤 변수 사이의 종속성의 강도를 평가하는 가장 편리한 방법
  • 값은 -1과 1 사이에 있음
  • 양의 상관관계
    • 한 랜덤 변수의 높은 값이 다른 랜덤 변수의 높은 값과 연관되는 경향
  • 음의 상관관계
    • 한 랜덤 변수의 높은 값이 다른 랜덤 변수의 낮은 값과 연관되는 경향
  • Ex. 19 에어컨 서비스
    • 예상 서비스 시간은 시간이며, 서비스된 기기의 예상 수는
    • 또한,
    • 따라서 공분산은
    • 인 경우 서비스 시간과 서비스된 단위 수 사이의 상관 관계는
 

확률 변수의 조합 및 함수

확률 변수의 선형 함수

💡
확률 변수의 선형 함수
만약 가 확률 변수이고 (여기서 는 실수)라면,
그리고
가 됨
  • 표준화
    • 기대치 와 분산 를 가진 랜덤 변수
    • 평균이 0이고 분산이 1인 랜덤 변수 로의 "표준화"
    • 랜덤 변수 의 기대치
    • 랜덤 변수 의 분산
    • 랜덤 변수 의 실제 누적 분포 함수
  • Ex. 20 테스트 점수 표준화
    • 특정 테스트 절차에서의 원 점수 가 -5와 20 사이로 분포되어 있으며, 기대값은 10이고 분산은 7로 가정함. 점수를 0과 100 사이에 위치하도록 표준화하기 위해 선형 변환 이 점수에 적용됨. 이렇게 변환을 통해, 원 점수의 범위가 변경되며, 새로운 점수 체계에서는 점수가 0과 100 사이에 있게 됨. 이러한 표준화 접근법은 다양한 측정 도구나 테스트의 점수를 일관된 척도로 비교할 수 있게 해주며, 이해하기 쉽고 해석하기 쉬운 결과를 제공함
      • 표준화된 점수의 기대값
      • 표준화된 점수의 분산
      • 표준화된 점수의 표준 편차
  • Ex. 22 화학 반응 온도
    • 특정 화학 반응의 온도 (화씨)가 220°와 280° 사이로 분포되어 있음을 알려져 있음. 이 온도의 확률 밀도 함수 로 주어져 있음
      • 반응 온도의 기댓값
      • 반응 온도의 분산
      • 반응 온도의 표준 편차
      • 누적 분포 함수
    • 화학자는 온도를 섭씨로 변환하고 싶어함. 만약 랜덤 변수 가 반응 온도를 섭씨로 측정한다면, 이는 랜덤 변수 의 선형 함수로서 다음과 같이 얻어짐
      • 온도를 섭씨로 변환하면,
      • 이므로 양수이며, 누적 분포 함수
      • 의 확률 밀도 함수
      • 의 기대값과 분산
        • notion image
 

확률 변수의 선형 결합

  • 랜덤 변수의 합
  • 두 랜덤 변수 의 기대값
  • 두 랜덤 변수 의 분산
    • 두 독립적인 랜덤 변수에 대한 분산
💡
확률 변수의 합
만약 가 두 개의 확률 변수라면,
그리고
만약 가 독립적인 확률 변수라서 이라면,
 
  • 랜덤 변수의 선형 조합
    • 의 선형 조합으로 새로운 랜덤 변수 를 정의
      • , 여기서 는 서로 독립적인 랜덤 변수임
    • 랜덤 변수 의 기대값
    • 랜덤 변수 의 분산
💡
확률 변수의 선형 결합
만약 이 확률 변수의 수열이고, 가 상수라면, 다음과 같이 표현됨:
만약 추가로 이 확률 변수들이 독립적이라면, 다음과 같이 표현됨:
 
  • 랜덤 변수 의 분산
💡
독립적인 확률 변수의 평균
이 각각 기대값이 이고 분산이 인 독립적인 확률 변수의 수열이라 가정하고, 평균이 다음과 같다고 가정함:
그러면,
그리고
  • 랜덤 변수의 간단한 조합에 대해 평균과 분산이 어떻게 변하는지를 요약하고 있음
    • notion image
  • Ex. 23 피스톤 헤드 구조
    • 피스톤 헤드는 원통 내에서 부드럽게 움직이도록 설계되었음. 그러나 피스톤 헤드와 원통의 크기에는 명시된 치수에 대한 일정한 변동이 있으므로 제조 회사는 피스톤 헤드가 실제로 원통 내에서 얼마나 잘 맞는지에 관심이 있음
    • : 피스톤 헤드의 반지름. = 30.0mm, 표준편차 0.05mm
    • : 원통의 내부 반지름. = 30.25mm, 표준편차 0.06mm
    • : 피스톤 헤드와 원통 사이의 간격.
        • notion image
 

확률변수의 비선형 함수

  • 비선형 함수의 랜덤 변수 의 비선형 함수는 다른 랜덤 변수 임.
    • 의 평균과 분산이 의 것과 관계된 일반적인 결과가 없음
    • 랜덤 변수 Y의 확률 분포를 구성하는 가장 쉬운 방법은 랜덤 변수 X의 누적 분포 함수로부터 그것의 누적 분포 함수를 구성하는 것입니다.
      • 의 cdf로부터 의 cdf를 만듦
  • 예를 들어,
    • 랜덤 변수 X는 0과 1 사이에서 분포하며 그 확률 밀도 함수 f(x)는 0 ≤ x ≤ 1에서 1임
    • 가 대칭이기 때문에 0.5임
    • 누적 분포 함수 에서
    • 랜덤 변수 로 정의하면, 이 됨
      • 누적 분포 함수 이며, 이는 와 같음
      • 의 확률 밀도 함수
      • 의 기대값
        • 주의:
 
  • Ex. 23 피스톤 헤드 구성
    • 피스톤 헤드의 반경을 나타내는 랜덤 변수 은 29.9mm에서 30.1mm 사이임
    • 주어진 확률 밀도 함수 범위에서
    • 누적 분포 함수 임 ()
  • 피스톤 헤드의 면적을 나타내는 랜덤 변수 로 정의됨
    • 누적 분포 함수
    • 확률 밀도 함수
      • notion image