이산 확률 변수
정의
랜덤 변수
랜덤 변수는 특정 실험의 각 결과에 수치 값을 할당함으로써 얻어진다.
예시 1. 기계 고장
- 기계 고장 문제에 대한 표본 공간
- 이런 고장들 각각은 수리 비용과 관련될 수 있음
- 전기적 고장은 평균 $200의 수리 비용이 발생함
- 기계적 고장은 평균 수리 비용이 $350임
- 오용으로 인한 고장은 평균 수리 비용이 단지 $50임
- 상태 공간:
확률 질량 함수
확률 질량 함수
랜덤 변수 의 확률 질량 함수(p.m.f.)는 이산 랜덤 변수가 취하는 각 값 에 할당된 확률 값 의 집합임. 이 확률 값들은 및 모든 에 대한 의 합은 을 만족해야 함. 랜덤 변수가 값 를 가질 확률을 라고 하며, 이는 로 표기됨
- 예제 1. 기계 고장
- , , 그리고 임
누적 분포 함수
누적 분포 함수
확률 변수 의 누적 분포 함수(c.d.f.)는 함수 로 정의됨
- 예제 1. 기계 고장
연속 확률 변수
연속 확률 변수의 예시
- 예제 14. 금속 원통 생산
- 회사에서는 금속 원통을 제조함. 이 원통들은 50mm의 지름을 가지도록 설계되었음. 그러나 회사는 제조한 원통의 지름이 49.5mm에서 50.5mm 사이의 어떤 값이라도 가질 수 있음을 발견함
- 랜덤으로 선택된 이 회사에서 제조된 원통의 지름을 확률 변수 라고 가정. 이 확률 변수는 49.5와 50.5 사이의 어떤 값을 가질 수 있기 때문에, 이는 연속 확률 변수임
확률 밀도 함수
확률 밀도 함수
확률 밀도 함수 는 연속 확률 변수의 확률적 특성을 정의한다. 이는 및 을 만족해야 한다.
확률 변수가 두 값 사이에 있을 확률은 두 값 사이에서 확률 밀도 함수를 적분함으로써 얻어진다.
- 예제 14. 금속 실린더 생산
- 금속 실린더의 지름이 pdf를 가진다고 가정
- 금속 원통의 지름이 49.8mm와 50.1mm 사이에 있을 확률은 다음과 같이 계산할 수 있음
누적 분포 함수
예제 14. 금속 실린더 생산
- 금속 원통의 지름에 대1한 누적 분포 함수는 확률 밀도 함수로부터 구성될 수 있음
- 지름이 49.7mm와 50.0mm 사이인 원통이 있을 확률은
확률 변수의 기댓값
확률 변수의 기댓값
확률변수의 기대값
확률변수의 기대값 또는 확률질량함수 를 가지는 확률변수의 기대값은 임
E(X)는 확률변수가 취하는 평균값의 요약 척도를 제공하며, 이는 확률변수의 평균으로도 알려져 있음
- 예제 1. 기계 고장 기대 수리 비용 는
연속 확률 변수의 기댓값
연속 확률변수의 기대값 또는 확률밀도함수 를 가지는 확률변수의 기대값은
기대값은 확률변수가 취하는 평균값의 요약 척도를 제공하며, 확률변수의 평균으로도 알려져 있음
- 예제 14. 금속 원통 생산
- 금속 원통의 기대 지름은 다음과 같음
- 이 적분의 평가는 y = x - 50.0의 변환을 사용하여 단순화될 수 있으므로, E(X)는
대칭 확률변수
대칭 확률변수
만약 연속 확률변수 가 확률 밀도 함수 를 가지며, 이 함수가 어떤 점 에 대해 대칭이라면, 즉 모든 에 대해 라면, 임. 따라서 확률변수의 기대값은 대칭의 중심점과 같음
- 예시 15. 배터리 방전 시간
- 확률변수: 새로 충전된 배터리 방전까지의 시간
- 확률 밀도 함수
- 이 배터리는 평균적으로 작동 후 한 시간 뒤 방전됨
- 예시 16. 콘크리트 슬랩의 파괴 강도
- 확률변수 X: 파괴 강도
- 확률 밀도 함수
- 확률변수는 라는 함수로
- 이산 확률변수로서의 함수에 대해서
- 연속 확률변수로서의 함수에 대해서
- 일 때,
확률 변수의 중앙값
중앙값
연속 확률변수 가 누적분포함수 를 가질 때, 상태 공간의 값 에 대해 라면, 확률변수는 중앙값 위나 아래로 떨어질 가능성이 동일함.
대칭 확률 변수
연속 확률 변수 가 중심 주변에서 대칭인 확률밀도함수 를 갖는다면, 확률 변수의 중앙값과 기댓값 모두 와 같음
- Ex. 14 금속 실린더 제조
- 금속 실린더 지름의 중앙값은 다음 식의 해
- 따라서, 는
- Ex. 15 배터리 방전 시간
- 누적 분포 함수
- 배터리 고장 시간의 중앙값
- 평균적으로 배터리가 1시간 동안 작동할 것으로 예상되지만, 그 중 절반은 0.414시간, 즉 약 25분 전에 방전될 것임
- 예상 수명이 중앙값 수명보다 훨씬 긴 이유는 25분보다 오래 지속되는 배터리들이 상당히 긴 시간동안 지속될 가능성이 있기 때문
확률 변수의 분산
분산
분산
분산
확률 변수 의 분산은
로 정의됨
또는 동등하게
로 표현됨
분산은 양의 값으로, 확률 변수의 분포가 평균 값 주변에서 얼마나 퍼져 있는지를 측정함. 분산의 값이 클수록 분포는 더 넓게 퍼져 있음을 나타냄
표준 편차
표준 편차
확률 변수 의 표준 편차는 분산의 양의 제곱근으로 정의됨. 기호는 종종 확률 변수의 분산을 나타내는 데 사용되며, 는 표준 편차를 나타냄
- 평균 값은 다르지만 분산이 동일한 두 분포
- 평균 값은 동일하지만 분산이 다른 두 분포
분산 계산의 예시
- Ex. 1 기계 고장
- 수리 비용은 각각 $50, $200, $350이며, 각각의 확률값은 0.3, 0.2, 0.5이고 예상 수리 비용은 $230이라는 것을 가정
- 수리 비용의 분산은 다음의 공식을 통해 계산될 수 있음
- 표준 편차
- 다른 방법으로
체비쉐프의 부등식
체비셰프의 부등식
평균이 이고 분산이 인 확률 변수에 대하여 다음과 같은 부등식이 성립함
여기서 는 1 이상의 값임
- 이 결과는 확률 변수의 실제 분포에 관계없이 평균값 주변의 몇몇 표준 편차 내에서 그 값이 매우 큰 확률로 나타날 것임을 나타냄
- 예를 들어, 로 하면 가 됨
- 으로 하면 가 됨
- 예제 18. 토마토 식물 높이
- 한 연구자는 토마토 식물이 다른 성장 조건에 어떻게 영향을 받는지에 관심을 가지고 있음. 특정 성장 조건 하에서 식재 3주 후, 식물의 높이는 평균 29.4cm와 표준 편차 2.1cm로 나타남
- 평균 주변의 두 배 표준 편차 (확률 최소 75%)
- 평균 주변의 세 배 표준 편차 (확률 최소 89%)
- 이러한 결론은 식물 높이의 실제 분포를 알지 못하더라도, 평균과 표준 편차만 필요하기 때문에 도출할 수 있다는 것을 주목해야 함 (그러나 중요한 질문은 연구자가 이러한 값을 어떻게 추정하는지임). 7장의 통계적 추정에 관한 논의에서 연구자가 평균 값을 29.4cm, 표준 편차를 2.1cm로 추정할 수 있는 방법을 설명할 것임
- 평균과 표준 편차만 필요하므로, 토마토 식물의 높이의 실제 분포를 알지 못해도 도출 가능함
확률 변수의 사분위수
사분위수
사분위수
누적 분포 함수 를 가진 확률 변수 의 번째 분위수는 다음 조건을 만족하는 값 로 정의됨:
이는 확률 변수의 번째 백분위수로도 언급됨. 확률 변수가 번째 분위수보다 작은 값을 가질 확률은 임
사분위수와 사분위범위
사분위수와 사분위범위
분포의 상위 사분위수는 분포의 75번째 백분위수로 정의되며, 분포의 하위 사분위수는 25번째 백분위수로 정의됨. 사분위범위는 두 사분위수 사이의 거리로서, 분산과 마찬가지로 분포의 퍼짐 정도를 나타내는 지표임
- 상위 사분위수: 분포의 75번째 백분위수
- 하위 사분위수: 분포의 25번째 백분위수
- 사분위범위: 두 사분위수 사이의 거리
- 예 14. 금속 원통 생산
- 금속 원통 지름의 누적 분포 함수는
- 상위 사분위수는 일 때 임
- 하위 사분위수는 일 때 임
- 사분위 범위는 임
- 원통의 절반은 지름이 에서 사이에 위치할 것임
결합 분포 확률 변수
결합 분포 확률 변수
- 두 확률 변수 와 및 그들의 결합 확률 분포를 고려하는 것이 종종 적절함
- 확률 변수가 이산형이라면, 결합 확률 질량 함수는 확률 값
로 구성되며, 이는
을 만족함
- 확률 변수가 연속형이라면, 결합 확률 밀도 함수는 함수
이며, 이는
을 만족함
- 이산 확률 변수의 경우, 결합 누적 분포 함수는
로 정의됨
- 연속 확률 변수의 경우, 결합 누적 분포 함수는
로 정의됨
결합 확률 분포
두 확률변수 와 의 결합 확률 분포는 이산 확률 변수의 경우 확률 값 의 집합으로, 또 연속 확률 변수의 경우 결합 확률 밀도 함수 로 지정됨. 어느 경우든, 결합 누적 분포 함수는
로 정의됨
- Ex. 19 에어컨 유지 보수
- 주거 및 사무실 건물에서 에어컨을 서비스하는 회사는 기술자들을 어떻게 가장 효율적으로 스케줄링할 것인지에 관심이 있음
- 구체적으로 회사는 기술자가 특정 장소에 방문하여 서비스를 하는데 얼마나 걸리는지에 관심이 있으며, 이것은 주로 서비스가 필요한 장소의 에어컨 단위 수에 따라 다르다는 것을 인식함
- 확률 변수 는 특정 장소에서의 서비스 시간(시간 단위)이며, 값은 1, 2, 3, 4임
- 확률 변수 는 장소에 있는 에어컨 단위의 수이며, 값은 1, 2, 3임
- 결합 확률 질량 함수 (p.m.f.)
- 결합 누적 분포 함수 (c.d.f.)
- 특정 장소에 서비스가 필요한 에어컨 단위가 두 대 이하이며, 서비스에 두 시간 이하가 걸리는 확률
주변 확률 분포
주변 확률 분포
확률변수 의 주변 분포는 두 확률변수 와 의 결합 확률 분포로부터 얻어지며, 확률변수 의 값들에 대해 합하거나 적분함으로써 얻어짐. 주변 분포는 확률변수 가 단독으로 고려될 때의 개별 확률 분포임
- 두 이산 확률 변수 X와 Y에 대해, X의 주변 분포의 확률 값은 다음과 같음
- 두 연속 확률 변수에 대해, X의 주변 분포의 확률 밀도 함수는 다음과 같음
- Ex. 19 에어컨 유지 보수
- 특정 위치에서 에어컨 유닛을 서비스하는 데 걸리는 시간인 의 주변 확률 질량 함수는 아래 그림에 나와 있으며, 공동 확률 질량 함수의 적절한 값을 합하여 얻어짐
- 의 주변 p.m.f.
- 의 주변 p.m.f.
- Ex. 20 광물 매장량
- 이전 섹션의 Ex. 20 설명
- 특정 지역에서 광업의 경제적 타당성을 판단하기 위해 광산 회사는 해당 위치에서 광석 샘플을 얻어 그들의 아연 함량과 철 함량을 측정함. 랜덤 변수 를 광석의 아연 함량이라고 가정하면 값이 0.5에서 1.5 사이로, 그리고 랜덤 변수 는 광석의 철 함량이라고 가정하면 값이 20.0에서 35.0 사이로 설정됨. 게다가, 그들의 공동 확률 밀도 함수는 다음과 같음
- 이 공동 확률 밀도 함수의 유효성은 다음과 같이 확인할 수 있음
- 광석의 아연 함량인 X의 주변 확률 밀도 함수(p.d.f.)는 다음과 같음
- Fig. 2.63에서 예상 아연 함량 임
- 아연 함량의 분산은 다음과 같음
- 표준 편차 임
- 광석 샘플의 아연 함량이 0.8과 1.0 사이일 확률은 주변 확률 밀도 함수(marginal p.d.f.)로부터 다음과 같이 계산될 수 있음
- 따라서 광석의 약 27%는 이 범위 내에서 아연 함량을 가짐
- 광석의 철 함량인 Y의 주변 확률 밀도 함수(marginal p.d.f.)는 다음과 같음
- 예상되는 철 함량 임
- 철 함량의 표준 편차 임
조건부 확률 분포
조건부 확률 분포
확률변수 가 특정 값을 가질 때의 확률변수 의 조건부 분포는 확률변수 의 값에 의해 제공되는 지식 하에서 확률변수 의 확률적 성질을 요약함. 이는 다음 확률값들로 구성됨
이는 이산 확률변수에 대한 것이거나 확률밀도함수
이며, 여기서 는 확률변수 의 주변 분포임
- Ex. 19 에어컨 유지보수
- 기술자가 에어컨 유닛이 세 대 있는 위치에 방문하고 있다고 가정하면, 다음과 같은 확률을 가짐
- 서비스 시간 의 조건부 분포는 다음 확률 값으로 구성됨
- 서비스 시간의 조건부 기대값은
- Ex. 20 광물 매장
- 광석 샘플의 아연 함량이 인 경우 철 함량에 대해서는 어떤 것을 알 수 있을까? 철 함량 에 대한 정보는 아연 함량 의 주변 분포를 0.55에서 평가한 분모에서 철 함량의 조건부 확률 밀도 함수로 요약됨
- 결합 확률 밀도 함수는
- 조건부 확률 밀도 함수
- 철 함량의 조건부 기대 값은 27.14
- 조건부 표준 편차는 4.14
독립성 및 공분산
독립적인 확률 변수
두 확률 변수 와 는 그들의 결합 확률 질량 함수 또는 결합 확률 밀도 함수가 두 마진 분포의 곱일 경우 독립적으로 정의됨. 만약 확률 변수가 이산적이라면, 그들은 모든 및 값에 대해
의 식을 가짐. 만약 확률 변수가 연속적이라면, 그들은 모든 와 값에 대해
의 식을 가짐. 만약 두 확률 변수가 독립적이라면, 한 확률 변수의 확률 분포는 다른 확률 변수가 취하는 값에 의존하지 않음
공분산
두 확률 변수 와 의 공분산은 다음과 같이 정의됨
공분산은 어떤 양수나 음수의 값을 가질 수 있으며, 독립적인 확률 변수들의 공분산은 0임
- 두 무작위 변수가 서로 얼마나 의존적인지의 강도
- 양수 또는 음수 값
- 만약 두 변수가 독립적이라면,
상관관계
두 확률 변수 와 사이의 상관관계는 다음과 같이 정의됨
상관관계는 과 사이의 값을 가지며, 독립적인 확률 변수들의 상관관계는 0임
- 두 랜덤 변수 사이의 종속성의 강도를 평가하는 가장 편리한 방법
- 값은 -1과 1 사이에 있음
- 양의 상관관계
- 한 랜덤 변수의 높은 값이 다른 랜덤 변수의 높은 값과 연관되는 경향
- 음의 상관관계
- 한 랜덤 변수의 높은 값이 다른 랜덤 변수의 낮은 값과 연관되는 경향
- Ex. 19 에어컨 서비스
- 예상 서비스 시간은 시간이며, 서비스된 기기의 예상 수는 임
- 또한,
- 따라서 공분산은
- 및 인 경우 서비스 시간과 서비스된 단위 수 사이의 상관 관계는
확률 변수의 조합 및 함수
확률 변수의 선형 함수
확률 변수의 선형 함수
만약 가 확률 변수이고 (여기서 는 실수)라면,
그리고
가 됨
- 표준화
- 기대치 와 분산 를 가진 랜덤 변수
- 평균이 0이고 분산이 1인 랜덤 변수 로의 "표준화"
- 랜덤 변수 의 기대치
- 랜덤 변수 의 분산
- 랜덤 변수 의 실제 누적 분포 함수
- Ex. 20 테스트 점수 표준화
- 특정 테스트 절차에서의 원 점수 가 -5와 20 사이로 분포되어 있으며, 기대값은 10이고 분산은 7로 가정함. 점수를 0과 100 사이에 위치하도록 표준화하기 위해 선형 변환 이 점수에 적용됨. 이렇게 변환을 통해, 원 점수의 범위가 변경되며, 새로운 점수 체계에서는 점수가 0과 100 사이에 있게 됨. 이러한 표준화 접근법은 다양한 측정 도구나 테스트의 점수를 일관된 척도로 비교할 수 있게 해주며, 이해하기 쉽고 해석하기 쉬운 결과를 제공함
- 표준화된 점수의 기대값
- 표준화된 점수의 분산
- 표준화된 점수의 표준 편차
- Ex. 22 화학 반응 온도
- 특정 화학 반응의 온도 (화씨)가 220°와 280° 사이로 분포되어 있음을 알려져 있음. 이 온도의 확률 밀도 함수 로 주어져 있음
- 반응 온도의 기댓값
- 반응 온도의 분산
- 반응 온도의 표준 편차
- 누적 분포 함수
- 화학자는 온도를 섭씨로 변환하고 싶어함. 만약 랜덤 변수 가 반응 온도를 섭씨로 측정한다면, 이는 랜덤 변수 의 선형 함수로서 다음과 같이 얻어짐
- 온도를 섭씨로 변환하면,
- 이므로 양수이며, 누적 분포 함수 는
- 의 확률 밀도 함수
- 의 기대값과 분산
확률 변수의 선형 결합
- 랜덤 변수의 합
- 두 랜덤 변수 및 의 기대값
- 두 랜덤 변수 및 의 분산
- 두 독립적인 랜덤 변수에 대한 분산
확률 변수의 합
만약 와 가 두 개의 확률 변수라면,
그리고
만약 와 가 독립적인 확률 변수라서 이라면,
- 랜덤 변수의 선형 조합
- 의 선형 조합으로 새로운 랜덤 변수 를 정의
- , 여기서 는 서로 독립적인 랜덤 변수임
- 랜덤 변수 의 기대값
- 랜덤 변수 의 분산
확률 변수의 선형 결합
만약 이 확률 변수의 수열이고, 및 가 상수라면, 다음과 같이 표현됨:
만약 추가로 이 확률 변수들이 독립적이라면, 다음과 같이 표현됨:
- 랜덤 변수 의 분산
독립적인 확률 변수의 평균
이 각각 기대값이 이고 분산이 인 독립적인 확률 변수의 수열이라 가정하고, 평균이 다음과 같다고 가정함:
그러면,
그리고
- 랜덤 변수의 간단한 조합에 대해 평균과 분산이 어떻게 변하는지를 요약하고 있음
- Ex. 23 피스톤 헤드 구조
- 피스톤 헤드는 원통 내에서 부드럽게 움직이도록 설계되었음. 그러나 피스톤 헤드와 원통의 크기에는 명시된 치수에 대한 일정한 변동이 있으므로 제조 회사는 피스톤 헤드가 실제로 원통 내에서 얼마나 잘 맞는지에 관심이 있음
- : 피스톤 헤드의 반지름. = 30.0mm, 표준편차 0.05mm
- : 원통의 내부 반지름. = 30.25mm, 표준편차 0.06mm
- : 피스톤 헤드와 원통 사이의 간격.
확률변수의 비선형 함수
- 비선형 함수의 랜덤 변수 의 비선형 함수는 다른 랜덤 변수 임.
- 의 평균과 분산이 의 것과 관계된 일반적인 결과가 없음
- 랜덤 변수 Y의 확률 분포를 구성하는 가장 쉬운 방법은 랜덤 변수 X의 누적 분포 함수로부터 그것의 누적 분포 함수를 구성하는 것입니다.
- 의 cdf로부터 의 cdf를 만듦
- 예를 들어,
- 랜덤 변수 X는 0과 1 사이에서 분포하며 그 확률 밀도 함수 f(x)는 0 ≤ x ≤ 1에서 1임
- 는 가 대칭이기 때문에 0.5임
- 누적 분포 함수 는 에서 임
- 랜덤 변수 를 로 정의하면, 이 됨
- 누적 분포 함수 이며, 이는 와 같음
- 의 확률 밀도 함수
- 의 기대값
- 주의: 임
- Ex. 23 피스톤 헤드 구성
- 피스톤 헤드의 반경을 나타내는 랜덤 변수 은 29.9mm에서 30.1mm 사이임
- 주어진 확률 밀도 함수 는 범위에서 임
- 누적 분포 함수 임 ()
- 피스톤 헤드의 면적을 나타내는 랜덤 변수 는 로 정의됨
- 누적 분포 함수
- 확률 밀도 함수