Ch 02. Random Variables

이산 확률 변수

정의

💡

랜덤 변수

랜덤 변수는 특정 실험의 각 결과에 수치 값을 할당함으로써 얻어진다.

예시 1. 기계 고장

기계 고장 문제에 대한 표본 공간

이런 고장들 각각은 수리 비용과 관련될 수 있음

전기적 고장은 평균 $200의 수리 비용이 발생함
기계적 고장은 평균 수리 비용이 $350임
오용으로 인한 고장은 평균 수리 비용이 단지 $50임

상태 공간:

확률 질량 함수

💡

확률 질량 함수 랜덤 변수 의 확률 질량 함수(p.m.f.)는 이산 랜덤 변수가 취하는 각 값 에 할당된 확률 값 의 집합임. 이 확률 값들은 및 모든 에 대한 의 합은 을 만족해야 함. 랜덤 변수가 값 를 가질 확률을 라고 하며, 이는 로 표기됨

예제 1. 기계 고장

, , 그리고 임

누적 분포 함수

💡

누적 분포 함수 확률 변수 의 누적 분포 함수(c.d.f.)는 함수 로 정의됨

예제 1. 기계 고장

연속 확률 변수

연속 확률 변수의 예시

예제 14. 금속 원통 생산

회사에서는 금속 원통을 제조함. 이 원통들은 50mm의 지름을 가지도록 설계되었음. 그러나 회사는 제조한 원통의 지름이 49.5mm에서 50.5mm 사이의 어떤 값이라도 가질 수 있음을 발견함
랜덤으로 선택된 이 회사에서 제조된 원통의 지름을 확률 변수 라고 가정. 이 확률 변수는 49.5와 50.5 사이의 어떤 값을 가질 수 있기 때문에, 이는 연속 확률 변수임

확률 밀도 함수

💡

확률 밀도 함수

확률 밀도 함수 는 연속 확률 변수의 확률적 특성을 정의한다. 이는 및 을 만족해야 한다.

확률 변수가 두 값 사이에 있을 확률은 두 값 사이에서 확률 밀도 함수를 적분함으로써 얻어진다.

예제 14. 금속 실린더 생산

금속 실린더의 지름이 pdf를 가진다고 가정

금속 원통의 지름이 49.8mm와 50.1mm 사이에 있을 확률은 다음과 같이 계산할 수 있음

누적 분포 함수

예제 14. 금속 실린더 생산

금속 원통의 지름에 대1한 누적 분포 함수는 확률 밀도 함수로부터 구성될 수 있음

지름이 49.7mm와 50.0mm 사이인 원통이 있을 확률은

확률 변수의 기댓값

💡

확률변수의 기대값 확률변수의 기대값 또는 확률질량함수 를 가지는 확률변수의 기대값은 임 E(X)는 확률변수가 취하는 평균값의 요약 척도를 제공하며, 이는 확률변수의 평균으로도 알려져 있음

예제 1. 기계 고장 기대 수리 비용 는

연속 확률 변수의 기댓값

연속 확률변수의 기대값 또는 확률밀도함수 를 가지는 확률변수의 기대값은

기대값은 확률변수가 취하는 평균값의 요약 척도를 제공하며, 확률변수의 평균으로도 알려져 있음

예제 14. 금속 원통 생산

금속 원통의 기대 지름은 다음과 같음

이 적분의 평가는 y = x - 50.0의 변환을 사용하여 단순화될 수 있으므로, E(X)는

대칭 확률변수

💡

대칭 확률변수 만약 연속 확률변수 가 확률 밀도 함수 를 가지며, 이 함수가 어떤 점 에 대해 대칭이라면, 즉 모든 에 대해 라면, 임. 따라서 확률변수의 기대값은 대칭의 중심점과 같음

예시 15. 배터리 방전 시간

확률변수: 새로 충전된 배터리 방전까지의 시간
확률 밀도 함수

이 배터리는 평균적으로 작동 후 한 시간 뒤 방전됨

예시 16. 콘크리트 슬랩의 파괴 강도

확률변수 X: 파괴 강도
확률 밀도 함수

확률변수는 라는 함수로

이산 확률변수로서의 함수에 대해서
연속 확률변수로서의 함수에 대해서
일 때,

확률 변수의 중앙값

💡

중앙값 연속 확률변수 가 누적분포함수 를 가질 때, 상태 공간의 값 에 대해 라면, 확률변수는 중앙값 위나 아래로 떨어질 가능성이 동일함.

💡

대칭 확률 변수 연속 확률 변수 가 중심 주변에서 대칭인 확률밀도함수 를 갖는다면, 확률 변수의 중앙값과 기댓값 모두 와 같음

Ex. 14 금속 실린더 제조

금속 실린더 지름의 중앙값은 다음 식의 해

따라서, 는

Ex. 15 배터리 방전 시간

누적 분포 함수
배터리 고장 시간의 중앙값

평균적으로 배터리가 1시간 동안 작동할 것으로 예상되지만, 그 중 절반은 0.414시간, 즉 약 25분 전에 방전될 것임
예상 수명이 중앙값 수명보다 훨씬 긴 이유는 25분보다 오래 지속되는 배터리들이 상당히 긴 시간동안 지속될 가능성이 있기 때문

확률 변수의 분산

분산

💡

분산

확률 변수 의 분산은

로 정의됨

또는 동등하게

로 표현됨

분산은 양의 값으로, 확률 변수의 분포가 평균 값 주변에서 얼마나 퍼져 있는지를 측정함. 분산의 값이 클수록 분포는 더 넓게 퍼져 있음을 나타냄

표준 편차

💡

표준 편차

확률 변수 의 표준 편차는 분산의 양의 제곱근으로 정의됨. 기호는 종종 확률 변수의 분산을 나타내는 데 사용되며, 는 표준 편차를 나타냄

평균 값은 다르지만 분산이 동일한 두 분포

평균 값은 동일하지만 분산이 다른 두 분포

분산 계산의 예시

Ex. 1 기계 고장

수리 비용은 각각 $50, $200, $350이며, 각각의 확률값은 0.3, 0.2, 0.5이고 예상 수리 비용은 $230이라는 것을 가정

수리 비용의 분산은 다음의 공식을 통해 계산될 수 있음

표준 편차

다른 방법으로

체비쉐프의 부등식

💡

체비셰프의 부등식

평균이 이고 분산이 인 확률 변수에 대하여 다음과 같은 부등식이 성립함

여기서 는 1 이상의 값임

이 결과는 확률 변수의 실제 분포에 관계없이 평균값 주변의 몇몇 표준 편차 내에서 그 값이 매우 큰 확률로 나타날 것임을 나타냄

예를 들어, 로 하면 가 됨

으로 하면 가 됨

예제 18. 토마토 식물 높이

한 연구자는 토마토 식물이 다른 성장 조건에 어떻게 영향을 받는지에 관심을 가지고 있음. 특정 성장 조건 하에서 식재 3주 후, 식물의 높이는 평균 29.4cm와 표준 편차 2.1cm로 나타남

평균 주변의 두 배 표준 편차 (확률 최소 75%)

평균 주변의 세 배 표준 편차 (확률 최소 89%)

이러한 결론은 식물 높이의 실제 분포를 알지 못하더라도, 평균과 표준 편차만 필요하기 때문에 도출할 수 있다는 것을 주목해야 함 (그러나 중요한 질문은 연구자가 이러한 값을 어떻게 추정하는지임). 7장의 통계적 추정에 관한 논의에서 연구자가 평균 값을 29.4cm, 표준 편차를 2.1cm로 추정할 수 있는 방법을 설명할 것임
평균과 표준 편차만 필요하므로, 토마토 식물의 높이의 실제 분포를 알지 못해도 도출 가능함

확률 변수의 사분위수

사분위수

💡

사분위수

누적 분포 함수 를 가진 확률 변수 의 번째 분위수는 다음 조건을 만족하는 값 로 정의됨:

이는 확률 변수의 번째 백분위수로도 언급됨. 확률 변수가 번째 분위수보다 작은 값을 가질 확률은 임

사분위수와 사분위범위

💡

사분위수와 사분위범위

분포의 상위 사분위수는 분포의 75번째 백분위수로 정의되며, 분포의 하위 사분위수는 25번째 백분위수로 정의됨. 사분위범위는 두 사분위수 사이의 거리로서, 분산과 마찬가지로 분포의 퍼짐 정도를 나타내는 지표임

상위 사분위수: 분포의 75번째 백분위수

하위 사분위수: 분포의 25번째 백분위수

사분위범위: 두 사분위수 사이의 거리

예 14. 금속 원통 생산

금속 원통 지름의 누적 분포 함수는

상위 사분위수는 일 때 임
하위 사분위수는 일 때 임
사분위 범위는 임

원통의 절반은 지름이 에서 사이에 위치할 것임

결합 분포 확률 변수

두 확률 변수 와 및 그들의 결합 확률 분포를 고려하는 것이 종종 적절함

확률 변수가 이산형이라면, 결합 확률 질량 함수는 확률 값

로 구성되며, 이는

을 만족함

확률 변수가 연속형이라면, 결합 확률 밀도 함수는 함수

이며, 이는

을 만족함

이산 확률 변수의 경우, 결합 누적 분포 함수는

로 정의됨

연속 확률 변수의 경우, 결합 누적 분포 함수는

로 정의됨

💡

결합 확률 분포

두 확률변수 와 의 결합 확률 분포는 이산 확률 변수의 경우 확률 값 의 집합으로, 또 연속 확률 변수의 경우 결합 확률 밀도 함수 로 지정됨. 어느 경우든, 결합 누적 분포 함수는

로 정의됨

Ex. 19 에어컨 유지 보수

주거 및 사무실 건물에서 에어컨을 서비스하는 회사는 기술자들을 어떻게 가장 효율적으로 스케줄링할 것인지에 관심이 있음

구체적으로 회사는 기술자가 특정 장소에 방문하여 서비스를 하는데 얼마나 걸리는지에 관심이 있으며, 이것은 주로 서비스가 필요한 장소의 에어컨 단위 수에 따라 다르다는 것을 인식함

확률 변수 는 특정 장소에서의 서비스 시간(시간 단위)이며, 값은 1, 2, 3, 4임
확률 변수 는 장소에 있는 에어컨 단위의 수이며, 값은 1, 2, 3임
결합 확률 질량 함수 (p.m.f.)

결합 누적 분포 함수 (c.d.f.)

특정 장소에 서비스가 필요한 에어컨 단위가 두 대 이하이며, 서비스에 두 시간 이하가 걸리는 확률

주변 확률 분포

💡

주변 확률 분포

확률변수 의 주변 분포는 두 확률변수 와 의 결합 확률 분포로부터 얻어지며, 확률변수 의 값들에 대해 합하거나 적분함으로써 얻어짐. 주변 분포는 확률변수 가 단독으로 고려될 때의 개별 확률 분포임

두 이산 확률 변수 X와 Y에 대해, X의 주변 분포의 확률 값은 다음과 같음

두 연속 확률 변수에 대해, X의 주변 분포의 확률 밀도 함수는 다음과 같음

Ex. 19 에어컨 유지 보수

특정 위치에서 에어컨 유닛을 서비스하는 데 걸리는 시간인 의 주변 확률 질량 함수는 아래 그림에 나와 있으며, 공동 확률 질량 함수의 적절한 값을 합하여 얻어짐

의 주변 p.m.f.
의 주변 p.m.f.

Ex. 20 광물 매장량

이전 섹션의 Ex. 20 설명

특정 지역에서 광업의 경제적 타당성을 판단하기 위해 광산 회사는 해당 위치에서 광석 샘플을 얻어 그들의 아연 함량과 철 함량을 측정함. 랜덤 변수 를 광석의 아연 함량이라고 가정하면 값이 0.5에서 1.5 사이로, 그리고 랜덤 변수 는 광석의 철 함량이라고 가정하면 값이 20.0에서 35.0 사이로 설정됨. 게다가, 그들의 공동 확률 밀도 함수는 다음과 같음

이 공동 확률 밀도 함수의 유효성은 다음과 같이 확인할 수 있음

광석의 아연 함량인 X의 주변 확률 밀도 함수(p.d.f.)는 다음과 같음

Fig. 2.63에서 예상 아연 함량 임
아연 함량의 분산은 다음과 같음

표준 편차 임

광석 샘플의 아연 함량이 0.8과 1.0 사이일 확률은 주변 확률 밀도 함수(marginal p.d.f.)로부터 다음과 같이 계산될 수 있음

따라서 광석의 약 27%는 이 범위 내에서 아연 함량을 가짐

광석의 철 함량인 Y의 주변 확률 밀도 함수(marginal p.d.f.)는 다음과 같음

예상되는 철 함량 임
철 함량의 표준 편차 임

조건부 확률 분포

💡

조건부 확률 분포

확률변수 가 특정 값을 가질 때의 확률변수 의 조건부 분포는 확률변수 의 값에 의해 제공되는 지식 하에서 확률변수 의 확률적 성질을 요약함. 이는 다음 확률값들로 구성됨

이는 이산 확률변수에 대한 것이거나 확률밀도함수

이며, 여기서 는 확률변수 의 주변 분포임

Ex. 19 에어컨 유지보수

기술자가 에어컨 유닛이 세 대 있는 위치에 방문하고 있다고 가정하면, 다음과 같은 확률을 가짐

서비스 시간 의 조건부 분포는 다음 확률 값으로 구성됨

서비스 시간의 조건부 기대값은

Ex. 20 광물 매장

광석 샘플의 아연 함량이 인 경우 철 함량에 대해서는 어떤 것을 알 수 있을까? 철 함량 에 대한 정보는 아연 함량 의 주변 분포를 0.55에서 평가한 분모에서 철 함량의 조건부 확률 밀도 함수로 요약됨
결합 확률 밀도 함수는

조건부 확률 밀도 함수

철 함량의 조건부 기대 값은 27.14
조건부 표준 편차는 4.14

독립성 및 공분산

💡

독립적인 확률 변수

두 확률 변수 와 는 그들의 결합 확률 질량 함수 또는 결합 확률 밀도 함수가 두 마진 분포의 곱일 경우 독립적으로 정의됨. 만약 확률 변수가 이산적이라면, 그들은 모든 및 값에 대해

의 식을 가짐. 만약 확률 변수가 연속적이라면, 그들은 모든 와 값에 대해

의 식을 가짐. 만약 두 확률 변수가 독립적이라면, 한 확률 변수의 확률 분포는 다른 확률 변수가 취하는 값에 의존하지 않음

💡

공분산

두 확률 변수 와 의 공분산은 다음과 같이 정의됨

공분산은 어떤 양수나 음수의 값을 가질 수 있으며, 독립적인 확률 변수들의 공분산은 0임

두 무작위 변수가 서로 얼마나 의존적인지의 강도

양수 또는 음수 값

만약 두 변수가 독립적이라면,

💡

상관관계

두 확률 변수 와 사이의 상관관계는 다음과 같이 정의됨

상관관계는 과 사이의 값을 가지며, 독립적인 확률 변수들의 상관관계는 0임

두 랜덤 변수 사이의 종속성의 강도를 평가하는 가장 편리한 방법

값은 -1과 1 사이에 있음

양의 상관관계

한 랜덤 변수의 높은 값이 다른 랜덤 변수의 높은 값과 연관되는 경향

음의 상관관계

한 랜덤 변수의 높은 값이 다른 랜덤 변수의 낮은 값과 연관되는 경향

Ex. 19 에어컨 서비스

예상 서비스 시간은 시간이며, 서비스된 기기의 예상 수는 임
또한,

따라서 공분산은

및 인 경우 서비스 시간과 서비스된 단위 수 사이의 상관 관계는

확률 변수의 조합 및 함수

확률 변수의 선형 함수

💡

확률 변수의 선형 함수

만약 가 확률 변수이고 (여기서 는 실수)라면,

그리고

가 됨

표준화

기대치 와 분산 를 가진 랜덤 변수
평균이 0이고 분산이 1인 랜덤 변수 로의 "표준화"
랜덤 변수 의 기대치

랜덤 변수 의 분산

랜덤 변수 의 실제 누적 분포 함수

Ex. 20 테스트 점수 표준화

특정 테스트 절차에서의 원 점수 가 -5와 20 사이로 분포되어 있으며, 기대값은 10이고 분산은 7로 가정함. 점수를 0과 100 사이에 위치하도록 표준화하기 위해 선형 변환 이 점수에 적용됨. 이렇게 변환을 통해, 원 점수의 범위가 변경되며, 새로운 점수 체계에서는 점수가 0과 100 사이에 있게 됨. 이러한 표준화 접근법은 다양한 측정 도구나 테스트의 점수를 일관된 척도로 비교할 수 있게 해주며, 이해하기 쉽고 해석하기 쉬운 결과를 제공함

표준화된 점수의 기대값

표준화된 점수의 분산

표준화된 점수의 표준 편차

Ex. 22 화학 반응 온도

특정 화학 반응의 온도 (화씨)가 220°와 280° 사이로 분포되어 있음을 알려져 있음. 이 온도의 확률 밀도 함수 로 주어져 있음

반응 온도의 기댓값

반응 온도의 분산

반응 온도의 표준 편차

누적 분포 함수

화학자는 온도를 섭씨로 변환하고 싶어함. 만약 랜덤 변수 가 반응 온도를 섭씨로 측정한다면, 이는 랜덤 변수 의 선형 함수로서 다음과 같이 얻어짐

온도를 섭씨로 변환하면,

이므로 양수이며, 누적 분포 함수 는

의 확률 밀도 함수

의 기대값과 분산

확률 변수의 선형 결합

랜덤 변수의 합

두 랜덤 변수 및 의 기대값

두 랜덤 변수 및 의 분산

두 독립적인 랜덤 변수에 대한 분산

💡

확률 변수의 합

만약 와 가 두 개의 확률 변수라면,

그리고

만약 와 가 독립적인 확률 변수라서 이라면,

랜덤 변수의 선형 조합

의 선형 조합으로 새로운 랜덤 변수 를 정의

, 여기서 는 서로 독립적인 랜덤 변수임

랜덤 변수 의 기대값

랜덤 변수 의 분산

💡

확률 변수의 선형 결합

만약 이 확률 변수의 수열이고, 및 가 상수라면, 다음과 같이 표현됨:

만약 추가로 이 확률 변수들이 독립적이라면, 다음과 같이 표현됨:

랜덤 변수 의 분산

💡

독립적인 확률 변수의 평균

이 각각 기대값이 이고 분산이 인 독립적인 확률 변수의 수열이라 가정하고, 평균이 다음과 같다고 가정함:

그러면,

그리고

랜덤 변수의 간단한 조합에 대해 평균과 분산이 어떻게 변하는지를 요약하고 있음

Ex. 23 피스톤 헤드 구조

피스톤 헤드는 원통 내에서 부드럽게 움직이도록 설계되었음. 그러나 피스톤 헤드와 원통의 크기에는 명시된 치수에 대한 일정한 변동이 있으므로 제조 회사는 피스톤 헤드가 실제로 원통 내에서 얼마나 잘 맞는지에 관심이 있음
: 피스톤 헤드의 반지름. = 30.0mm, 표준편차 0.05mm
: 원통의 내부 반지름. = 30.25mm, 표준편차 0.06mm
: 피스톤 헤드와 원통 사이의 간격.

확률변수의 비선형 함수

비선형 함수의 랜덤 변수 의 비선형 함수는 다른 랜덤 변수 임.

의 평균과 분산이 의 것과 관계된 일반적인 결과가 없음
랜덤 변수 Y의 확률 분포를 구성하는 가장 쉬운 방법은 랜덤 변수 X의 누적 분포 함수로부터 그것의 누적 분포 함수를 구성하는 것입니다.

의 cdf로부터 의 cdf를 만듦

예를 들어,

랜덤 변수 X는 0과 1 사이에서 분포하며 그 확률 밀도 함수 f(x)는 0 ≤ x ≤ 1에서 1임
는 가 대칭이기 때문에 0.5임
누적 분포 함수 는 에서 임
랜덤 변수 를 로 정의하면, 이 됨

누적 분포 함수 이며, 이는 와 같음
의 확률 밀도 함수
의 기대값

주의: 임

Ex. 23 피스톤 헤드 구성

피스톤 헤드의 반경을 나타내는 랜덤 변수 은 29.9mm에서 30.1mm 사이임
주어진 확률 밀도 함수 는 범위에서 임
누적 분포 함수 임 ()

피스톤 헤드의 면적을 나타내는 랜덤 변수 는 로 정의됨

누적 분포 함수
확률 밀도 함수