Thứ Tư, 6 tháng 3, 2013

Những hình nhân nhảy múa - thử động não xíu nào !

Trước đây khi đọc truyện Conan tôi khá thích thú với một vụ án mà trong đó Conan đã giải một đoạn mật mã(thật ra là nhiều đoạn khác nhau), vì nó có liên hệ với vụ những hình nhân nhảy múa của Sherlock Holmes. Sau này khi tôi sưu tầm các vụ án của Sherlock Holmes tôi cũng muốn đọc vụ án này một cách chính thống (không qua lời kể trong truyện Conan ^^, vả lại trong truyện Conan thì Conan nhớ lại những gì đã được ông bố cho chơi từ nhỏ, không phải suy luận nhiều lắm). Tuy vậy, đoạn mật mã này không được in trong truyện khiến tôi phải tìm ở ngoài và rút cuộc thì nó cũng ở đây như bạn thấy đấy
Trong vụ án này, khi đọc các đoạn mật mã mà người chồng của người phụ nữ người mà nhận các thông điệp từ một kẻ nào đó thì Sherlock Holmes đã có một sự hứng thú đặc biệt vì theo như ông ấy thì ông chưa từng gặp loại mật mã này bao giời. Dĩ nhiên với trí thông minh trời cho ông ấy đã giải quyết vụ án khá nhanh dựa vào các đoạn mã ấy, đáng tiếc là vẫn xảy ra án mạng. Sherlock Holmes đã đưa ra 2 giả thiết ban đầu để đi giải các đoạn mã trên, đó là:
1. Chữ E là chữ cái xuất hiện nhiều nhất trong các câu, đoạn văn trong tiếng Anh. 
2. Người phụ nữ này có tên là Elsie, do đó chắc hẳn trong các đoạn mật mã mà kẻ xa lạ kia gửi ắt hẳn phải có chứa cụm mật mã mang nghĩa Elsie.
Vậy chúng ta hãy cùng đi giải nó nhé.
Thứ nhất, bằng quan sát và dựa theo giả thiết thứ nhất ta dễ tìm ra hình nhân nào tương ứng với chữ E:
Thay hình nhân này bằng chữ cái E trong các đoạn mật mã, ta sẽ tìm kiếm được 2 cụm mật mã mà giả thiết 2 đã suy đoán rằng là tên của người phụ nữ - Elsie:
Ngay khi đọc các đoạn mã Sherlock Holmes cũng chú ý tới các hình nhân cầm lá cờ và ông ta cũng cho rằng các lá cờ chỉ đơn giản là một dấu ngắt câu chứ làm thay đổi nghĩa của các hình nhân này. Vậy từ đoạn trên ta tìm được thêm các chữ cái L,S và I.
Sau đó chúng ta chú ý tới cụm mật mã mà bà Elsie kia trả lời cho kẻ kia: 
Một từ tiếng Anh gồm 5 chữ cái có 2 chữ E nằm ở vị trí thứ 2 và thứ 4. Trong tiếng Anh không có nhiều từ thỏa mãn lắm và Sherlock Holmes cũng suy luận ra đó là chữ NEVER, khá hợp lý trong bối cảnh vụ án lúc đó. Tới đây ta sẽ có đoạn tóm tắt nhỏ như sau: kẻ đã viết các đoạn mã  là một người đã quen biết với bà Elsie từ trước và đột nhiên vì một lý do gì đó hắn tìm bà ta. Theo như chồng bà ta kể lại thì bà ấy trước kia từng sống bên Mỹ, ta có thể suy ra hẳn đó là người quen của bà ở bên Mỹ. Hẳn bà có một quá khứ không mấy đẹp nên không bao giờ muốn nhắc lại và dựa vào thái độ của bà khi đọc các đoạn mã thì ta biết chắc rằng kẻ đó cũng biết điều đó. Nhưng y cần gì ? Tiền ? Tình yêu ?
Ta trở lại với các đoạn mã, có một cụm (dựa vào các dấu được biểu thị bằng hình lá cờ) khá rõ ràng:
một từ gồm 4 chữ cái ...ERE, cũng không khó lắm khi kiếm chữ cái phù hơp còn lại là chữ H. Bây giờ ta lại chú ý tới một đoạn khác cũng gồm 4 kí tự:
Từ này gồm có 4 chữ cái và tận cùng là chữ E. Ta đã biết đi sau từ này là tên của bà Elsie, vậy đó là một động từ thì sẽ hợp lý hơn: kẻ đó đang gọi hay yêu cầu bà Elsie làm điều gì đó. Một động từ gồm 4 chữ cái và tận cùng là chữ E. Ta có thể nghĩ ra kha khá từ nhưng từ COME có lẽ sẽ hợp lý hơn cả. Hãy thử. Như vậy ta biết thêm các chữ cái C,O và M. Đoạn mật mã đầu tiên cho ta thêm gợi ý về một từ chưa biết;
...M HERE, thật khó mà cưỡng lại chữ A trong trường hợp này. Ta đi tiếp tới 2 cụm cuối trong đoạn mật mã này:
Thử điền vào trước nhé: A...E. SLANE..., hẳn đây là một tên người. Khá hợp lý: tôi đang ở đây, tôi là...Ta đã biết đây là một người Mỹ vì vậy từ A...E có thể là từ ABE, và thử các chữ cái vào chỗ trống còn lại ta thấy khó từ nào hợp lý hơn chữ Y, SLANEY.
Đoạn mật mã cuối cùng kẻ kia gửi cho bà Elsie có cụm:
MEE..., bạn có nghĩ ra từ nào không, tôi thì chỉ thấy ngay từ MEET. Hãy để tôi tiếp tục thử. Đến đây các cụm mật mã dần dần ra ngoài ánh sáng, vì thực chất chúng ta không còn nhiều chữ cái lắm:
A T . E L R I ... E S
... R E ... A R E. T ...
Ở cụm đầu tiên chỉ về một địa điểm (căn cứ vào từ AT phía trước), và phải là một địa điểm trong vùng, hơn nữa chắc hẳn đó là nơi hung thủ ở. Với khả năng của Sherlock Holmes thì muốn điều tra cũng không khó nhưng ông ta đã tự suy luận trước từ còn thiếu là chữ G. Ở cụm thứ 2 có một từ tiếng Anh khá quen thuộc...RE...ARE, mà ta đã biết 2 chỗ còn trống là cùng một từ, hãy thử tiếp trong bảng chữ cái còn bao nhiêu từ nhé, từ P được xếp vào là hợp lý nhất. Còn cụm T..., ta viết nguyên cụm phía trước và phía sau nó để tìm xem nhé: PREPARE T... MEET, còn gì phải nghĩ lâu hơn nhỉ, đó chắc hẳn là từ O. 
Cụm cuối cùng chưa được giải mã là:
GO..., nên nhớ thêm là câu này hàm ý đe dọa, dựa vào thái độ hối hả của Sherlock Holmes lúc đó. Nếu không bạn cũng có thể thấy nguyên cụm phía trước ELSIE.PREPARE.TO.MEET.THY. cũng hàm ý rằng sẽ có chuyện gì đó xảy ra. Giết người ư, chuyện đó đã xảy ra rồi đó. và từ GOD sẽ được đặt vào đây.
Đoạn mã cuối cùng là của Sherlock Holmes gửi cho kẻ kia cho nên ta sẽ không xét đoạn đó. Dĩ nhiên đến giờ ta có thể đọc được nguyên đoạn như sau:
COME.HERE.AT.ONCE










Thứ Hai, 4 tháng 3, 2013

Mức ý nghĩa và độ giá trị trong bài toán kiểm định.

Ngày 5/3/2013

Lẽ ra bài này phải được viết vào tối hôm qua, nhưng do mải chơi DotA nên giờ tôi mới có thời gian để viết vậy.
Tôi bắt đầu công việc trợ giảng với môn Nguyên lý thống kê và Dự báo trong kinh doanh, dĩ nhiên lúc học thì một đằng còn đi giảng lại là một đằng khác. Do đó tôi phải đọc lại sách để hiểu kĩ hơn các khái niệm - một thời mình từng bỏ qua vì chỉ học cho qua chứ chả biết kiến thức đó dùng để làm gì.
Trong những khái niệm cơ bản ban đầu của 2 môn học định lượng này, tôi có sự chú ý tới hai giá trị sau: mức ý nghĩa α - alpha và độ giá trị - 1-β. Về vấn đề này tôi cũng có trao đổi với 2 người thầy của tôi là thầy Trần Bá Nhẫn (Đại học Kinh tế TP. Hồ Chí Minh) và thấy Trần Kim Ngọc (Đại học Công nghệ Sài Gòn) do đó đã hiểu được chút it. Tôi viết lại vừa nhằm để ôn lại kiến thức, vừa để tìm cho mình một lối hành văn dễ nhớ, đặng sau này có quên thì coi lại vẫn tốt hơn.
Nếu đã từng học ( hoặc đang học) các môn phân tích định lượng thì chắc không ai không biết tới giá trị α và β:
Ở đây tôi chỉ đề cập tới phương diện kiểm định giả thuyết. Trong kiểm định giả thuyết, người ta thường dựa trên mẫu để đưa ra suy đoán cho tổng thể, do đó, thường gặp các sai lầm:
- Bác bỏ giả thuyết Ho khi Ho đúng, xác suất mắc sai lầm loại I gọi là mức ý nghĩa α. Ngược lại với xác xác suất này gọi là độ tin cậy 1-α, là xác suất khi không bác bỏ Ho khi Ho đúng.
- Bác bỏ giả thuyết Ho khi Ho sai, xác suất này được gọi là dộ giá trị của kiểm định 1-β. Ngược lại thì ta có xác suất mắc sai lầm II là β, chấp nhận Ho khi Ho sai.
Vậy có mối liên hệ nào giữa 2 loại sai lầm này không ? Nếu biết được giá trị xác suất của một loại sai lầm, ta có thể tim được giá trị xác suất của loại sai lầm còn lại không ? Tôi rất muốn biết điều này. Điều làm tôi thấy có thể tìm được là vì một quan sát : khi α tăng thì xác suất bác bỏ Ho đúng càng cao dễ dẫn đến chấp nhận Ho khi Ho sai càng cao, hay β cũng tăng.
Chúng ta sẽ đi từ một ví dụ đơn giản để kiểm tra điều này.
Ví dụ: Một hiệu trưởng trường Đại học muốn biết điểm trung bình trong năm học vừa rồi của sinh viên có cao hơn năm ngoái hay không đã tiến hành một cuộc điều tra trên mẫu 100 sinh viên. Giả sử rằng trong quá trình điều tra thì độ lệch tiêu chuẩn xác định là 0,5 điểm và điểm trung bình của năm ngoái là 5,3. Cho mức ý nghĩa là 10%.
Khi giải bài toán này, ta hãy hình dung xem, điểm trung bình của mẫu khảo sát này phải là bao nhiêu thì năm học này có kết quả tốt hơn so với năm ngoái. 
Đặt giả thuyết:
H0: µ ≤ 5,3
H1: µ > 5,3
Dựa vào công thức tính Zo, ta có:
Zo = (Xtb - 5,3)*(n^1/2)/σ
=> Xtb = Zo*σ/(n^1/2) + 5,3
Ta sẽ bác bỏ Ho nếu giá trị kiểm định Zo > 1,645 (độ tin cậy là 90%)
=> Xtb = 5,38225 (điểm). Ho sẽ bị bác bỏ nếu giá trị trung bình trong cuôc điều tra Xtb > 5,38225 điểm, hay năm học này "có vẻ" tốt hơn so với năm ngoái.
Hãy cho một vài giá trị trung bình cụ thể, ta sẽ đi tìm độ giá trị của phép kiểm định.
1.Giả sử điểm trung bình điểu tra được là 5,4 điểm
Ta tính được:
Zo = ( 5,4 - 5,3)*(100^1/2)/0,5 = 2 .
Rõ ràng với giá trị Zo = 2 thì giả thuyết Ho sẽ bị bác bỏ vì sai, nhưng xác suất Ho sẽ bị bác bỏ trong trường hợp này là bao nhiêu (ta nên nhớ rằng có xác suất mắc sai lầm chấp nhận Ho khi Ho sai).
Ta có: Z = (5,38225 - 5,4)*(100^1/2)/0,5 = - 0,355, vậy để bác bỏ Ho thì xác suất sẽ là :
P(Z ≥ - 0,355) = 0,5 + 0,1387 = 0,6387 (63,87%)


Phần diện tích hình nón chụp từ phía bên phải của giá trị -0,355 là vùng bác bỏ Ho.
Vậy độ giá trị trong trường hợp này là 0,6387, nghĩa là xác suất bác bỏ Ho trong trường hợp này là 63,87%.
Và xác suất mắc sai lầm loại II là 1-0,6387 = 0,3613.
2.Giả sử điểm trung bình điểu tra được là 5,1 điểm
Ta cũng có:
Z = (5,38225 - 5,1)*(100^1/2)/0,5 = 5,645.
Ta đã biết trong bảng Laplace thì với giá trị Z = 5,645 gần như P (Z ≥ 5,645) = 0 (0,0000006), hay nói cách khác, giả thuyết Ho sẽ không bị bác bác bỏ trong trường hợp này.
3.Quay trở lại trường hợp điểm trung bình điểu tra được là 5,4 điểm, ta thay đổi dữ kiện mức ý nghĩa α = 5%.
Với α=5%, ta có giá trị Xtb = 1,96*(100^1/2)/0,5 + 5,3 = 5,398 (điểm)
Z = (5,398 - 5,4)*100/0,5 = -0,04
P(Z ≥ -0,04) = 0,5 + 0.16 = 0,66 (66%)
Xác suất mắc sai lầm loại II là 1 - 0,66 = 0,34
Như vậy khi giá trị mức ý nghĩa tăng thì xác suất mắc sai lầm loại II cũng tăng, đúng như ban đầu tôi đã kì vọng.