Friday, September 19, 2008
Thursday, September 18, 2008
Ukuran sampel besar tidak selalu lebih baik
Teori mengatakan bahwa dengan ukuran sampel (sampel size), sering dinotasikan n, yang besar maka akurasi dugaan berdasarkan data akan semakin baik karena errornya mengecil. Tidak ada yang salah dengan teori itu, tapi yang harus diingat bahwa teori ini menganggap bahwa proses pengumpulan datanya dilakukan sedemikian rupa sehingga seluruh proses seragam. Prakteknya tidak demikian. Yang ingin dipaparkan ini barangkali sudah banyak ditulis di berbagai buku metodologi survei.
Pendugaan menggunakan data sampel selalu memuat dua jenis error. Pertama disebut sampling error dan yang kedua adalah non-sampling error. Error yang pertama tidak bisa dihindari karena ini adalah kesalahan yang timbul karena kita memang hanya menggunakan sampel, yang artinya hanya sebagian data dari populasi. Sedangkan error yang kedua adalah kesalahan-kesalahan yang diakibatkan oleh proses yang kita lakukan dalam mengumpulkan, merekam, dan mengolah data.
Sampling error ini yang disebutkan dalam teori di paragrap pertama. Benar bahwa n yang semakin besar akan diikuti sampling error yang semakin kecil. Namun perlu diperhatikan bahwa pada umumnya, n yang besar akan menyebabkan non-sampling error semakin besar. Kenapa demikian?
Dengan bertambahnya target jumlah sampel yang harus diperoleh, maka ada beberapa hal yang bisa dilakukan, antara lain adalah: (a) tambah saja jumlah petugas pengumpul data, (2) tidak usah nambah orang, tapi waktunya diperpanjang, atau (3) proses pengumpulannya dipercepat untuk setiap sampel, misal wawancaranya to the point dan sebagainya.
Apapun yang dilakukan, mengandung resiko adanya kesalahan. Memperbanyak orang berarti membuka peluang semakin beragamnya proses pengumpulan data. Besar kemungkinan timbul kesalahan karena perbedaan kemampuan setiap individu petugas pengumpul data. Memperpanjang waktu dapat juga berarti menambah kelelahan dan kejenuhan yang juga dapat berujung kepada timbulnya kesalahan. Wawancara terburu-buru agar target jumlah responden tercapai juga tidak menutup kemungkinan adanya kesalahan, baik kesalahan catat maupun kesalahan responden mengartikan pertanyaan.
Tidak hanya disitu, kesalahan juga dapat timbul pada proses perekaman data. Baik perekaman waktu petugas survei mencatat jawaban, atau perekaman data pada saat entry data di komputer. Semua itu adalah kesalahan-kesalahan yang mungkin terjadi. Dan dengan n yang semakin besar, pada umumnya kesalahan yang demikian semakin mungkin untuk terjadi.
Tentu ini bisa dicegah. Pelatihan kepada orang yang terlibat, pembuatan aplikasi entry data secara hati-hati, perencanaan kerja yang baik, insentif yang memadai, dan lain-lain dapat dilakukan untuk mengurangi non-sampling error.
Sebagai penutup, banyak orang menyarankan untuk mengoptimalkan ukuran sampel. Tidak usah terlalu besar kalau memang itu beresiko menimbulkan non-sampling error yang tinggi. Sayangnya memang, besarnya tingkat kesalahan jenis ini tidak dapat dihitung secara kuantitatif.
Wednesday, September 17, 2008
Pengacakan tidak menjamin datamu acak
Dalam banyak analisis dan pemodelan statistika, terutama statistika klasik, banyak disebutkan bahwa data atau error pada data harus bersifat acak. Tanpa adanya pemenuhan terhadap asumsi atau syarat tersebut, hasilnya jadi diragukan. Kemudian muncul pertanyaan, apakah data yang saya miliki ini memenuhi sifat tersebut. Acak tidak selalu dapat dipenuhi dengan mengambil sample secara acak. Proses pengumpulan dan karakteristik individu sumber data juga dapat mempengaruhi sifat keacakan data. Let’s look closer to this property.
Pertama, acak dapat dikaitkan dengan tidak adanya unsur ketergantungan/kebebasan antar individu/objek/responden yang kita amati atau kita wawancarai. Contohnya begini. Pada suatu survey, misalnya, kita melakukan wawancara kepada beberapa orang siswa di sekolah. Metode wawancara yang dilakukan adalah mengumpulkan 6 orang siswa yang dipilih secara acak di suatu ruangan, kemudian ditanya pertanyaan yang sama. Masing-masing anak bergantian menjawab. Nah, jawaban anak pertama bisa saja mempengaruhi anak kedua. Itu kita sebut tidak bebas. Pada kasus ini, keacakan data diragukan meskipun responden dipilih secara acak.
Contoh yang lain adalah dalam pengumpulan data dengan percobaan. Andaikan kita menanam beberapa tanaman dalam suatu petak, kemudian setelah beberapa bulan berikutnya tanaman-tanaman tersebut diukur tingginya. Kalau kandungan hara di tanah petak tersebut terbatas, maka akan terjadi persaingan antar tanaman dalam mendapatkan hara untuk tumbuh. Besar kemungkinan, tanaman yang pertama tumbuh tinggi sedangkan tanaman yang kedua tidak karena tidak kebagian unsur hara lagi. Data tinggi tanaman-tanaman tersebut lagi-lagi tidak saling bebas, atau tidak acak.
Konsep yang kedua berhubungan dengan waktu pengumpulan data. Teman-teman di bagian quality control di pabrik kertas misalnya ingin melihat karakteristik mutu kertas yang dia produksi. Kalau datanya diperoleh dari kertas yang dihasilkan oleh batch bubur kertas yang sama, maka jelas tidak acak. Contoh yang lain lagi terkait dengan kelelahan petugas survei atau operator percobaan. Andaikan petugas survei berangkat pagi hari untuk menjalankan tugas dan ini hari pertama, besar kemungkinan proses mengumpulkan data pada responden-responden pertama berbeda dengan responden di sore hari. Di suatu percobaan, pada pengamatan kesekian di sore hari ada kemungkinan operator sudah lelah sehingga pengamatan dan pengukuran yang dia lakukan tidak seteliti pada pagi hari. Hal-hal seperti ini harus dengan baik diperhatikan untuk memastikan keacakan, kalau tidak maka data kita memiliki korelasi dengan waktu pengumpulan data sehingga bersifat auto-correlated.
Hal serupa juga dapat terjadi karena pengaruh jarak. Itu kenapa kemudian dikenal adanya data yang bersifat spatially auto-correlated.
Sekedar mengingatkan saja bahwa proses pengacakan di suatu survey atau percobaan bukan satu-satunya jaminan data bersifat acak. Manajemen pelaksanaan pengumpulan data juga memegang peranan yang besar dalam kasus ini.
Saturday, September 13, 2008
Friday, September 12, 2008
My First Two Projects
During the first two week as a student, my professor asked me to read several books and articles about fractional factorial and orthogonal array. It may become my research topic in the next few years.
I could understand well about the fundamental of fractional factorial design, and I have read some of them long before I started as student here. However, orthogonal array is new one. Even, I know this term just in last few days ago. The book of Hedayat, Sloane, and Stufken (1999) is not an easy book to read. So many mathematical jargons and formulas as well that I could not simply follow. Oh dear…
Peter and Eric, my professors, said that I must try to understand it well because it must be an advantage to do my research. Ya … ya … I have finished in making resume of the reading on fractional factorial, but not in orthogonal array. It’s so hard.
Last Tuesday, as usual, we met in Peter’s office to talk about the progress. At the end of discussion, Peter asked me to give a small presentation about fractional factorial in front of several new PhD students. I wonder whether I will be able to do that. The date of the presentation has been set, October 7th, the next three weeks. Wow.
That was the first one. There was a second project. Eric showed me a recent article from a journal about 68 orthogonal arrays of size 27 x 13 for 3 levels design. My task is to investigate the property of those arrays. He said that it may be a first chapter of my dissertation. It means that I should read all the books and articles and work hard to understand the creature named orthogonal array. Wish me luck…
Wednesday, September 10, 2008
Saturday, September 06, 2008
Super Toy: a statistical issue
Some Indonesian people were surprised by the appearance of Super Toy case. It is the name of rice variety that is claimed could yield 15 ton per hectare. What a fantastic amount! The name was called after its inventor Toyong (his original name is Supriyadi). President of Republic of Indonesia, his expert staffs as well as ministry and governor were convinced that this new variety is the answer for our food crisis. Thanks God.
Farmers in several districts agreed to plant this variety replacing their custom one. Unfortunately, the harvest yields were not as high as stated by the inventor. Even, in some districts (eg. Yogyakarta, Klaten, Purworejo, Madiun) the yields is extremely bad. No farmer got the expected amount. What was going on? How come the results are so much different from the inventor’s claim?
I just want to say that probably the inventor (Toyong and team) did not apply an appropriate statistical experimental design. By doing good experimental design with scientific method, what was done by inventor should be repeatable. He should also do some multi-location trial to assess its stability. He should also try with enough number of replication. It’s a pity that the inventor has never described his design, so we could not evaluate and suggest better analysis. Knowledge of robust design might be necessary for current and future inventor to avoid some misleading conclusion due to the different environment setting between the experiment and the real farm condition.
Friday, September 05, 2008
Are our people statistics-literate?
Quick-count has been such a mandatory activity during the election of regional leaders in Indonesia. Many political research agencies, press, or even universities involve and do their own quick-count to predict the vote result. Sometimes, they just did it to show off that they have superior sampling methodology than other institutions. Ah…
Today, people of South Sumatera give their vote to one of two couples of candidates: Alex Noerdin-Eddy Yusuf (Aldy) and Syahrial Oesman-Helmi Yahya (Sohe). It is noticed that there are three agencies that held quick-count. And here is the result (http://www.detik.com/):
- Pusat Kajian Pembangunan Strategis (Puskaptis) : Sohe 51,11%, Aldy 48,89%
- Lingkaran Survey Indonesia: Sohe 49%, Aldy 51%
- Lembaga Survey Indonesia: Sohe 47,88%, Aldy 52,12%
Supporters of Sohe did a winning ceremony by doing a convoy. They claimed that their candidate won the election. So did Aldy’s supporters. What is happening in our society? They are not patient in waiting final result that will be counted by election commission. All of them forgot that quick-count by those agencies are based on the vote in a subset of voter, just a sample and not a complete one. Number resulted by quick-count is statistic; it is a prediction and probably wrong. Of course, the result may be completely wrong when the agencies is not independent and has an interest to the vote result.
I just want to say that people should be aware that sample may give similar result to the actual, however it would be wiser to wait until complete enumeration finished. And it will be happened in a few future days. Just be patient….
It’s not easy to change daily habit
I live at Antwerp now. It seems as a one of big city in Belgium. As I predicted before, there are several major difference in term of regulations and the way of life comparing the ones in Indonesia. The simplest thing is which side you could drive in a road. In my whole life, since childhood, we drive, ride a bike, and even walk in a left side of road. This custom of course has been attached in my mind.
In the first day of arrival in Brussel, I learned that people have different convention here. Yes, they use right side of the road.
I have neither car nor bike, so walking is becoming the only choice. Sure, there are trams and buses. However, every substantial thing could be reached by foot. During the walk, I should across several small and large streets. Here is the problem.
I used to turn my head to right side first, then to the left. When it is safe, I across the road. Due to the difference custom in driving side, we must turn our head to the left first. I am trying to remember it whenever I get out from my house. But, it is not always well done. Even it is my tenth day in Antwerp.