北京天津河北山西內蒙古遼甯吉林黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南重慶四川貴州雲南西藏陝西甘肅青海甯夏新疆香港澳門
站內搜索

關鍵詞:

搜索範圍:

工作管理 創新郵局
  • 青少郵局
  • 創新郵局
  • 科協郵局
設爲主頁 加入收藏 英文網站
首頁 > 科教視點 > 科教視點 > 全國公衆信息服務門戶網站

玩轉數據而不要玩弄數據

2013-09-05中國科技教育本文被閱讀過91327次[推薦][打印][保存][大字體][中字體][小字體]

本文轉載自《中國科技教育》雜志2013.04/總第205期

  記得在上大學時,一位給我們講授心理學研究方法的老師曾經說過:“學習統計就像是往沙漠裏面澆水”。時至今日,我仿佛依然能夠感受到當時這句話在我心中引起的那種強烈共鳴。沒錯,我在統計學習上沒少下工夫,但卻收效甚微。花了很多時間去區分那些看上去長得很像的術語,試著努力地記住每一個公式的適用範圍,幾乎是懷著畢恭畢敬的心情去演算練習題……但是,在這門課程結束不久之後,我發現自己對各種統計方法的認識還是非常模糊。直到開始撰寫畢業設計論文的時候,我還是對數據統計存在畏懼感。在完成論文的過程中,我對老師的話有了新的理解:如果沙漠裏面存在一片綠洲,澆進去的水就會蒸發得慢一些,研究項目就是沙漠中的綠洲。

  學生進行STEM項目研究的過程,是學習像科學家和工程師那樣思考和行動的過程。只有通過基本的統計方法對數據進行整理和分析,才能有足夠的證據解釋和說明研究的問題,驗證假設是否得到支持,以及圍繞某一個課題進行深入細致的探討。從某種程度上看,數據統計可以算是科學研究中用于交流的“通用語言”,因此,學習和運用數據統計方法,屬于科學研究中的基本方法訓練。最近,在我翻譯《STEM項目學生研究手冊》(以下簡稱《研究手冊》)的相關章節時,其中的數據分析和圖表展示方法介紹,給我的“沙漠”再次澆了一點水。也許是將高中生作爲閱讀對象的緣故,這本《研究手冊》用淺顯易懂的句子解釋了統計學中的專業術語,跳過了枯燥公式演繹推導環節,用實例告訴學生各種方法所適用的情況,有什麽需要注意的問題。本書作者的撰文思路和語言風格,讓我直觀地看到數據統計和圖表展示在STEM項目完成過程中的關鍵性作用。而且,如果運用得當的話,它們還會使學生的項目變得更加出色。

  我有一位朋友在大學裏當老師,他最近幾年一直在指導學生的畢業論文。當我向他咨詢學生在研究過程中數據統計方面出現的問題時,他很激動地表示“有話說”,並很快給我列出了他指導的學生中最常見的幾個問題。當我再次仔細閱讀《研究手冊》的相關章節時,我發現,這些常常出現在大學生的研究中的數據統計問題,在這本針對高中生的項目指南中就已經提到了,並且給出了有效的解決建議。

  問題1:學生對研究結果預測的主觀願望過于強烈,在進行統計分析時,他們更喜歡那些符合自己預期的數據,而對那些看上去不太“美觀”的數據結果采取選擇性地忽略,甚至非常草率地刪除或者舍棄掉。

  《研究手冊》在實驗記錄和數據分析章節中反複強調:不要先入爲主地看待你的研究和數據結果。書中還提到一些很實用的操作方法來避免這個問題。例如,永遠不要在實驗記錄本中撕頁或者刪除文本;永遠不要用修正液覆蓋錯誤和修改的地方,而是在相應部分輕輕劃一道刪除線。當使用電腦進行統計計算時,即使發現數據運算結果對于你的假設沒有顯著作用,也不要輕易刪除數據。

  問題2:在統計學課堂上,學生常把大量的時間花在對統計的原理和公式推導的學習上,對數據進行實際操作計算的經驗相對較少。當我問學生關于平均數差異檢驗、方差分析、回歸分析的原理,大多數人都能回答上來。然而,當我要求他們針對一些具體數據,根據自己的研究假設去進行方差分析或者回歸分析時,用不了多久,他們就會跑回來問我:“老師,方差分析中的自變量可以有多個嗎?回歸分析中的自變量可以同時有多個嗎?”

  正如我在前面提到的那樣,這本《研究手冊》指導我們有效地避免這個問題,因爲它在寫法上更側重于技能的實際運用。例如在計算一組數據的標准差時,有總體標准差和樣本標准差兩種方程,書中並沒有從原理上詳細剖析兩個方程的區別,只是簡單直接地告訴讀者:“標准差是一個高估值,來彌補犯錯誤的可能性,STEM研究中使用樣本標准差計算方程更恰當”(第103頁)。對于比較複雜的推斷性統計問題,《研究手冊》也是采用舉重若輕的介紹方法。學生不是很難理解方差分析中自變量可以有多少個嗎?該書作者給了一個中學生很容易讀懂的例子:“在比較一個彈射器以3種不同彈力發射1顆4千克彈丸的平均距離時,可以用方差分析進行檢驗。”(第134頁)

  問題3:大多數學生在原始數據的處理方面存在欠缺。開始正式的數據統計之前,研究者通常需要對原始數據進行處理,例如,缺失數據的處理,是否有特異值,是否存在錄入錯誤,數據是否呈正態分布等。我發現大多數學生認爲這個環節可有可無,當他們收集到實驗的原始數據之後,就興致勃勃地開始進行描述統計和推斷統計。這時我就會問他們一個問題:你怎麽判斷原始數據是否滿足正態分布?如果數據不是正態分布,做出來的方差分析會有什麽後果?到這個時候,大多數學生才恍然大悟。但是,緊接著他們可能會說出一句更雷人的話:“老師,我們不知道怎麽做正態分布檢驗。”

  遇到這樣的學生應該怎麽辦?《研究手冊》的作者可能已經與這樣的學生打過交道,因爲書中“描述統計”一章詳細地介紹了離群值的判斷和處理方法,以避免“雷人”的問題再次出現。作者首先告訴學生出現離群值並不可怕,因爲“專業的科學家在使用新的方法時也有可能出錯,這很常見”(第101頁)。“如果你確認離群值的出現是由于自己的錯誤、儀器故障,或者其他你知道的與離群值無關的原因導致的,那麽,你可以在對數據進行計算和分析時把它剔除掉”(第101頁)。但是,別忘了“在結果中還是要提到離群值,並且在論文的結論部分要進行分析和解釋”(第101頁)。這才是科學研究應有的嚴謹態度。作者給學生介紹了“經驗法則”,通過四分位距的計算結果輔助判斷某個數據是否屬于離群值。至于判斷總體數據分布是否爲正態,作者並沒有向高中生提出這麽高的數學要求,她只是提到“當數據呈非正態分布時,集中趨勢的值可能會有變化”(第99頁),“可以從正態分布數據的平均值和標准差中推斷出數據的更多信息”(第104頁)。

  問題4:缺乏制作圖表的技巧。學生在進行實驗室數據或調查數據的統計分析時,很多人不會使用圖表呈現自己的結果。例如,在描述兩個變量是否存在線性關系時,大多數人只知道用相關系數或回歸系數表示,卻不會使用散點圖呈現。在描述一個變量是否隨時間變化時,很多人不清楚可以用折線圖或曲線圖表示。一些學生想到了要用圖表呈現數據統計結果,但是他們只會把統計軟件中輸出的圖表直接拷貝到實驗報告中,導致後期無法修改圖表。一些學生不會自己在文字編輯軟件中繪制圖表,更談不上制作美觀的圖表。

  圖形和表格是用一種可視化的方法展現原始數據、描述統計結果和推斷統計結果。使用圖表的目的不僅僅是美觀,更重要的是突顯那些從研究中得到的重要發現。該書按照定量和定性數據兩類介紹了圖表的使用和繪制技巧,每一種圖表都輔以實例,讓學生一目了然。作者還提到了圖表的標題、標注和圖例使用中需要注意的一些小細節,例如,“標注必須要清楚地表現出圖表要展示的信息,數軸、表格的行列名稱都要有明確的詞語和單位描述”(第128頁)。

  問題5:在計算完成後,不知道如何對數據結果進行解釋。經常會有學生來問我:“老師,我的結果計算出來了,但是我不知道應該看哪個?有很多個F值,我應該看哪一個,是修正的還是未修正的。在修正的F值後,哪一種修正更好,F值顯著了,這兩個變量是什麽關系?……”

  學生不知道怎麽解釋數據這個現象反映出來的問題本質是,他們沒有搞清楚自己爲什麽要進行數據統計。其實,數據統計運算不是盲目的,而是要驗證研究結果是否支持假設,從大的方面來說,是要爲解決某一個問題而進行的。《研究手冊》中給學生列出了3個問題,幫助他們審視自己的數據。這3個問題是:“數據真實地反映了什麽,從數據中還能提出哪些問題?”“數據如何反映兩個變量之間的關系?”“數據能支持假設嗎?”在這3個問題之下,作者從大量STEM學生項目經驗中總結出一系列關于“爲什麽”和“如何”的問題,幫助學生更加深入地思考自己的數據結果。最後還不忘提醒學生:“得到不支持假設的數據也是有價值的。無論如何,都不能改變假設來匹配數據,或者改變數據來迎合假設!”

  從研究假設出發,對實驗中收集到的數據進行統計和分析,這個過程需要研究者具備足夠的耐心、細致和敏銳的觀察力。關于數據分析這個事,還有一點你應該知道的是:無論多“大牌”的科學家和工程師,在某一篇研究論文中反映出來的數據分析工作量,永遠比他們研究過程中實際運算的少得多。數據分析的過程和結果,在研究論文中的結果和討論部分會用到,但是這兩個部分對結果數據使用的要求有差異。結果部分只是對數據進行描述,而不必進行解釋和分析;討論部分,研究者則需要對結果數據的所有特征和趨勢進行解釋、分析和討論。

  “聽到的會忘記,看到的能記住,只有真正做過才能理解”,《研究手冊》向讀者傳達的正是這樣一個基本理念。《研究手冊》中結合中學生STEM項目實踐案例,告訴讀者對于數據做統計分析不是單純的數學計算,而是項目研究完整過程的重要環節,這個環節運用到的很多技巧和細節,都是在研究過程中摸索出來的,也只有通過親自實踐才能真正地掌握。相對于其他統計學教程,這本《研究手冊》的寫法更加通俗易懂,貼近STEM學生項目的研究實際需要,我推薦用作中學生了解統計學的入門材料。■

  作者:曾筝/中國科協青少年科技中心、梁宗保/東南大學

文章主題詞:
    評論
    稱 呼:
    評論須知
    • ★ 在本網發表言論,請自覺遵守愛國、守法、自律、真實、文明的原則,尊重網上道德,遵守各有關法律法規;
    • ★ 請勿發表可能危害國家安全,破壞民族團結、國家宗教政策和社會穩定,含侮辱、誹謗、教唆、淫穢等內容的言論;
    • ★ 承擔一切因您的行爲而直接或間接導致的民事或刑事法律責任;
    • ★ 在本網發表的言論,本網有權在網站內保留、轉載、引用或者刪除;
    • ★ 參與評論,即表明您已經閱讀並接受上述條款。
    評 論:
    驗證碼: