解锁AI素养:从基础框架到评估实践之拾贰

第十二篇 量表之镜:AILS与MAILS的光芒与阴影

2023年,清华大学发布了一个引发广泛关注的研究成果:人工智能素养量表(AILS)。这套量表包含72个题目,声称能全面测量一个人的AI素养水平,从“AI知识”到“AI伦理”,从“使用技能”到“创造能力”,涵盖多个维度。

几乎同一时间,德国研究团队推出了媒体与AI素养量表(MAILS),聚焦于“如何在信息洪流中保持批判性”,强调算法推荐、深度伪造等媒介素养维度。

这些量表的出现,像是在混沌的AI素养评估领域,点亮了一盏明灯——终于有了“标准化工具”。但随着全球数十个研究团队引用、使用这些量表,一些问题也逐渐浮现:量表能测什么,不能测什么?它们适合谁用?在什么场景下有效?

本文将对现有主流AI素养量表进行“验明正身”——不是要全盘否定,而是厘清它们的适用边界,帮助教育者和研究者避免“拿着锤子,把所有问题都当钉子”的误用。

AILS的解剖:一个“全面”的野心

清华的AILS量表,结构上采用了五维模型:

1.AI知识(如“什么是机器学习”)

2.AI技能(如“能否使用AI工具完成任务”)

3.AI伦理(如“对算法偏见的认知”)

4.创新应用(如“能否用AI解决新问题”)

5.社会影响认知(如“AI对就业的影响”)

每个维度下设多个子维度,用李克特量表(1-5分,从“非常不同意”到“非常同意”)让受测者自评。

AILS的优势:全面性

这套量表最大的价值在于全景式覆盖。它不像某些量表只测技术知识,而是试图捕捉AI素养的多个面向。当你用AILS对一群学生测试,能得到一个“雷达图”——每个维度的得分一目了然,哪里强、哪里弱,清清楚楚。

一个应用案例:某职业技术学院用AILS对新生进行前测,发现:

  • AI知识维度:平均2.3分(较低,很多学生连基本概念都不清楚)
  • AI技能维度:平均1.8分(更低,几乎没人实际用过AI工具)
  • AI伦理维度:平均3.5分(中等偏上,可能因为媒体报道让大家有基本的风险意识)

这个诊断帮助学院调整了课程设计:增加动手实践环节,减少纯理论讲授。

AILS的局限:自评的“虚高”

但AILS有一个致命弱点:它测的不是实际能力,而是自我认知。

具体来说,题目类型是:“我能够使用AI工具完成复杂任务”(1-5分)——这测的是受测者觉得自己能不能,而不是真的能不能。

心理学研究早已证明:自评往往不准。尤其是:

  • 达克效应(Dunning-Kruger Effect):能力低的人往往高估自己,能力高的人反而谦虚。一个从没用过AI的人,可能因为“看过几个教程”就给自己打4分;真正的高手,因为知道还有很多不懂,反而打3分。
  • 社会期许偏差:受测者猜测“什么答案是‘应该’的”,然后顺着这个方向回答。比如伦理题:“我会拒绝使用可能侵犯隐私的AI”——几乎所有人都会选“非常同意”,因为这是“道德正确”答案,但实际生活中可能又是另一回事。

一个真实的对照实验:

  • 用AILS测一群学生的“AI技能”维度,平均3.8分(自评“比较会用”)
  • 让同一群学生完成实操任务(用ChatGPT写一份规范的读书笔记),只有40%合格

这说明:自评高≠能力强。量表测的是“自信心”和“对AI的熟悉感”,而非真实水平。

AILS适合测什么?

明白了这个局限,我们就能正确使用AILS:

  • 适合:态度和意愿的测量。比如“学生对学习AI有多大兴趣”“对AI技术有多焦虑”“是否愿意在工作中尝试AI”——这些本来就是主观感受,自评是合理的。
  • 适合:大规模筛查。当你有1000个学生,不可能逐个做实操测试,用量表快速识别“哪些人AI素养自评很低(可能需要额外辅导)”“哪些人自评很高(可能可以当助教)”——虽然不完全准确,但比完全不测强。
  • 不适合:高风险决策。比如根据AILS分数决定谁能毕业、谁能拿奖学金——这是不负责任的,因为量表测不准实际能力。

MAILS的聚焦:媒介批判的视角

德国的MAILS量表,路径不同。它不追求“全面”,而是聚焦于“AI时代的媒介素养”。

核心维度包括:

6.算法意识(Algorithm Awareness):理解推荐系统、搜索排序的逻辑

7.批判性评估(Critical Evaluation):能否识别AI生成的虚假信息

8.数据隐私(Data Privacy):对个人数据被收集和使用的认知

9.社会影响反思(Societal Reflection):对AI加剧不平等、操控舆论等问题的思考

MAILS的优势:批判性导向

相比AILS的“中性”(既测技术能力也测伦理,但不明确倾向),MAILS有明确的价值立场——它认为AI素养的核心是“不被算法操控”。

这种立场在欧洲语境下尤其突出。欧洲社会对数据隐私、算法透明、技术监管的重视程度远超美国和中国。MAILS反映的是一种防御性素养观:在技术面前保持警惕,守护个人自主。

MAILS的典型题目:

  • “我会主动关闭社交媒体的个性化推荐功能,避免被算法圈养。”(同意程度)
  • “当我看到一段视频或图片,我会怀疑它可能是AI生成或篡改的。”(频率)

这些问题的设计,明显鼓励“批判性警觉”的态度。

MAILS的局限:文化特殊性

但MAILS的问题在于:它的价值预设,可能不适用于所有文化。

以“关闭个性化推荐”为例。在欧洲,这可能被视为“捍卫自主权”的积极行为;但在中国语境下,很多用户可能认为“个性化推荐很方便啊,为什么要关”——并不是他们缺乏素养,而是他们在“便利性”和“自主性”之间做了不同的权衡。

如果机械套用MAILS,可能会把“选择享受便利”的用户判定为“素养低”——这是一种文化偏见。

MAILS适合测什么?

  • 适合:批判意识和风险敏感性。如果你的教育目标是“培养警惕算法的公民”,MAILS是好工具。
  • 适合:欧洲或类似文化背景的人群。MAILS的题目设计,默认了一套关于“隐私”“自主”“透明”的价值观,这在某些文化中是主流,但不一定普世。
  • 不适合:技能和应用能力的测量。MAILS几乎不涉及“如何用AI”,只关注“如何防AI”。如果你想知道学生会不会写提示词、能不能用AI做项目,MAILS帮不上忙。

其他量表:各有侧重的群像

除了AILS和MAILS,国际上还有多个AI素养量表,各有千秋:

AI4K12的“五大理念”框架(美国)

  • 聚焦K-12教育,强调“AI是什么”“AI如何工作”的概念理解
  • 优点:适合青少年,语言简单
  • 局限:更像知识测试,不涉及复杂的伦理和社会议题

MIT Media Lab的“AI伦理量表”

  • 聚焦算法公平、透明、问责
  • 优点:深挖伦理维度,适合高阶学习者
  • 局限:完全不测技能,单独使用会片面

UNESCO的“AI素养教师自评表”

  • 专为教师设计,测“你能否教学生AI素养”
  • 优点:针对性强
  • 局限:只适合教师,不适合学生

这些量表的存在,印证了一个现实:没有一个量表能“通吃”所有场景。

量表使用的“三问法”:选对工具的艺术

当你面对五花八门的量表,如何选择?我提出“三问法”:

第一问:我想测什么?

  • 如果想测态度和自信心→ AILS合适
  • 如果想测批判意识和风险警觉→ MAILS合适
  • 如果想测实际操作能力→ 所有现有量表都不够,必须加实操测试
  • 如果想测深层伦理思考→ MIT伦理量表+开放式问答

第二问:我的对象是谁?

  • 大学生 → AILS、MAILS都可用
  • 中小学生 → AI4K12更合适
  • 教师 → UNESCO教师自评表
  • 普通公众 → 需要简化版量表,题目要通俗

第三问:我用测试结果做什么?

  • 课程设计的需求分析(低风险)→ 量表够用
  • 学生分班或分流(中风险)→ 量表+实操
  • 毕业认证或职业资格(高风险)→ 必须多种方法组合,不能只靠量表

改进之道:从“纯自评”到“混合测量”

既然自评量表有局限,如何改进?一个方向是嵌入客观题。

改进策略1:知识锚定题

在自评题之间,穿插客观知识题。比如:

  • 自评题:“我了解机器学习的基本原理。”(1-5分)
  • 紧接着,客观题:“以下哪项是机器学习的必要条件?A.大量数据 B.编程能力 C.互联网连接 D.高学历”(答案:A)

如果受测者自评“非常了解”(5分),但客观题答错——这说明他高估了自己。通过对比自评和客观题的分数,可以识别“虚高”。

改进策略2:情境判断题

在态度量表之后,加入情境判断测试(SJT)。比如:

  • 量表题:“我会拒绝使用侵犯隐私的AI。”(同意5分)
  • 情境题:“一个APP提供免费AI功能,但需要访问你的通讯录、位置、相册。你会:A.同意并使用 B.拒绝下载 C.同意但关闭部分权限”

如果受测者量表打5分(坚决拒绝侵犯隐私的AI),但情境题选A(为了免费功能放弃隐私)——这揭示了“理想”与“现实”的差距。

改进策略3:行为数据补充

如果技术条件允许,收集实际使用行为数据。比如:

  • 在量表测“AI技能”维度后,让受测者在学习平台上用AI完成一个任务(如写摘要、生成图表),系统自动记录操作时间、尝试次数、最终质量。
  • 对比自评分数和行为表现,校准量表结果。

量表的未来:走向“自适应测试”

传统量表是“固定题目”——所有人答同样的题。但这有两个问题:

  • 对高手来说,简单题太多,浪费时间且测不出真实水平上限
  • 对新手来说,难题太多,打击信心且得到的全是低分

未来的方向是计算机自适应测试(CAT):

10.先给一道中等难度的题

11.答对了,系统自动给更难的题;答错了,给更简单的题

12.通过十几道题的动态调整,精准定位受测者的能力水平

这种技术在GRE、托福等标准化考试中已成熟应用。AI素养量表也可以借鉴:

  • 如果受测者在“AI知识”维度前几题全对,后续题会深入到“解释训练数据偏差如何影响模型输出”这种高阶问题
  • 如果前几题就错了,后续题会回到“什么是AI”这种基础问题

自适应测试的优势:用更少的题目,获得更高的测量精度。

结语:量表是地图,不是领土

量表是工具,是“地图”——它帮你快速了解地形,但地图不等于领土。

AILS和MAILS们,都在尝试绘制“AI素养”这片未知领域的地图。它们各有贡献:AILS画出了全景,MAILS标出了险滩。但没有一张地图是完美的——比例尺不同、投影方式不同、绘制者的视角不同,都会导致地图的局限。

作为使用者,我们的智慧在于:带着多张地图上路,根据具体地形选择参考哪张,并且永远记得——最终,你得用自己的脚去走那片土地。

量表能告诉你学生在哪个维度薄弱,但改进教学要靠你的专业判断;量表能识别出高分低能者,但如何帮助他们还得靠有针对性的指导。

理解量表的光芒,也正视量表的阴影——这才是对测量工具的尊重,也是对教育责任的担当。



留下评论