《传媒观察》| “大数据、大模型、大计算”:舆情精准研判中的ChatGPT
2024-03-28 11:14:04

编者按 随着ChatGPT的风靡,ChatGPT类大语言模型在实际应用中的效用也引起广泛关注。丁晓蔚教授和研究员赵鑫、刘梓航、刘天昊在《传媒观察》2024年第3期刊文,探讨ChatGPT类大语言模型(以下简称ChatGPT)在舆情精准研判场景中的基础理论和实证应用。研究提出“大数据、大模型、大计算”全新范式驱动的舆情精准研判,并深入剖析了ChatGPT的工作原理。在对ChatGPT的特点和舆情精准研判的要义进行厘定的基础上,研究对舆情研判中人工智能(AI)的应用现状加以分析。随后,研究从学理方面探析了如何利用大语言模型进行复杂舆情的精准研判以及ChatGPT在舆情精准研判中的实际应用,分析其在文本分析、情绪识别、舆情预测和预警中扮演的角色。

作为大语言模型先进技术的ChatGPT自2022年11月面世以来,在各相关领域得到了广泛应用,并已彰显出其超强功能。舆情精准研判,在现实中极端重要,而又难度日甚。在此领域中,ChatGPT也有着广阔应用空间和良好发展前景

舆情研判中此前AI的应用和近期ChatGPT的介入

舆情精准研判中存在着不少难点,面临着许多挑战;前代AI技术在舆情研判中已经有所应用,也已获得相应进展,但并未达到理想境界。近期ChatGPT的介入,使情况发生了一定程度的改观。

(一)舆情研判面临的挑战

当下,由于种种原因,舆情的复杂程度明显加大。原因包括:随着改革的深化,社会成员的利益关系趋于复杂;自媒体广泛参与新闻传播、舆论传播,并打破了原有的新闻传播格局和社会舆论格局,与此相联系,舆情呈现出许多异于以往之处;国内、国外的舆情交叉感染,使舆情较之未受国外舆论影响时的情况复杂得多;舆情中的公众情绪一旦迸发就特别容易相互传染,并在很短时间内形成排山倒海之势;百年未有之大变局,则更是直接增加了舆情研判的难度……在此情势下,舆情研判面临严峻挑战。

(二)以往AI技术在舆情研判中已有的应用

由于网络舆情数据存在着海量状、多维度、庞杂化、不规则等特点,对网络舆情数据的正确把握和深度挖掘一直是这一领域中的瓶颈之一。随着大数据技术的兴起,拥有全源网络数据已经成为现实(已不再囿于小规模数据和局部数据),舆情研判客观上获得了优于以往的条件。而最近若干年来,“人工智能技术的兴起与实用化,为人们借助于人工智能实现网络舆情分析的自动化、智能化、精准化提供了新的手段和路径。为此,一些研究者也做出有益的探索,如使用小波分析分解舆论发展过程,再利用人工神经网络进行建模预测舆论走向;使用神经网络仿真模拟舆论发展过程;使用灰度预测和模式识别预测舆论走势等。”作为与AI密切相关的数学工具,小波分析可用于精准分析信号在不同频率范围内的成分,从而使舆情精准研判受惠得益。基于人工神经网络进行的建模,本身就融合了AI的精华,可用于预测舆论走势。灰度预测和模式识别被经常性地用来预测舆论舆情发展趋势。以上所述,体现了AI技术在舆情研判中的实际应用。而ChatGPT则将舆情研判推向了发展的新阶段。

(三)近期ChatGPT对舆情精准研判的介入

ChatGPT的介入,给舆情研判带来了新的生机和活力,使舆情研判更加精准,前景可期。

1.语言理解和内容生成能力之于舆情精准研判

ChatGPT是AI技术发展的里程碑。AI发展中前一个里程碑当是战胜世界围棋冠军李世石的阿尔法狗。作为一款AI产品,阿尔法狗的专长是与人进行智力和思维的博弈,预测对手下一步和下面几步棋将怎么走,通过高算最终在比赛中胜出。但阿尔法狗与李世石之间没有通过人类语言进行交流,前者也并不生成内容,因此它即使再高明,也不可能被用于进行舆情研判(当然AlphaGo背后的深度强化学习技术本身可能在某些场景中被应用于舆情研判甚至舆情干预)。而ChatGPT则不同。它介入人类生活,是采用基于人类的思维和语言生成内容的方式介入的,用人类的思维与语言和人进行交流沟通,提供使用者所需要的结果。它所具备的而阿尔法狗欠缺的功能是直接生成内容。生成内容的前提是了解内容,理解内容的构成机理、构成法则;结果是生成的内容为使用者所需且能被认可和接受。而这正是进行舆情研判所需要的。以上就显现出了ChatGPT与阿尔法狗及其他AI之间的区别。与它们相比,ChatGPT有其优胜之处。

具体到舆情精准研判上,ChatGPT是能够理解网民通过语言(包括某些转弯抹角的语言)和符号(具有特定含义的符号)所表达的舆情的。在这一点上,它与前代AI有所不同。原因是几乎无所不包的预训练语料库中有足够丰富的相应语料,且进行过标准和要求颇高的预训练。前代AI可以粗略地对语义进行分类、归并、梳理,但是未必能深刻理解网民情绪等要素所具备的丰富的舆情内涵。而ChatGPT能比较深刻地理解网民情绪等所具备的舆情内涵。它不仅知道针对特定人物、事件的负面情绪可以粗分为愤怒、恐惧、悲伤、不满等并统计出各自占比,而且能凭对人的了解,细析每一种情绪更加具体的内涵,探究其起落的因由等。因此,ChatGPT较之一般的AI更具备参与舆情精准研判的可能性。ChatGPT是各类AI中离舆情研判最接近的AI。

2.文本分析和情绪识别在舆情精准研判中的应用

这是ChatGPT的强项。舆情研判主要是针对网络舆情进行研判。“网络舆情的分析研判需要借助数据挖掘、系统仿真等技术对相关舆情信息进行情感倾向的分析和提取,对于带有感情倾向的信息进行归纳和分类。”对于使用者输入的语言和文本(往往是所提出的问题),ChatGPT能按其要求进行内容分析和语义分析,作出自己的解读,并在很短的时间内完成这样的工作,为使用者提交答案。在舆论研究方面,ChatGPT技术可以发挥重要的作用:提高情感分析的准确性和效率。相比传统的情感分析方法,ChatGPT能够更准确地识别和分析不同文本中的情感表达。

它之所以能如此,与算法在其中所发挥的作用不无关系。ChatGPT是一种基于Transformer模型的语言模型。在建模中使用了算法,实现了高算。结果是:建成了能包含人类语言信息的功能强大的语言模型,乃至其本身可以生成内容,又可以对使用者输给它的内容进行分析处理(模型深度理解和深入分析了输给它的文本或语言,经运行而提供相应产品)。模型既然已经能与人以假乱真地对话,也就是掌握了人类语言的规律,自然可以在分析处理场景中用于文本分析和情绪识别。

在利用ChatGPT进行舆情检测、分析、研判的过程中,需要对经广泛搜集而得的、被用来进行训练的数据进行相应的工作:一是归纳、提取其特征,这项工作将直接影响最后的结果。如果归纳不合理、不科学,那么,模型提供的分析结果就不可能合理和科学;如果提取的特征不准确、不全面,那么,模型提供的分析结果就不可能准确和全面。二是对数据进行预处理,目的是让模型能在正确理解文本的基础上分析文本。分析文本须区分言语的词性、词义、词的感情色彩、词所表达的程度等级等。有时,语气词对于表达意思、表达情感也是很有讲究的,对此也应一并予以关注和考虑。

从事舆情研判的人士,在利用ChatGPT进行舆情检测、分析、研判时,需要事先掌握一定的舆情信息(网络是舆情信息的集散地,因此须主要掌握网络舆情信息)。在将问题输入ChatGPT时,须对ChatGPT提出明确的要求(让它知道需要它做什么、做到什么程度);对可能发生偏差和错误之处,要对ChatGPT事先作出提示。为了便于ChatGPT进行提示学习和上下文学习,也便于对之进行微调训练,有必要对输入的数据进行相应的标注。在对数据进行标注时,应注意到对体现情绪内涵的语词进行标注,对其程度等级进行标注,以便于后续正确地进行相应处理。

“在实际应用中,ChatGPT已经被广泛应用于文本分类和情感分析等任务。例如,在电商平台中,可以使用ChatGPT对用户的评论进行情感分析,从而了解用户的购物体验和满意度。在社交媒体中,可以使用ChatGPT对用户的言论进行情感分析,从而了解用户的情感倾向和态度。”使用ChatGPT对用户的言论进行情感分析,正好就是舆情研判中公众情绪分析的重要抓手。

3.在舆情预测和预警中所能发挥的作用

对于网络舆情预测方法,有研究者专门进行过探索。一项名为《网络舆情预测方法及系统》的专利,公开提出了一种网络舆情预测方法及系统。方法包括:对网络舆情信息进行预处理,获取进行预测所需的时间序列;根据经预处理获得的所述时间序列,建立相应的预测模型;基于所述的预测模型预测网络舆情的发展趋势。这说明:对网络舆情进行预测和在此基础上进行舆情风险预警,是具有可行性的。

ChatGPT在舆情预测和预警方面,则更进了一步。它具有“上知天文、下知地理”之所长(在这方面优于前代AI技术)。在ChatGPT的预训练语料库中,有海量的历史数据的积累(靠人力和人工很难做到),再加上对概率论、统计学等技术的运用,因此ChatGPT如使用得当可比前代AI技术更精准地预测未来。但是仅仅依靠历史数据推断未来,是远远不够的。在使用ChatGPT的同时,还需要舆情研判者融入有见地、有经验的专家睿智、洞见,把人类智慧和机器智能紧密结合起来。

可在预训练时有意识地让ChatGPT朝预测舆情发展方面进行努力。在具体操作时,“需要将训练数据输入到ChatGPT模型中,进行模型参数的更新和优化。在预测过程中,可以将待分类或待分析的文本输入到ChatGPT模型中,得到对应的分类标签或情感极性”。进行的努力包括:不失时机地更新和优化模型参数(而不是反应迟钝、动作迟缓,疏于更新和优化模型参数);确保待分类或待分析的文本的真实性和分类及分析的准确性;对所得的分类标签或情感极性进行谨慎的审核,以达到应有的可靠性。

ChatGPT在舆情精准研判中的问题和局限性

(一)ChatGPT存在的数据偏见问题

从本质上讲,ChatGPT使用的数据是研发者输入的,或者说是由研发者搜集、筛选、确认、并发出指令后输入模型的。输入的数据本身存在着一些偏见。例如,在价值观问题上的偏见(包含的是研发者所认可的价值观的语料,摒斥了其不认同的价值观的语料),在种族问题上的偏见(狭义的ChatGPT产品本身秉持西方主流社会的种族观,相信我国的类ChatGPT产品肯定会注意这个问题)、在性别问题上的偏见(明里暗里贬低女性,体现了性别歧视)、在地域问题上的偏见(存在着地域优越感),等等。ChatGPT的数据偏见,其实是其研发者的数据偏见的一种折射。在使用ChatGPT进行舆情研判时,需要谨慎防止数据偏见所发生的作用和产生的影响。

此外,还要注意防止新出现的问题。有研究者指出:新一代人工智能使数字技术与现实世界的结合更加深入,ChatGPT的去中心化属性不断突破民族国家的传统政治属性,为人类展示出在虚拟空间内拓展话语空间、抢夺话语权的可能,数字技术正在建构技术主义的意识形态话语模式,促使国家间竞争不仅是硬件支撑、算力算法等技术层面的信息博弈,更是智能技术创新背后网络文化、思想和价值的较量。对以上问题应保持高度关注,并有所警觉。

(二)ChatGPT语言模型的理解力和应对力问题

ChatGPT语言模型在理解力和应对力方面存在一定局限性。在接触到或被问及语料库中没有包含的语料方面的问题,或者是预训练和微调时没有涉及的问题,ChatGPT就会不露声色地“一本正经说胡话”(且并不易识别和判断)。据此进行舆情研判,就会谬以千里。

另外,ChatGPT对人类复杂语言的理解难免出现偏颇。人类语言中有许多微妙之处:外观是褒、其实是贬的语言现象不在少数,双关、多义、隐喻、反讽等模糊表意、隐晦表意、反向表意的情况经常出现;加之人与人之间的恩怨情仇也常会通过具有特定内涵的语言得到或隐或显的表达。这些情况在舆情层面大量存在。所有这些,都给ChatGPT理解人类语言中的特殊含义带来了困难和障碍。

(三)其他可能的挑战和限制

ChatGPT还会带来其他挑战,存在另一些局限性。有研究者指出:“ChatGPT人工智能技术在与受众信息交互中通过信息转化的方式成功将舆情重构,引起受众间的认知对立与价值冲突,造成网络舆情安全风险多样态。”由于ChatGPT的介入,原本就不平静的社会舆情,因舆情被重构、受众间的认知对立与价值冲突被激发,客观上形成了舆情方面新的难题,成为对舆情精准研判的严峻挑战。

另一不可忽视的现象是:像ChatGPT这样的聊天机器人,它们的概率设计意味着不能保证相同的提示总是产生相同的输出。也就是说,ChatGPT面对同一使用者的相同提问,很可能给出不同的答案和结果。撇开生成的内容中在价值观、种族观等方面存在的偏差,ChatGPT在回答问题的可靠性方面,也并没有达到可以寄予厚望和完全可以信赖的程度。

作为一项新兴AI技术,ChatGPT给舆情精准研判带来了利好。恰当地应用这项技术,可以使舆情研判更加精准。但毋庸讳言,ChatGPT本身存在一定的弊端,在舆情研判中对它不能过度依赖。

从目前情况来看,在舆情研判中审慎使用ChatGPT,应避免其弊端,发挥其优长。从长远考虑,我国需要加强自主开发ChatGPT类大语言模型的技术,使用体现主流价值观的语料和语料库,按维护意识形态安全的需要,进行预训练和模型建构,将“大数据、大模型、大计算”全新范式应用于舆情研判,以不断提升舆情研判的精准度。本文为系列论文的开篇之作,后续将进一步探索大模型类先进AI技术和“大数据、大模型、大计算”全新范式在舆情干预、舆论引导、媒介化治理中的重要地位、价值和作用(即从舆情监测预判预警升级到决策应对处置)。

(载《传媒观察》2024年第3期,原文约25000字,标题为《舆情精准研判中的ChatGPT:“大数据、大模型、大计算”范式驱动的理论与应用探索》,此为部分章节节选,图表和注释等从略,学术引用请参考原文。)

【作者简介】丁晓蔚(通讯作者),南京大学信息管理学院教授、博士生导师,南京大学普惠三农金融科技创新研究中心负责人,江苏紫金传媒智库研究员

赵鑫,上海浦东微热点大数据研究院计算传播实验室主任研究员

刘梓航、刘天昊,南京大学普惠三农金融科技创新研究中心助理研究员

特别声明:本文为扬子晚报新媒体平台“紫牛号”作者上传并发布,仅代表该作者个人或机构观点,与紫牛号立场或观点无关。紫牛号仅提供信息发布平台。如因文章内容、版权等问题,请联系扬子晚报法务部。

| 微矩阵

地址:南京市建邺区江东中路369号新华报业传媒广场 邮编:210092 联系我们:025-96096(24小时)

 

互联网新闻信息服务许可证32120170004 视听节目许可证1008318号 广播电视节目制作经营许可证苏字第394号

版权所有 江苏扬子晚报有限公司

 苏ICP备13020714号 | 电信增值业务经营许可证 苏B2-20140001