新的数据收集、储存、分析工具的出现|大数据推动认识论新发展( 二 )

】传统科学知识被逻辑经验主义解释为：得到部分诠释的逻辑公理系统——知识的可靠性被逻辑形式上的可靠性所支撑。科学理论语义观者将科学解释为：与世界同构的模型集——知识的可靠性被模型与表征的可靠性所支撑。在传统认识论中，认识主体对数据的认识是次要的，对数据本体与认识的讨论往往是“细枝末节” 。但随着自动化工具越发应用于对复杂数据的处理，是否应把机器当作新认识论的主体成为研究重点。萨普斯（PatrickSuppes）将统计方法引入哲学研究中，试图用概率与逻辑为数据推论的准确性进行辩护。随后，以统计为切入点（主要表现为相关性概念的引入），成为为大数据推理产生知识的合理性进行辩护的主要方式。范·弗拉森（BasC.vanFraassen）也认同总结数据频率以建立数据模型的做法。基于此，可以得出一个结论：数据处理工具越好，从数据中提取的知识就越可靠。但这与对知识的一般性认识发生了冲突——知识不是以好坏而是用真假来评判的（如“知识是得到辩护的真信念”这一传统观点）。因此，将实践上的好坏作为大数据科学中知识可靠性的判断标准，往往是一种不明智的选择。
有研究者认为，数据是一种具有本体实在支撑的客观存在，从数据中获得知识具有客观基础。大数据科学中知识的积累是通过如下方式进行的：通过可靠的方法收集数据，由此产生大量可供分析的“数据型”事实，这些事实与其他数据具有某种意义上的相关性，可以通过深入挖掘这种相关性以获得更多知识。不过，许多研究者意识到，数据具有多种解释方式，如何区分正确与不正确的解释，在一定程度上决定了由此产生知识的真假，而这种区分往往是规范意义与实用意义上的。因此，一种基于数据解释的认识论研究开始进入哲学的视野——将数据作为认识论研究的核心内容，对有关科学知识的传统哲学观点提出了重大挑战。

文章图片
应对可解释性问题
计算技术、建模工具和统计方法的应用，给我们带来了巨大的便利。但与此同时，大数据成为一个巨大的“混杂奖池” ，能得到什么“奖品” ，往往需要凭借工具的优劣（比如，监督学习、模型拟合、深度神经网络和搜索技术的应用，使数据分析技术成为“抽奖”的重要工具）。弗丽嘉（RomanFrigg）与赖斯（JulianReiss）认为，计算科学中的模拟方法没有产生新的形而上学、认识论、语义学和方法论，也没有提出任何新的哲学问题。与模拟有关的哲学问题并非特定于模拟领域，而是大多为之前在其他语境中讨论过的问题及其变体。因此，他们主张，计算机模拟没有带来认识论上的新问题。汉弗莱斯（PaulHumphreys）反对这一观点，他认为，计算科学“没有为科学引入任何实质性的新东西”的观点，实际上忽视了实践可能与原则可能的区别。
纵观大数据科学研究的整个过程，有两个地方是较为模糊的。一方面，人类的认知能力存在局限性，对机器与数据的完全理解是无法实现的。另一方面，机器介入认识过程后，认识主客体不再具有明显界限。这引发了一个无法回避的知识产生过程的不透明性问题，即机器知识的可解释性问题。为分析大数据而开发的数学和计算工具，对于认识主体而言通常是不透明的。那么，由此产生结果的可信度应如何评估？看似牢固的科学大厦如何建立在“摇摇晃晃”的数据知识之上？因此，知识的可解释性问题亟待解决。尤其在人工智能领域看似一片繁荣的景象中，真正意义上的智能进步却尚未出现，而人工意识领域的前景也是模糊的。这意味着，对数据与智能的哲学认识，尤其是对数据的认识论研究，需要走在相关科学研究的前面。