AI4L:用AI审计长寿研究,抵制信息混乱与幻觉

AI4L是一个开源系统,旨在利用AI模型生成高质量、基于证据的长寿干预措施综述。它采用「审计驱动提示」工作流,通过独立的AI审计代理验证每个主张和引用,以避免幻觉和虚假信息,从而解决了长寿科学领域信息过载和证据验证的挑战。

开源系统利用对抗性AI工作流和实时引文验证,以应对日益复杂的长寿证据。

Forever Healthy 公司发布了 AI4L——「AI for Practical Longevity」(人工智能实用长寿)的缩写——这是一个开源框架,旨在利用前沿人工智能模型生成基于证据的健康和长寿干预措施综述。该系统并非充当传统的聊天机器人或摘要引擎,而是试图解决长寿科学和人工智能辅助健康传播中一个更持久的问题:如何在不陷入幻觉、虚构引用或机械假设的情况下,生成可扩展的证据综合。

该项目根据麻省理工学院许可(MIT license)发布,可通过 GitHub 获取。它采用了 Forever Healthy 所称的「审计驱动提示」(Audit-Driven Prompting)——一种工作流程,其中一个人工智能代理生成综述,而一个独立的审计代理则根据实时外部来源验证每一个主张、引用和网址。综述会反复修订和重新审计,直到通过涵盖结构、证据质量、完整性和引用准确性等390多个点的质量保证框架。在架构上,该系统轻巧且与模型无关,这意味着它可以在标准网络界面(如 Claude Desktop)中作为单个提示运行以进行快速测试,也可以通过命令行界面(CLI)部署,用于自动化、可重复的企业工作流程。

尽管「对抗性」(adversarial)一词抓住了该架构严谨的精神,但技术现实与其说是竞争模型之间的辩论,不如说是一个严格的、系统性的隔离过程。该工作流程作为迭代的自我纠正循环运行。为了消除上下文偏差(即人工智能同意其先前逻辑的倾向),AI4L 强制执行严格的角色分离。一个代理创建综述,而一个完全独立、历史隔离的代理则充当审计员。

这位审计员不仅批评文字;他还会主动获取实时网址,提取元数据,并根据原始真实来源验证引文。综述在创建、审计和纠正之间循环,直到它在所有质量保证标准上达到零容忍的100%通过率。这种设计旨在防止通常困扰复杂机器摘要的自我证实式幻觉。

Longevity.Technology 评论:长寿科学正在爆发;证据散布在各地,这个领域正日益成为一个信息管理问题,而非生物学问题。从抗衰老药物(senolytics)和 NAD+ 修复,到多肽、mTOR 调节,以及日益复杂的生物标志物科学,已发表数据的数量(其中许多是初步的、相互矛盾的,或分散在不同期刊和预印本服务器中)现在移动的速度已经超过了传统证据审查过程能够轻松处理的范围。正是在这种背景下,Forever Healthy 的 AI4L 项目变得真正有趣;不是因为它承诺某个宏大的「AI解决衰老」叙事,而是因为它默认承认了衰老科学(geroscience)面临的一个更为紧迫的挑战——即仅靠人类对文献进行综合已不再具有可扩展性。如果长寿医学要发展成为一门成熟的预防性学科,而不是由假说、诊所和高度在线的生物黑客松散组成的集合,那么支撑证据组织、验证和持续更新的基础设施可能与下一个治疗突破同样重要。

AI4L 之所以比现在随处可见的人工智能生成健康摘要更具可信度,原因在于其重点似乎更少放在生成上,更多放在「审问」上。实际上,这与其说是「AI撰写文章」,不如说是「AI经历反复的同行评审式审查,直到通过审计」;这在一个虚构引用和机械过度解读几乎成为机器撰写科学传播例行特征的领域中,是一个微妙但重要的区别。尤其值得注意的是,该项目明确承认其局限性以及对实时引文验证的要求——这是一个令人耳目一新的非浪漫主义让步,即合理性与准确性并非一回事。当然,经过验证的引用并不能神奇地解决长寿生物学本身的更深层次不确定性……生物学瓶颈——尤其是小鼠数据向人类转化的顽固问题——仍然完全存在。尽管如此,在一个日益广阔且商业噪音不断的信息环境中,结构化的验证工作流程至关重要。它们比另一个自信地解释为什么某种补充剂能延长线虫寿命的聊天机器人无限有用。

一个规模化问题

Forever Healthy 表示,该系统源于一个实际的瓶颈。该组织此前曾使用人工研究团队制作详细的干预措施综述;然而,根据项目文档,每份报告需要两名研究人员两个多月的工作量。对于少数几种化合物或疗法来说,这或许可以管理,但当长寿生态系统现在涵盖从雷帕霉素类似物(rapalogs)和血浆稀释到糖链生物标志物,多肽疗法和线粒体干预等所有内容时,管理起来就困难得多。

挑战不仅仅是科学体量;它是不均一性。长寿证据分散在同行评审期刊、预印本、会议演示、医生协议、患者社区和专业博客中——通常伴随着相互冲突的解释和不均匀的质量控制。区分一个引人注目的机制假设与一个临床可操作的干预措施很少是直截了当的。即使对于专家来说,跟上进度也变得困难。

人工智能系统表面上似乎非常适合这种环境,因为它们可以快速摄取和综合大量信息。然而,与健康相关的人工智能输出仍然受到常见问题的困扰——虚构的参考文献、不稳定的结论,以及一种令人不安的倾向,即无论是讨论随机临床试验还是推测性的 Reddit 民间传说,听起来都同样权威。AI4L 的架构本质上就是试图对这种混乱施加流程纪律。

审计优先,生成其次

AI4L 的不寻常之处在于,其核心提示并未直接指示模型「撰写综述」。相反,该提示描述了一个广泛的质量保证审计过程——实际上是提供给严谨的人类评审员的规范。然后,模型被要求生成一份能够通过该审计的文档。

从那里开始,工作流程循环经历创建、审计和纠正。重要的是,Forever Healthy 表示,创建者和审计者代理相互隔离,以减少上下文偏差和自我证实的幻觉。审计者需要获取网址、检索元数据并根据实时来源验证引文,而不是仅仅依赖模型记忆。

在某些方面,这是一个隐藏在现代人工智能工具内部的相当老旧的想法:信任,但要验证。反复验证。

超越聊天机器人时代

这里更广泛的价值并非真正的消费聊天机器人——它是关于为人工智能辅助科学构建基础设施。长寿研究是杂乱无章的,处于肿瘤学、代谢、免疫学和预防医学的混乱交汇点。再加上强烈的商业炒作,噪音变得震耳欲聋。

这种对算法纪律的推崇与我们利用自己的 DLT(Decoding Longevity Trends)平台在商业上所做的方向一致。DLT 致力于将混乱的市场、临床资产和投资数据转化为机构参与者可查询的结构化情报服务,而 AI4L 则正在为消费者端干预措施的开源评估尝试类似的壮举。这两个项目都建立在相同的认识上:通用大型语言模型(LLMs)对于衰老科学来说过于松散。要获得可操作的智能,必须通过专门的验证层来约束机器。

要应对这种情况,需要比标准搜索栏更具纪律性的方法。清洁、可复现且优先考虑透明溯源的基础设施对于临床医生和研究人员都变得至关重要。或许悄然地,长寿领域正在开始发现,问题不再仅仅是产生更多的知识;而是决定哪些知识值得经受住审查的考验。

📎 来源:Longevity Technology

分享这篇前沿资讯:

Facebook
Twitter

Still hungry? Here’s more