向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
诺奖问答| 2022 年诺贝尔化学奖授予点击化学和生物正交化学,有哪些信息值得关注?******
相比起今年诺贝尔生理学或医学奖、物理学奖的高冷,今年诺贝尔化学奖其实是相当接地气了。
你或身边人正在用的某些药物,很有可能就来自他们的贡献。
2022 年诺贝尔化学奖因「点击化学和生物正交化学」而共同授予美国化学家卡罗琳·贝尔托西、丹麦化学家莫滕·梅尔达、美国化学家巴里·夏普莱斯(第5位两次获得诺贝尔奖的科学家)。
一、夏普莱斯:两次获得诺贝尔化学奖
2001年,巴里·夏普莱斯因为「手性催化氧化反应[1] [2] [3]」获得诺贝尔化学奖,对药物合成(以及香料等领域)做出了巨大贡献。
今年,他第二次获奖的「点击化学」,同样与药物合成有关。
1998年,已经是手性催化领军人物的夏普莱斯,发现了传统生物药物合成的一个弊端。
过去200年,人们主要在自然界植物、动物,以及微生物中能寻找能发挥药物作用的成分,然后尽可能地人工构建相同分子,以用作药物。
虽然相关药物的工业化,让现代医学取得了巨大的成功。然而随着所需分子越来越复杂,人工构建的难度也在指数级地上升。
虽然有的化学家,的确能够在实验室构造出令人惊叹的分子,但要实现工业化几乎不可能。
有机催化是一个复杂的过程,涉及到诸多的步骤。
任何一个步骤都可能产生或多或少的副产品。在实验过程中,必须不断耗费成本去去除这些副产品。
不仅成本高,这还是一个极其费时的过程,甚至最后可能还得不到理想的产物。
为了解决这些问题,夏普莱斯凭借过人智慧,提出了「点击化学(Click chemistry)」的概念[4]。
点击化学的确定也并非一蹴而就的,经过三年的沉淀,到了2001年,获得诺奖的这一年,夏普莱斯团队才完善了「点击化学」。
点击化学又被称为“链接化学”,实质上是通过链接各种小分子,来合成复杂的大分子。
夏普莱斯之所以有这样的构想,其实也是来自大自然的启发。
大自然就像一个有着神奇能力的化学家,它通过少数的单体小构件,合成丰富多样的复杂化合物。
大自然创造分子的多样性是远远超过人类的,她总是会用一些精巧的催化剂,利用复杂的反应完成合成过程,人类的技术比起来,实在是太粗糙简单了。
大自然的一些催化过程,人类几乎是不可能完成的。
一些药物研发,到了最后却破产了,恰恰是卡在了大自然设下的巨大陷阱中。
夏普莱斯不禁在想,既然大自然创造的难度,人类无法逾越,为什么不还给大自然,我们跳过这个步骤呢?
大自然有的是不需要从头构建C-C键,以及不需要重组起始材料和中间体。
在对大型化合物做加法时,这些C-C键的构建可能十分困难。但直接用大自然现有的,找到一个办法把它们拼接起来,同样可以构建复杂的化合物。
其实这种方法,就像搭积木或搭乐高一样,先组装好固定的模块(甚至点击化学可能不需要自己组装模块,直接用大自然现成的),然后再想一个方法把模块拼接起来。
诺贝尔平台给三位化学家的配图,可谓是形象生动[5] [6]:
夏普莱斯从碳-杂原子键上获得启发,构想出了碳-杂原子键(C-X-C)为基础的合成方法。
他的最终目标,是开发一套能不断扩展的模块,这些模块具有高选择性,在小型和大型应用中都能稳定可靠地工作。
「点击化学」的工作,建立在严格的实验标准上:
反应必须是模块化,应用范围广泛
具有非常高的产量
仅生成无害的副产品
反应有很强的立体选择性
反应条件简单(理想情况下,应该对氧气和水不敏感)
原料和试剂易于获得
不使用溶剂或在良性溶剂中进行(最好是水),且容易移除
可简单分离,或者使用结晶或蒸馏等非色谱方法,且产物在生理条件下稳定
反应需高热力学驱动力(>84kJ/mol)
符合原子经济
夏尔普莱斯总结归纳了大量碳-杂原子,并在2002年的一篇论文[7]中指出,叠氮化物和炔烃之间的铜催化反应是能在水中进行的可靠反应,化学家可以利用这个反应,轻松地连接不同的分子。
他认为这个反应的潜力是巨大的,可在医药领域发挥巨大作用。
二、梅尔达尔:筛选可用药物
夏尔普莱斯的直觉是多么地敏锐,在他发表这篇论文的这一年,另外一位化学家在这方面有了关键性的发现。
他就是莫滕·梅尔达尔。
梅尔达尔在叠氮化物和炔烃反应的研究发现之前,其实与“点击化学”并没有直接的联系。他反而是一个在“传统”药物研发上,走得很深的一位科学家。
为了寻找潜在药物及相关方法,他构建了巨大的分子库,囊括了数十万种不同的化合物。
他日积月累地不断筛选,意图筛选出可用的药物。
在一次利用铜离子催化炔与酰基卤化物反应时,发生了意外,炔与酰基卤化物分子的错误端(叠氮)发生了反应,成了一个环状结构——三唑。
三唑是各类药品、染料,以及农业化学品关键成分的化学构件。过去的研发,生产三唑的过程中,总是会产生大量的副产品。而这个意外过程,在铜离子的控制下,竟然没有副产品产生。
2002年,梅尔达尔发表了相关论文。
夏尔普莱斯和梅尔达尔也正式在“点击化学”领域交汇,并促使铜催化的叠氮-炔基Husigen环加成反应(Copper-Catalyzed Azide–Alkyne Cycloaddition),成为了医药生物领域应用最为广泛的点击化学反应。
三、贝尔托齐西:把点击化学运用在人体内
不过,把点击化学进一步升华的却是美国科学家——卡罗琳·贝尔托西。
虽然诺奖三人平分,但不难发现,卡罗琳·贝尔托西排在首位,在“点击化学”构图中,她也在C位。
诺贝尔化学奖颁奖时,也提到,她把点击化学带到了一个新的维度。
她解决了一个十分关键的问题,把“点击化学”运用到人体之内,这个运用也完全超出创始人夏尔普莱斯意料之外的。
这便是所谓的生物正交反应,即活细胞化学修饰,在生物体内不干扰自身生化反应而进行的化学反应。
卡罗琳·贝尔托西打开生物正交反应这扇大门,其实最开始也和“点击化学”无关。
20世纪90年代,随着分子生物学的爆发式发展,基因和蛋白质地图的绘制正在全球范围内如火如荼地进行。
然而位于蛋白质和细胞表面,发挥着重要作用的聚糖,在当时却没有工具用来分析。
当时,卡罗琳·贝尔托西意图绘制一种能将免疫细胞吸引到淋巴结的聚糖图谱,但仅仅为了掌握多聚糖的功能就用了整整四年的时间。
后来,受到一位德国科学家的启发,她打算在聚糖上面添加可识别的化学手柄来识别它们的结构。
由于要在人体中反应且不影响人体,所以这种手柄必须对所有的东西都不敏感,不与细胞内的任何其他物质发生反应。
经过翻阅大量文献,卡罗琳·贝尔托西最终找到了最佳的化学手柄。
巧合是,这个最佳化学手柄,正是一种叠氮化物,点击化学的灵魂。通过叠氮化物把荧光物质与细胞聚糖结合起来,便可以很好地分析聚糖的结构。
虽然贝尔托西的研究成果已经是划时代的,但她依旧不满意,因为叠氮化物的反应速度很不够理想。
就在这时,她注意到了巴里·夏普莱斯和莫滕·梅尔达尔的点击化学反应。
她发现铜离子可以加快荧光物质的结合速度,但铜离子对生物体却有很大毒性,她必须想到一个没有铜离子参与,还能加快反应速度的方式。
大量翻阅文献后,贝尔托西惊讶地发现,早在1961年,就有研究发现当炔被强迫形成一个环状化学结构后,与叠氮化物便会以爆炸式地进行反应。
2004年,她正式确立无铜点击化学反应(又被称为应变促进叠氮-炔化物环加成),由此成为点击化学的重大里程碑事件。
贝尔托西不仅绘制了相应的细胞聚糖图谱,更是运用到了肿瘤领域。
在肿瘤的表面会形成聚糖,从而可以保护肿瘤不受免疫系统的伤害。贝尔托西团队利用生物正交反应,发明了一种专门针对肿瘤聚糖的药物。这种药物进入人体后,会靶向破坏肿瘤聚糖,从而激活人体免疫保护。
目前该药物正在晚期癌症病人身上进行临床试验。
不难发现,虽然「点击化学」和「生物正交化学」的翻译,看起来很晦涩难懂,但其实背后是很朴素的原理。一个是如同卡扣般的拼接,一个是可以直接在人体内的运用。
「 点击化学」和「生物正交化学」都还是一个很年轻的领域,或许对人类未来还有更加深远的影响。(宋云江)
参考
https://www.nobelprize.org/prizes/chemistry/2001/press-release/
Pfenninger, A. Asymmetric Epoxidation of Allylic Alcohols: The Sharpless Epoxidation[J]. Synthesis, 1986, 1986(02):89-116.
Rao A S . Addition Reactions with Formation of Carbon–Oxygen Bonds: (i) General Methods of Epoxidation - ScienceDirect[J]. Comprehensive Organic Synthesis, 1991, 7:357-387.
Kolb HC, Finn MG, Sharpless KB. Click Chemistry: Diverse Chemical Function from a Few Good Reactions. Angew Chem Int Ed Engl. 2001 Jun 1;40(11):2004-2021.
https://www.nobelprize.org/uploads/2022/10/popular-chemistryprize2022.pdf
https://www.nobelprize.org/uploads/2022/10/advanced-chemistryprize2022.pdf
Demko ZP, Sharpless KB. A click chemistry approach to tetrazoles by Huisgen 1,3-dipolar cycloaddition: synthesis of 5-acyltetrazoles from azides and acyl cyanides. Angew Chem Int Ed Engl. 2002 Jun 17;41(12):2113-6. PMID: 19746613.
(文图:赵筱尘 巫邓炎)