通话中发来的家庭照片：为什么落地更深

参考文献

Paivio A Abrams DA et al Yu et al Moscovitch M et al Huang et al

短信里的照片和通话中的照片不是同一件东西

您把一张照片发到妈妈的微信里。她看到，回一句「真好」，往下滑。这张照片没留下什么记忆，留下的是一次拇指划动。

现在想象同一张照片在通话当下出现在她手机上。她孙女（用她真实的克隆亲熟之声）正在问她姨妈 1985 年那场婚礼。婚礼照片在问出来的同时弹到屏幕上。两条通道（声音和图像）在同一个瞬间、围绕同一个引用同时撞上来。这跟一条短信不是同一类输入。这是编码。

为什么两条通道比一条强

Allan Paivio 的双码理论（1971-1986 的奠基工作）表明：记忆走两条相连的通道，语言和视觉。一个词激活语言痕迹；一张图激活视觉痕迹；同时呈现，两条通道交叉对照，建出一份更厚、更耐久的记忆。四十年的实验心理学在数十个领域里反复验证过这个模式。

对老年人，这件事更重要不是更不重要。随年龄的语言提取变迟缓时，视觉通道往往撑得更久；用语言提示 + 图像一起来，相当于给记忆两扇门可以走。事件性记忆（关于一个具体事件的，比如姨妈的婚礼）尤其受益于跨模态线索。

关键洞察

海马负责把不同模态绑在一起。声音和图像同时到达，海马把它们缝成记忆里的一个事件。多年后，单是那段声音就能拉回那张图，单是那张图也能拉回那段声音。这叫绑定效应。

声音 + 图像：远大于两者之和

斯坦福 Abrams 团队（PNAS 2016）用 fMRI 比较了孩子大脑对妈妈声音和陌生人声音的反应。亲人的声音激活了情绪区（杏仁核）、奖赏环路（伏隔核）、面孔识别区（梭状回面孔区）和默认模式网络。陌生人的声音哪个都没激活。

同样的选择性在老年人身上也成立。听到女儿的声音（或她的克隆亲熟之声）会点亮通用 AI 永远到不了的情感和奖赏环路。在那个被激活的状态下扔进一张相关的图，编码会叠加。同一张照片在冷冰冰的短信里，撞到的是一个低唤醒的大脑；同一张照片在通话中，撞到的是一个被它所爱的声音激活过的大脑。

这个机制比智能手机老：模拟在场疗法的临床先例

模拟在场疗法（SPT）的开始没有手机。最早的 SPT 协议（Woods & Ashley 1995）用的是卡带录音的家人声音。Kajiyama 2007 年的协议在电视屏幕上滚动家庭照片，同时播声音。到 2020 年，iPad 版的 SPT 协议（不列颠哥伦比亚大学 Lillian Hung 团队，NIH 试验 NCT04876911）已经在结合实时声音、照片和短视频。

三十年 SPT 研究的主线：多模态胜过单模态。声音 + 图像 + 上下文在激越、情绪、参与度上稳定地跑赢单声音。Familiar 的通话中实时照片是这条曲线上的下一步：实时的、随话题走的、不需要护士手动触发。

Familiar 的通话中照片实际怎么工作

代理人在监听触发词。当妈妈提到某个人、地方、歌、年份、节日或菜时，代理人识别出一张候选图。
第二记忆是第一道查询。家族上传的照片（婚礼、孩子长大、节日、她长大的房子）优先匹配；这些是亲密度最高、相关性最强的命中。
Google 图填补空白。如果她提到一首跳舞的歌、她第一辆车的牌子、她家乡那条主街：那就是 Google 图的查询，作为视觉引用发出。
几秒内到她的手机屏，在通话当下，不是之后。同一通电话、同一段对话。
不需要 app。照片以短信形式到达她正在用的同一部手机上。她瞥一眼屏幕，图就在那里。

什么样的图最落地

不是每张图在通话中都会落地。最落地的那些有几个共同特征：

真家庭照片胜过素材图。一张 1985 年婚礼的模糊抓拍，比一张 Getty 上精致的「婚礼」图落地得多。
人脸胜过风景。她爱过的人胜过她住过的地方。面孔在语言-视觉绑定之上还会点亮梭状回面孔区。
年代对得上胜过高清晰度。一张 1962 年她父亲在小馆门口的颗粒感老照片，比刚拍出来的 AI 渲染要好得多。纹理和颗粒感本身就是记忆线索。
一次一张图。一整面墙的照片让人 overwhelm；单张图落地。代理人按对话节奏调配发送，不是按图库节奏。

提示

代理人不会说「我给您发一张照片」。它直接发，然后顺手提到照片里能看到的某个细节。这份「自然出现」是温度的一部分：她瞥一眼手机，看到姨妈在婚礼上，对话就更深地走下去了，没有任何「现在打开 app」的技术摩擦。

中文家庭里特别管用的几类图

年轻时的工作单位合影。工厂、医院、学校、部队：那种戴红袖章站成一排的黑白照。她那一代的身份基底。
老房子和老厨房。她长大的院子、她结婚时住的筒子楼、她带孩子时的那张餐桌。一张图能把整个年代拉回来。
老电影海报和老明星。邓丽君、周璇、姚莉、革命样板戏的剧照：她青春期录入的视觉锚。
地图：故乡街景。老家那条街、当年的火车站、走过的桥：Google 街景的旧图层对回忆有特别强的拉力。
节日老照片。1980 年代的春节、她做的年夜饭、孙辈第一次包饺子：节日把时间锚定，照片把场景锚定。

常见问题

常见提问

通话中收到一条短信，会不会打断电话？

**智能手机上**，短信以静默横幅出现，**通话音频继续不中断**。**翻盖手机或老人机**屏幕显示有限时，照片以通话结束后的后续短信形式到达。**onboarding 时我们会自动检测设备类型并适配**。

如果她没有智能手机怎么办？

**通话本身在任何手机上都能用**（座机、翻盖、智能机都行）。**照片需要能显示图像的手机**；只用座机的接听者，**通话后的摘要会发给家庭照护者**，通话音频里也会用言语提示视觉锚（「记得我昨天发您看的那张照片吗」）。

照片会被存到哪里？

**家人上传的照片**进入家族的**第二记忆**（加密、仅限家庭圈访问）。**从 Google 调取的图不会被存**：实时调出、用完释放。**家庭照护者可以在通话后的摘要里看到这次通话用了哪些图**。

我可以禁止某些照片被用吗？

**可以**。第二记忆里每张照片都有可见性控制。**家庭照护者可以把敏感照片**（比如刚去世的配偶在哀伤初期）**标记为禁用，或者限定只在特定通话类型出现**。

参考来源

今天就开始用 Familiar。

用亲人的亲熟之声做与回忆 AI 的每日通话 · 基于 42 项回忆疗法试验 · 第二记忆：发短信存任何东西，回短信找任何东西。

免费开始使用听听亲熟之声

AES-256 端到端加密永久免费，给每个家庭最准确的语音技术

为什么通话当下收到的照片比短信里的照片更落地

短信里的照片和通话中的照片不是同一件东西

为什么两条通道比一条强

声音 + 图像：远大于两者之和

这个机制比智能手机老：模拟在场疗法的临床先例

Familiar 的通话中照片实际怎么工作

什么样的图最落地

中文家庭里特别管用的几类图

常见提问

今天就开始用 Familiar。

相关阅读

史上最精准的声音技术

Dona

An Zhu

Wendy