指南

为什么通话当下收到的照片比短信里的照片更落地

您把同一张妈妈结婚照发到她微信里,她滑过去。同一张照片在通话当下、孙女**亲熟之声**正在问起那天时弹到她手机上,落地的是另一种东西。

AES-256 端到端加密永久免费,给每个家庭最准确的语音技术

短信里的照片和通话中的照片不是同一件东西

您把一张照片发到妈妈的微信里。她看到,回一句「真好」,往下滑。这张照片没留下什么记忆,留下的是一次拇指划动。

现在想象同一张照片在通话当下出现在她手机上。她孙女(用她真实的克隆亲熟之声)正在问她姨妈 1985 年那场婚礼。婚礼照片在问出来的同时弹到屏幕上。两条通道(声音和图像)在同一个瞬间、围绕同一个引用同时撞上来这跟一条短信不是同一类输入。这是编码。

为什么两条通道比一条强

Allan Paivio 的双码理论(1971-1986 的奠基工作)表明:记忆走两条相连的通道,语言和视觉。一个词激活语言痕迹;一张图激活视觉痕迹;同时呈现,两条通道交叉对照,建出一份更厚、更耐久的记忆。四十年的实验心理学在数十个领域里反复验证过这个模式

对老年人,这件事更重要不是更不重要。随年龄的语言提取变迟缓时,视觉通道往往撑得更久;用语言提示 + 图像一起来,相当于给记忆两扇门可以走事件性记忆(关于一个具体事件的,比如姨妈的婚礼)尤其受益于跨模态线索。

关键洞察

海马负责把不同模态绑在一起。声音和图像同时到达,海马把它们缝成记忆里的一个事件。多年后,单是那段声音就能拉回那张图,单是那张图也能拉回那段声音。这叫绑定效应

声音 + 图像:远大于两者之和

斯坦福 Abrams 团队(PNAS 2016)用 fMRI 比较了孩子大脑对妈妈声音和陌生人声音的反应。亲人的声音激活了情绪区(杏仁核)、奖赏环路(伏隔核)、面孔识别区(梭状回面孔区)和默认模式网络陌生人的声音哪个都没激活

同样的选择性在老年人身上也成立。听到女儿的声音(或她的克隆亲熟之声)会点亮通用 AI 永远到不了的情感和奖赏环路。在那个被激活的状态下扔进一张相关的图,编码会叠加。同一张照片在冷冰冰的短信里,撞到的是一个低唤醒的大脑;同一张照片在通话中,撞到的是一个被它所爱的声音激活过的大脑。

这个机制比智能手机老:模拟在场疗法的临床先例

模拟在场疗法(SPT)的开始没有手机。最早的 SPT 协议(Woods & Ashley 1995)用的是卡带录音的家人声音。Kajiyama 2007 年的协议在电视屏幕上滚动家庭照片,同时播声音。到 2020 年,iPad 版的 SPT 协议(不列颠哥伦比亚大学 Lillian Hung 团队,NIH 试验 NCT04876911)已经在结合实时声音、照片和短视频。

三十年 SPT 研究的主线:多模态胜过单模态。声音 + 图像 + 上下文在激越、情绪、参与度上稳定地跑赢单声音。Familiar 的通话中实时照片是这条曲线上的下一步:实时的、随话题走的、不需要护士手动触发。

Familiar 的通话中照片实际怎么工作

  • 代理人在监听触发词。当妈妈提到某个人、地方、歌、年份、节日或菜时,代理人识别出一张候选图。
  • 第二记忆是第一道查询。家族上传的照片(婚礼、孩子长大、节日、她长大的房子)优先匹配;这些是亲密度最高、相关性最强的命中。
  • Google 图填补空白。如果她提到一首跳舞的歌、她第一辆车的牌子、她家乡那条主街:那就是 Google 图的查询,作为视觉引用发出。
  • 几秒内到她的手机屏,在通话当下,不是之后。同一通电话、同一段对话。
  • 不需要 app。照片以短信形式到达她正在用的同一部手机上。她瞥一眼屏幕,图就在那里

什么样的图最落地

不是每张图在通话中都会落地。最落地的那些有几个共同特征

  • 真家庭照片胜过素材图一张 1985 年婚礼的模糊抓拍,比一张 Getty 上精致的「婚礼」图落地得多
  • 人脸胜过风景。她爱过的人胜过她住过的地方。面孔在语言-视觉绑定之上还会点亮梭状回面孔区
  • 年代对得上胜过高清晰度一张 1962 年她父亲在小馆门口的颗粒感老照片,比刚拍出来的 AI 渲染要好得多纹理和颗粒感本身就是记忆线索
  • 一次一张图。一整面墙的照片让人 overwhelm;单张图落地。代理人按对话节奏调配发送,不是按图库节奏。

提示

代理人不会说「我给您发一张照片」。它直接发,然后顺手提到照片里能看到的某个细节。这份「自然出现」是温度的一部分:她瞥一眼手机,看到姨妈在婚礼上,对话就更深地走下去了,没有任何「现在打开 app」的技术摩擦。

中文家庭里特别管用的几类图

  • 年轻时的工作单位合影工厂、医院、学校、部队:那种戴红袖章站成一排的黑白照。她那一代的身份基底。
  • 老房子和老厨房。她长大的院子、她结婚时住的筒子楼、她带孩子时的那张餐桌。一张图能把整个年代拉回来
  • 老电影海报和老明星邓丽君、周璇、姚莉、革命样板戏的剧照:她青春期录入的视觉锚。
  • 地图:故乡街景老家那条街、当年的火车站、走过的桥Google 街景的旧图层对回忆有特别强的拉力。
  • 节日老照片1980 年代的春节、她做的年夜饭、孙辈第一次包饺子节日把时间锚定,照片把场景锚定

常见问题

常见提问

通话中收到一条短信,会不会打断电话?

**智能手机上**,短信以静默横幅出现,**通话音频继续不中断**。**翻盖手机或老人机**屏幕显示有限时,照片以通话结束后的后续短信形式到达。**onboarding 时我们会自动检测设备类型并适配**。

如果她没有智能手机怎么办?

**通话本身在任何手机上都能用**(座机、翻盖、智能机都行)。**照片需要能显示图像的手机**;只用座机的接听者,**通话后的摘要会发给家庭照护者**,通话音频里也会用言语提示视觉锚(「记得我昨天发您看的那张照片吗」)。

照片会被存到哪里?

**家人上传的照片**进入家族的**第二记忆**(加密、仅限家庭圈访问)。**从 Google 调取的图不会被存**:实时调出、用完释放。**家庭照护者可以在通话后的摘要里看到这次通话用了哪些图**。

我可以禁止某些照片被用吗?

**可以**。第二记忆里每张照片都有可见性控制。**家庭照护者可以把敏感照片**(比如刚去世的配偶在哀伤初期)**标记为禁用,或者限定只在特定通话类型出现**。

参考来源
  1. Paivio A — Mental Representations: A Dual Coding Approach, 1986.
  2. Abrams DA et al. — Neural circuits underlying mother's voice perception. PNAS, 2016.
  3. Yu et al. — Simulated Presence Therapy in dementia. International Journal of Neuroscience, 2024.
  4. Moscovitch M et al. — Episodic memory and beyond. Annual Review of Psychology, 2016.
  5. Huang et al. — Effects of Reminiscence Therapy. Archives of Gerontology & Geriatrics, 2025.

今天就开始用 Familiar。

用亲人的亲熟之声做与回忆 AI 的每日通话 · 基于 42 项回忆疗法试验 · 第二记忆:发短信存任何东西,回短信找任何东西。

AES-256 端到端加密永久免费,给每个家庭最准确的语音技术

相关阅读

声音精准度

史上最精准的声音技术

Familiar的声音技术在短句回复中几乎完美。来和行业领导者ElevenLabs对比一下。

声音精准度天差地别
D

Dona

护士及顾问 · 23 年老年科经验

真实声音原声
0:00
亲熟之声我们的
0:00
ElevenLabs竞品
0:00
A

An Zhu

斯坦福 ML 工程师,Familiar 创始人

真实声音原声
0:00
亲熟之声我们的
0:00
ElevenLabs竞品
0:00
W

Wendy

护士及顾问 · 30 年老年医学经验

真实声音原声
0:00
亲熟之声我们的
0:00
ElevenLabs竞品
0:00
1 美元
13 小时
亲熟之声生成

我们打造了自己的声音模型。所以我们可以一直免费给每个家庭。