libcurl 域名解析分析
背景
我们公司的产品使用 libcurl 作为基础网络库,线上环境中经常会有域名解析失败导致的问题。libcurl 的域名解析默认情况下是调用系统 API 完成的,并且用户的网络环境可能比较复杂,比如:是否连接了代理服务器,是否开启防火墙,域名解析过程是不是被运营商劫持等等。所以对于此类问题,通常是只能在特定的机器和网络环境下复现,非常难确定具体原因。
排查这类问题中我们也逐步有了一些想法:
- 网络诊断工具
- 域名解析备份机制
- 域名解析 PK 机制
这篇文章主要记录一下我是如何实现 libcurl 域名解析 PK 机制的。
首先需要弄清下面两个问题:
- libcurl 的域名解析流程
- 域名解析 PK 流程
libcurl 的域名解析流程
域名解析是网络连接的第一步,libcurl 使用了一个状态机管理网络连接的每个状态,代码在 multi.c 这个文件中:
1 | static CURLMcode multi_runsingle(struct Curl_multi *multi, |
CURLM_STATE_CONNECT 这个状态时会发起连接请求 Curl_connect, 解析域名的调用逻辑就封装在这个方法里面。libcurl 的域名解析有同步和异步两种方式,默认是异步的方式。异步域名解析的接口定义在 asyn.h 这个头文件中。
主要接口如下:
1 | ... |
Curl_resolver_getaddrinfos 是域名解析的接口,具体实现有两种方式:asyn-thread 和 asyn-ares; 前者是在开启了一个线程然后调用系统的域名解析API,后者是使用 c-ares 这个库实现异步域名解析。默认情况下,libcurl 使用的是 asyn-thread, 如果你想使用 asyn-ares, 需要打开 USE_ARES 这个编译选项。
Curl_resolver_is_resolved 返回域名解析是否完成,libcurl multi 中有个 hearbeat 就是通过调用这个方法轮询域名解析是否完成。
整体流程图如下:
域名解析 PK 流程
c-ares 是一个跨平台异步域名解析库,完整地实现了 DNS 协议标准,没有使用平台相关个API;因此,当我们遇到系统域名解析问题时,很自然地想到了是否可以使用 asyn-ares 做 backup 或者同时发起 asyn-thread 和 asyn-ares 两种解析方式。
但是 libcurl 中默认只能使用一种域名解析方式,也就时说如果打开了 USE_ARES 编译选项,就无法使用 aysn-thread 这种方式做域名解析了。所以这里需要重新定义一个编译选项并实现 asyn 接口。
如何在 libcurl 中实现域名解析 PK 呢?总结一下有以下需要解决的问题:
- 并行地发起 asyn-thread 和 asyn-ares 两种域名解析请求
- 如果其中一个解析成功
- 返回解析结果,状态机更新,继续处理下一个状态
- 取消另一个正在处理的域名解析请求
- 解析失败
- 如果其中一个请求失败了,忽略失败处理逻辑,继续等待另一个域名解析请求返回
- 如果两个请求都失败了,进行失败处理
- 取消逻辑
- 解析状态检测
- 数据结构更新