Android|Android Tomestone 分析
1.什么是tombstone
当一个动态库(native 程序)开始执行时,系统会注册一些连接到 debuggerd 的 signal handlers,当系统 crash 的时候,会保存一个 tombstone 文件到/data/tombstones目录下(Logcat中也会有相应的信息),文件的确就像墓碑一样记录了死亡了的进程的基本信息(例如进程的进程号,线程号),死亡的地址(在哪个地址上发生了 Crash),死亡时的现场是什么样的(记录了一系列的堆栈调用信息)等等。
2.tombstone文件长什么样
一个tombstone文件大概包含以下信息
文章图片
复制代码
--------- beginning of crashF/libc ( 244): invalid address or address of corrupt block 0xb82f54a0 passed to dlfreeI/libc ( 244): debuggerd_signal_handler called: signal=11, fn=0xb6fbdaa1F/libc ( 244): Fatal signal 11 (SIGSEGV), code 1, fault addr 0xdeadbaad in tid 244 (mediaserver)I/libc ( 244): exit from debuggerd_signal_handlerW/NativeCrashListener( 916): Couldn't find ProcessRecord for pid 244I/DEBUG ( 241): *** *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***E/DEBUG ( 241): AM write failure (32 / Broken pipe)I/DEBUG ( 241): Build fingerprint: XXXXXXXXXI/DEBUG ( 241): Revision: '0'I/DEBUG ( 241): ABI: 'arm'I/DEBUG ( 241): pid: 244, tid: 244, name: mediaserver >>> /system/bin/mediaserver <<
文章图片
复制代码 它包含了发生问题的进程ID信息
I/DEBUG ( 241): pid: 244, tid: 244, name: mediaserver >>> /system/bin/mediaserver <<<
当 tid == pid 时,问题发生在父进程,反之问题发生在子进程,从上面的日志信息可以看出发生问题的进程是mediaserver的子进程。
Terminated signal 和 fault address 信息
F/libc ( 244): Fatal signal 11 (SIGSEGV), code 1, fault addr 0xdeadbaad in tid 244 (mediaserver)
这里的信息说明出现进程 Crash 的原因是因为程序产生了段错误的信号,访问了非法的内存空间,而访问的非法地址是 0xdeadbaad。
信号机制是 Linux 进程间通信的一种重要方式,Linux 信号一方面用于正常的进程间通信和同步,如任务控制(SIGINT, SIGTSTP,SIGKILL, SIGCONT,……);另一方面,它还负责监控系统异常及中断。 当应用程序运行异常时, Linux 内核将产生错误信号并通知当前进程。 当前进程在接收到该错误信号后,可以有三种不同的处理方式。
(1)忽略该信号。
(2)捕捉该信号并执行对应的信号处理函数(signal handler)。
(3)执行该信号的缺省操作(如 SIGSEGV, 其缺省操作是终止进程)。
当 Linux 应用程序在执行时发生严重错误,一般会导致程序 crash。其中,Linux 专门提供了一类 crash 信号,在程序接收到此类信号时,缺省操作是将 crash 的现场信息记录到 core 文件,然后终止进程。
crash 信号列表:
Signal
Description
【Android|Android Tomestone 分析】SIGSEGV
Invalid memory reference.
SIGBUS
Access to an undefined portion of a memory object.
SIGFPE
Arithmetic operation error, like divide by zero.
SIGILL
Illegal instruction, like execute garbage or a privileged instruction
SIGSYS
Bad system call.
SIGXCPU
CPU time limit exceeded.
SIGXFSZ
File size limit exceeded.
定义在prebuilts/gcc/linux-x86/host/x86_64-linux-glibc2.11-4.8/sysroot/usr/include/bits/signum.h
文章图片
复制代码
/* Signals.
/#define SIGHUP 1 / Hangup (POSIX).
/#define SIGINT 2 / Interrupt (ANSI).
/#define SIGQUIT 3 / Quit (POSIX).
/#define SIGILL 4 / Illegal instruction (ANSI).
/#define SIGTRAP 5 / Trace trap (POSIX).
/#define SIGABRT 6 / Abort (ANSI).
/#define SIGIOT 6 / IOT trap (4.2 BSD).
/#define SIGBUS 7 / BUS error (4.2 BSD).
/#define SIGFPE 8 / Floating-point exception (ANSI).
/#define SIGKILL 9 / Kill, unblockable (POSIX).
/#define SIGUSR1 10 / User-defined signal 1 (POSIX).
/#define SIGSEGV 11 / Segmentation violation (ANSI).
/#define SIGUSR2 12 / User-defined signal 2 (POSIX).
/#define SIGPIPE 13 / Broken pipe (POSIX).
/#define SIGALRM 14 / Alarm clock (POSIX).
/#define SIGTERM 15 / Termination (ANSI).
/#define SIGSTKFLT 16 / Stack fault.
/#define SIGCLD SIGCHLD / Same as SIGCHLD (System V).
/#define SIGCHLD 17 / Child status has changed (POSIX).
/#define SIGCONT 18 / Continue (POSIX).
/#define SIGSTOP 19 / Stop, unblockable (POSIX).
/#define SIGTSTP 20 / Keyboard stop (POSIX).
/#define SIGTTIN 21 / Background read from tty (POSIX).
/#define SIGTTOU 22 / Background write to tty (POSIX).
/#define SIGURG 23 / Urgent condition on socket (4.2 BSD).
/#define SIGXCPU 24 / CPU limit exceeded (4.2 BSD).
/#define SIGXFSZ 25 / File size limit exceeded (4.2 BSD).
/#define SIGVTALRM 26 / Virtual alarm clock (4.2 BSD).
/#define SIGPROF 27 / Profiling alarm clock (4.2 BSD).
/#define SIGWINCH 28 / Window size change (4.3 BSD, Sun).
/#define SIGPOLL SIGIO / Pollable event occurred (System V).
/#define SIGIO 29 / I/O now possible (4.2 BSD).
/#define SIGPWR 30 / Power failure restart (System V).
/#define SIGSYS 31 / Bad system call.
/#define SIGUNUSED 31#define _NSIG 65 / Biggest signal number + 1 (including real-time signals). */
文章图片
复制代码
3.怎么分析tombstone文件
我们主要关注 backtrace 下面的内容,它保存了发生 crash 时候的函数调用关系,但是需要注意的是它的调用顺序是从下向上执行的(#XX pc -->#00 pc),通过这些函数调用关系,我们就可以大概定位出问题发生的地方,在本次 tombstone 日志中,我们通过
I/DEBUG ( 241): #00 pc 00028fa8 /system/lib/libc.so (dlfree+1239)I/DEBUG ( 241): #01 pc 0000f2cb /system/lib/libc.so (free+10)I/DEBUG ( 241): #02 pc 0000a1cb /system/lib/libstagefright_foundation.so (_ZN7android7ABufferD2Ev+42)I/DEBUG ( 241): #03 pc 0000a211 /system/lib/libstagefright_foundation.so (_ZN7android7ABufferD0Ev+4)I/DEBUG ( 241): #04 pc 0000d68d /system/lib/libutils.so (_ZNK7android7RefBase9decStrongEPKv+40)
可以分析出问题是在调用free函数时发生了指针错误,还可以看出问题发生的原因是libstagefright_foundation.so中释放了两次ABuffer引用,接着就去分析是谁谁释放的AUbffer强指针。
I/DEBUG ( 241): #05 pc 0005adfd /system/lib/libstagefright.so (_ZN7android2spINS_13GraphicBufferEED2Ev+10)I/DEBUG ( 241): #06 pc 0007cd0f /system/lib/libstagefright.so (_ZN7android14MPEG4Extractor10parseChunkEPxi+634)I/DEBUG ( 241): #07 pc 0007d43d /system/lib/libstagefright.so (_ZN7android14MPEG4Extractor10parseChunkEPxi+2472)I/DEBUG ( 241): #08 pc 0007e873 /system/lib/libstagefright.so (_ZN7android14MPEG4Extractor12readMetaDataEv+58)
可以看出来在 libstagefright 动态库中的MPEG4Extractor.cpp 的 parseChunk函数出现的错误。
4.一些分析工具
虽然通过 tombstone 的日志文件我们就可以大致定位出引发 crash 的代码的位置,但是通过借助一些分析工具,可以大大的提高工作效率和准确性,下面就来介绍以下这些工具。
(1)addr2line
addr2line 是 用来获得指定动态链接库文件或者可执行文件中指定地址对应的源代码信息的工具
它的各种参数如下所示(这个是google aosp android M 中带的):
文章图片
复制代码
~/source/google_android/prebuilts/gcc/linux-x86/x86/x86_64-linux-android-4.9/bin$ ./x86_64-linux-android-addr2line -hUsage: ./x86_64-linux-android-addr2line [option(s)] [addr(s)] Convert addresses into line number/file name pairs. If no addresses are specified on the command line, they will be read from stdin The options are: @
文章图片
复制代码
addr2line 的基本用法如下所示:
./prebuilts/gcc/linux-x86/arm/arm-linux-androideabi-4.8/bin/arm-linux-androideabi-addr2line -f -e out/debug/target/product/XXXX/symbols/system/lib/libstagefright.so 0007cd0f _ZN7android14MPEG4Extractor10parseChunkEPxi/home/XXX/source/XXX/LINUX/android/frameworks/av/media/libstagefright/MPEG4Extractor.cpp:2180 (discriminator 1)
这里需要注意的是不能直接使用out/debug/target/product/XXX/system/lib/libstagefright.so,会出现运行上面命令之后显示
????:0
因为这个动态库是最后要打包到最后生成的system.ing中的,所以它不包含调试符号信息。
(2)ndk-stack
Android NDK 自从版本 r6开始, 提供了一个工具 ndk-stack。这个工具能自动分析 tombstone 文件, 能将崩溃时的调用内存地址和 c++ 代码一行一行对应起来.
它的使用方法为
文章图片
复制代码
./ndk-stack Usage: ndk-stack -sym [-dump ] -sym Contains full path to the root directory for symbols. -dump Contains full path to the file containing the crash dump. This is an optional parameter. If ommited, ndk-stack will read input data from stdin See docs/NDK-STACK.html in your NDK installation tree for more details.
文章图片
复制代码 ①dump 参数很容易理解, 即 dump 下来的 log 文本文件. ndk-stack会分析此文件。
②sym 参数就是你android项目下,编译成功之后,obj目录下的文件(android系统源码o 中带有符号信息的文件)。
我们可以使用它来分析我们的log文件
ndk-stack -sym xxx.so -dump logfile
所以我们在调试android系统源码的时候也可以直接分析log中的crash信息。
adb shell logcat | ndk-stack -sym out/debug/target/product/XXXX/symbols/system/lib/xxx.so
(3)stack.py
stack.py工具就是要把backtrace通过addr2line工具一次性把addr对应到代码
文章图片
复制代码 !/usr/bin/python2.4 -Eimport getoptimport osimport reimport stringimport sysimport getpassimport urllibimport subprocessdef PrintUsage(): print print " usage: " + sys.argv[0] + " [options] [FILE]" print print " --symbols-dir=path" print " the path to a symbols dir, such as =/tmp/out/target/product/dream/symbols" print print " --symbols-zip=path" print " the path to a symbols zip file, such as =dream-symbols-12345.zip" print print " --auto" print " attempt to:" print " 1) automatically find the build number in the crash" print " 2) if it's an official build, download the symbols " print " from the build server, and use them" print print " FILE should contain a stack trace in it somewhere" print " the tool will find that and re-print it with" print " source files and line numbers. If you don't" print " pass FILE, or if file is -, it reads from" print " stdin." print sys.exit(1)def FindSymbolsDir(): cmd = "CALLED_FROM_SETUP=true make -f build/core/envsetup.mk " \ + "dumpvar-abs-TARGET_OUT_UNSTRIPPED" stream = os.popen(cmd) str = stream.read() stream.close() return str.strip()# returns a list containing the function name and the file/linenodef CallAddr2Line(lib, addr): uname = os.uname()[0] if uname == "Darwin": proc = os.uname()[-1] if proc == "i386": uname = "darwin-x86" else: uname = "darwin-ppc" if lib != "": #cmd = "./prebuilt/" + uname + "/toolchain-eabi-4.2.1/bin/arm-eabi-addr2line" \ #cmd = "./prebuilts/gcc/linux-x86/arm/arm-linux-androideabi-4.7/bin/arm-linux-androideabi-addr2line" \ cmd = " arm-eabi-addr2line" \ + " -f -e " + SYMBOLS_DIR + lib \ + " 0x" + addr stream = os.popen(cmd) lines = stream.readlines() list = map(string.strip, lines) else: list = [] if list != []: # Name like "move_forward_type
文章图片
复制代码 使用方法:
python stack.py --symbols-dir=out/target/profuct/XXX/sysbols/ tombstone-00(tombstone文件)
推荐阅读
- Android|Jetpack Compose UI组件入门教程
- Android性能优化(五)--更快--稳定--响应速度ANR
- 【Java中的线程】java.lang.Thread|【Java中的线程】java.lang.Thread 类分析
- 新型冠状病毒个人分析|新型冠状病毒个人分析 个人总体行程 part1 2020-01-29
- Android|Android Studio 3.0中mipmap-anydpi-v26是什么()
- Android中的Drawable(一)
- Android|Android 监听键盘状态变化,并获取键盘高度
- #|数据分析——RFM模型
- 数据分析系列|数据分析系列之matplotlib库的使用
- 矩阵|矩阵分析与应用+张贤达