Abstract
Objective
To translate into Arabic and validate the SF-36 quality of life index in a Tunisian Arabic population.
Background
No validated Arabic quality of life index is published.
Design
Arabic translation of the SF-36 scale was obtained by the “forward/backward translation” method. Adaptations were made after a pilot study involving 22 subjects from general population. Inter-rater reliability was assessed by use of intraclass correlation coefficient (ICC) and Bland and Altman method. Construct validity was assessed by Spearman rank correlation coefficient (convergent and divergent validity), and factor analysis with Varimax rotation. Internal consistency was assessed by Cronbach alpha coefficient.
Results
We note that 130 Tunisian subjects were included in the validation study. No items were excluded. Inter-rater reliability was excellent (ICC = 0.98). Cronbach alpha coefficient was 0.94 conferring to translated index a good internal consistency. Expected divergent and convergent validity results suggested good construct validity. Two main factors were extracted by factor analysis and explained 62.3% of the cumulative variance: the first factor represented mental component, the second physical component. The Cronbach alpha coefficient was 0.88 and 0.91 respectively for factor 1 and factor 2.
Conclusion
We translated into Arabic language and adapted the SF-36 scale for use in Tunisian population. The Arabic version is reliable and valid. Although the scale was validated in a Tunisian population, we expect that it is suitable for other Arab populations, especially North Africans. Further studies are needed to confirm such a hypothesis.
Résumé
Objectif
Traduction en arabe et validation de l’indice de qualité de vie SF-36 dans une population tunisienne.
Contexte
Aucun indice de qualité de vie n’a été validé et publié en arabe jusqu’à présent.
Méthodes
La traduction en arabe de l’échelle SF-36 a été effectuée à l’aide de la méthode de traduction/contre-traduction. Des adaptations ont eu lieu à la suite d’une étude pilote incluant 22 sujets pris de la population générale. La reproductibilité inter-observateur a été étudiée en utilisant le coefficient de corrélation intraclasse (CCI) et la méthode de Bland et Altman. La validité de construit a été évaluée en étudiant la validité de convergence et de divergence à l’aide du coefficient de corrélation non paramétrique de Spearman et d’une analyse factorielle suivie de rotation orthogonale Varimax. La cohérence interne de chacun des facteurs a été estimée en utilisant le coefficient alpha de Cronbach.
Résultats
Cent trente sujets tunisiens ont participé à l’étude de validation. Aucun item n’a été exclu. La reproductibilité inter-observateur était excellente (ICC = 0,98), la méthode de Bland et Altman a confirmé ce résultat. Le coefficient alpha de Cronbach s’élevait à 0,94, chiffre qui conférait à l’indice traduit un niveau satisfaisant de cohérence interne. En ce qui concerne les validités de convergence et de divergence, les résultats obtenus suggéraient un niveau satisfaisant de validité de construit. Deux facteurs étaient mis en évidence par l’analyse factorielle et expliquaient 62,3 % de l’écart cumulatif ; d’une part, la composante mentale et, d’autre part, la composante physique. Le coefficient alpha de Cronbach s’élevait respectivement à 0,88 pour le facteur 1 et à 0,91 pour le facteur 2.
Conclusion
Nous avons traduit en langue arabe et adapté l’échelle SF-36 en vue de la rendre utilisable dans une population tunisienne. Suite à sa validation dans cette population, nous sommes persuadés qu’elle pourra convenir à d’autres populations de langue arabe, notamment en Afrique du Nord. D’autres études seront nécessaires afin de confirmer cette hypothèse.
1
English version
1.1
Introduction
Quality of life (QoL) is a variable and very complex concept, which includes many indicators such as satisfaction, liberty of choice, life style and mental behaviour . Its assessment requires adapted and validated scale. Several scales have been used to measure different QoL domains in several pathologies .
The 36-item Short Form Health Survey (SF-36) is one of the generic QoL tools which can be used in clinical practise and research, to evaluate, follow and supervise population health status . The SF-36 is a brief self-administered questionnaire that generates scores across eight dimensions of health. It has proved useful in monitoring population health, estimating the burden of different diseases, monitoring outcomes in clinical practice, and evaluating treatment effects.
The scale is easy to administrate and to quote which permits to calculate patient QoL profile. It is frequently used in investigations and surveys because it is short, has high standard of reliability and validity and good sensitivity to health status change . It is one of the most widely used scales; it was translated in more than 50 languages ( www.sf-36.org ) and psychometrically evaluated on several populations , including non-western cultures and ethnic minorities within countries which allow comparisons . The SF-36 is considered actually as gold standard for QoL assessment.
The review of literature shows three studies involving an Arabic version of SF-36 , the first aim of these studies was QoL assessment of patients or healthy subject sample, and no Arabic scale was published.
The aim of the present study was to translate into Tunisian Arabic and to validate the SF-36, in a Tunisian population. We expect that the translated and adapted version will be suitable for other Arab populations, especially North Africans.
1.2
Materials and methods
1.2.1
The scale
The SF-36 is a generic scale to measure QoL. It is a multipurpose, short form health survey with only 36 questions. It yields an 8-scale profile of functional health and well-being scores: physical functioning (PF), role limitations due to physical problems (RP), bodily pain (BP), general health (GH), vitality (VT), social functioning (SF), role limitations due to emotional problems (RE), mental health (MH), and one single item scale on health transition .
The SF-36 is suitable for self-administration, computerized administration, or administration by trained interviewer face to face or through phone call . Score ranges from 0 to 100, with higher score indicating higher level of function and/or better health and lower score indicating lower level of function and/or bad health.
1.2.2
Translation–Adaptation
We applied to original SF-36 index forward/backward translation procedure. Forward translation was carried out by five professional bilingual translators with excellent proficiency in English (native Arab-speaking people). The translation was made in the Tunisian dialect closest to the Arabic literary. Translators were encouraged to strive for idiomatic rather than word-for-word translation. None of them was familiar with this type of instrument. The investigators (two psychological and one physiatrist involved in QoL) reviewed the translations to make cultural adaptations. Synthesis of the translations led to a unique version. Two other Arabic translators then carried out a backward translation of this revised version into English, to verify if the meaning of the items was preserved. Translation difficulties, cultural diversity, conceptual equivalence and vocabulary differences were highlighted by this translation technique .
1.2.3
Pre-testing
For pre-testing, a sample of 22 subjects from general population answered the translated questionnaire in order to test for misunderstanding and acceptability of questions.
1.2.4
Metric properties of the scale
Psychometric testing of the translated SF-36 was based on data from a sample of 50 healthy subjects and two samples of patients with chronic disease (40 patients with bipolar disorders and 40 patients with chronic renal failure). All subjects were aged between 16 and 80 years and consent to participate to the study.
Demographic and clinical characteristics were collected at baseline visit.
1.2.5
Item-by-item analysis
The questionnaire was administered by the same investigator, who could repeat the questions but was not allowed to change words. A “never done” choice was added for items 3, 4, 5, 6, 7, 8, 9, 10, 11, 20 and 32 which were questions about daily activities, this answer had to be chosen only if the activity was not usually done before illness.
To check for item comprehensiveness, patients had to rate each of them as incomprehensible; doubt about understanding or well understood.
Incomprehensible questions and questions answered “never done” by more than 5% of patients were eliminated.
For each item, a ceiling or floor effect was tested. A question was eliminated if its answer distribution was badly skewed.
1.2.6
Inter-rater reliability
The questionnaire was administered twice during a 6- to 8-day interval by two investigators to 40 healthy subjects. We chose this interval to avoid variations in clinical status and patient’s remembering previous answers.
Before the second assessment, patients were asked if they feel change in their clinical status. Only patients who felt clinically stable were tested twice.
1.2.7
Face validity
Item acceptability was studied. Item-by-item analysis was performed to detect missing responses. The time needed to complete the questionnaire was noted.
1.2.8
Construct validity
Convergent validity was assessed by correlating the translated scale with variables expected to have a converging relationship. The convergent criterion selected was QoL assessed by a visual analogical scale [VAS QoL] 0–100 mm (where the left limit a poor QoL and right limit an excellent QoL). The convergence validity was evaluated by assessing correlation between SF-36 global score and the VAS QoL.
Divergent validity was assessed by correlating the translated scale with variables known to have a weak or no relation with QoL.
The divergent criteria selected were: age, gender, education level, marital status, social security coverage, weight, height, wage level, profession, schooling and friend’s relationship.
Factor analysis was performed using principal component analysis and Varimax rotation method.
We assessed internal consistency of translated scale, each one of its dimensions as well as each component extracted by factor analysis and Varimax rotation.
1.2.9
Statistical analysis
The SYSTAT NTS system for Windows was used for all statistical analysis. Quantitative variables were described with means, standard deviations (SD), minimum and maximum values. Qualitative variables were described with proportions and percentages.
Test-retest reliability was assessed with Bland and Altman method and the intraclass correlation coefficient (ICC) . Reliability was considered to be insufficient when the ICC was less than 0.65. These two methods give complementary information.
Internal consistency was assessed by Cronbach’s alpha coefficient. Coefficient higher than 0.7 was considered as good coherence.
The correlation between two quantitative variables was assessed with the non-parametric Spearman’s rank correlation coefficient, because normal distribution could not be demonstrated for all parameters studied. Spearman’s rank coefficient values were interpreted as follows: excellent relationship, greater than 0.91; good 0.90 to 0.71; moderate 0.70 to 0.51; fair 0.50 to 0.31; and little or none less than 0.30 .
Factor analysis was performed to extract main factors. Independent factors were obtained using the Varimax rotation method. A factor was only considered to be relevant if its eigenvalue was greater than 1 .
The level of significance in all tests was P < 0.05.
1.3
Results
1.3.1
Translation
Forward translation was carried out by five translators. Synthesis of the translations led to a unique version. The two backward translations of this version were comparable to the original scale.
1.3.2
Pre-testing
Twenty-two subjects of general population (12 women), mean age of 50 (minimum 24; maximum 70) participate at this step. The pilot study resulted in few linguistic changes to the instrument. Incomprehensible terms were changed. A final translated version was obtained ( Appendix 1 ).
Because illiteracy high level among adult Tunisian people, self-administered questionnaire was not possible for all peoples.
1.3.3
Metric properties of the scale
One hundred and thirty subjects (72 women) answered the questionnaire between January to July 2007. Mean age was 37 ± 14.61 years (range 40 to 78 years), 47% married, 30% of patients were illiterates and 45.5% had university grade; 61.6% had a chronic disease.
1.3.4
Inter-rater reliability
Forty healthy subjects were included for this step.
Reliability of the translated scale showed an ICC equal to 0.98. Table 1 shows ICC of each of eight dimensions.
Dimension | ICC |
---|---|
PF | 0.959 |
RP | 0.970 |
RE | 0.981 |
BP | 0.988 |
GH | 0.989 |
VT | 0.953 |
SF | 0.983 |
MH | 0.984 |
SF-36 global score | 0.980 |
Bland and Altman analysis confirm this good result, no systematic trend was observed ( Fig. 1 ).
1.3.5
Face validity
Acceptability: it took 8 minutes (minimum 5 minutes, maximum 15 minutes) to complete the questionnaire. All questions were well accepted by patients.
1.3.6
Item analysis
No floor or ceiling effect was observed.
The Tunisian Arabic version of SF-36 is composed of same number of items and dimensions as the English version.
1.3.7
Internal consistency
Cronbach’s alpha coefficient was carried to assess internal consistency of SF-36 scale and each of its dimensions.
The Cronbach’s alpha coefficient applied for the 36 items scale was 0.94.
Internal consistency of each dimension ranged from 0.72 to 0.89 ( Table 2 ).
Dimension | α |
---|---|
PF: physical functioning | 0.89 |
RP: role physical | 0.75 |
BP: bodily pain | 0.8 |
GH: general health | 0.76 |
VT: vitality | 0.72 |
SF: social functioning | 0.81 |
RE: role emotional | 0.8 |
MH: mental health | 0.76 |
SF-36 global score | 0.94 |
1.3.8
Construct validity
1.3.8.1
Convergent validity
Correlation of SF-36 with VSA QoL was r = 0.71 ( P < 0.001). This correlation was judged good ( Fig. 2 ).
1.3.8.2
Divergent validity
Correlations between translated scale and its dimensions with the following variable: age, gender, weight, height, educational level, marital status, profession, social security coverage, wage level, schooling and friend relationship were faire to poor. The highest score did not reach 0.6 ( Table 3 ).
PF | RF | RE | BP | MH | GH | SF | VT | Global score | |
---|---|---|---|---|---|---|---|---|---|
Sex | 0.13 | 0.02 | 0 | 0.01 | 0.21 | 0.23 | 0.13 | 0.07 | –0.167 |
Age | 0.14 | 0.08 | 0.31 | 0.38 | 0.02 | 0.47 | 0.23 | 0.39 | –0.439 |
Height | 0.045 | 0.02 | 0.07 | 0.09 | 0.07 | 0.02 | 0.08 | 0.23 | 0.076 |
Weight | 0.142 | 0.04 | 0.06 | 0.1 | 0.08 | 0.06 | 0 | 0 | 0.067 |
Profession | 0.20 | 0.08 | 0.04 | 0.13 | 0.02 | 0.10 | 0.08 | 0.02 | 0.007 |
Wages level | 0 | 0.19 | 0.37 | 0.35 | 0.20 | 0.28 | 0.4 | 0.36 | 0.478 |
Friend’s relationship | 0.15 | 0.02 | 0.29 | 0.20 | 0.15 | 0.26 | 0.18 | 0.29 | 0.308 |
Security coverage | 0.07 | 0.05 | 0.12 | 0.19 | 0.09 | 0.08 | 0.23 | 0.21 | 0.108 |
Marital status | 0.058 | 0.18 | 0.03 | 0.08 | –0.12 | 0.02 | 0.12 | 0.02 | 0.08 |
Schooling | 0.35 | 0.06 | 0.27 | 0.35 | 0.34 | 0.27 | 0.28 | 0.17 | 0.4 |
No correlation between different SF-36 dimensions was observed ( Table 4 ). This indicates that each dimension can be used to measure a different aspect of health status.
Dimension | PF | RP | RE | BP | MH | GH | SF | VT |
---|---|---|---|---|---|---|---|---|
PF | 1 | |||||||
RP | 0.01 | 1 | ||||||
RE | –0.048 | 0.072 | 1 | |||||
BP | –0.026 | 0.059 | 0.049 | 1 | ||||
MH | 0.067 | 0.166 | 0.247 | 0.433 | 1 | |||
GH | –0.095 | 0.237 | 0.487 | 0.453 | 0.256 | 1 | ||
SF | –0.04 | 0.363 | 0.428 | 0.412 | 0.432 | 0.445 | 1 | |
VT | –0.088 | 0.159 | 0.516 | 0.543 | 0.355 | 0.419 | 0.564 | 1 |
1.3.9
Factor analysis
Factor analysis with Varimax rotation revealed two principal factors, mental component (CM) and physical component (CP), accounting for 62.3% of the total variance ( Tables 5 and 6 ).
Dimensions | Physical component | Mental component |
---|---|---|
PF | 0.753 | –0.184 |
PR | 0.800 | 0.310 |
BP | 0.662 | 0.522 |
GH | 0.723 | 0.185 |
VT | 0.048 | 0.672 |
SF | 0.203 | 0.828 |
RE | –0.285 | 0.728 |
MH | 0.250 | 0.713 |
Items | Mental component | Physical component |
---|---|---|
PF1 | –0.124 | 0.702 |
PF2 | 0.023 | 0.846 |
PF3 | –0.116 | 0.626 |
PF4 | –0.093 | 0.859 |
PF5 | –0.158 | 0.463 |
PF6 | 0.047 | 0.734 |
PF7 | 0.073 | 0.582 |
PF8 | 0.110 | 0.602 |
PF9 | 0.215 | 0.572 |
PF10 | 0.110 | 0.602 |
RP1 | 0.301 | 0.618 |
RP2 | 0.357 | 0.563 |
RP3 | 0.577 | 0.638 |
RP4 | 0.411 | 0.685 |
RE1 | 0.647 | –0.403 |
RE2 | 0.626 | –0.366 |
RE3 | 0.663 | –0.142 |
BP1 | 0.443 | 0.504 |
BP2 | 0.282 | 0.347 |
MH1 | 0.415 | 0.278 |
MH2 | 0.511 | –0.061 |
MH3 | 0.814 | 0.005 |
MH4 | 0.648 | 0.191 |
MH5 | 0.557 | –0.094 |
GH1 | 0.342 | 0.345 |
GH2 | –0.010 | 0.541 |
GH3 | –0.018 | 0.432 |
GH4 | 0.414 | 0.453 |
GH5 | 0.334 | 0.357 |
GH6 | 0.424 | 0.525 |
SF1 | 0.713 | 0.007 |
SF2 | 0.838 | 0.070 |
VT1 | 0.796 | 0.006 |
VT2 | 0.528 | 0.233 |
VT3 | 0.415 | –0.012 |
VT4 | 0.478 | 0.124 |
The internal consistency of these two components assessed by Cronbach’s alpha coefficient were higher than 0.7 (0.91 in the CP and 0.88 in the CM). That means a good coherence into each component.
Our study shows that CP is correlated with GH, PF, RP and BP. The CM is correlated with: SF, RE, MH, and VT. This confers to Arabic SF-36 good construct validity.
1.4
Discussion
This paper describes successive steps in translating and adapting the SF-36 into Arabic and the psychometric properties of the translated scale for Tunisian population. The translated and adapted scale has good reliability and constructs validity.
Our study showed that 30% of the interviewed people were illiterates, which made impossible self-administration. Arabic version had to be administered as a hetero-questionnaire to be understood by illiterate people.
Translation and adaptation was the first step of our work. We used the common forward/backward translation method.
Translation was made in Tunisian dialect closest to the Arabic literary. The scale was worded in simple and currently used language; it allows for it use in the largest possible Arab people, especially North Africans.
One difficulty is that dialectic synonyms of a word can differ from one Arab region to another and from one Arab country to another. When an item contains words with many dialectic synonyms, it should be eliminated, or if it has a good clinical relevance, synonyms should be detailed in parentheses below the literal version. Thus investigators can use the suitable version for each patient.
Semantic and conceptual equivalences were performed as well as necessary to obtain an Arabic version suitable to Tunisian population . In fact some adaptations turn out to be necessary, for example for several items in which distances are expressed (e.g. miles, blocks), metric equivalents were adopted as reasonable approximations (e.g. meters and kilometres). Similarly, where necessary, the use of culture specific alternatives was encouraged to ensure the relevance of examples used to illustrate specific functioning levels . For example, bicycling, swiping the house, running replaced playing golf, pushing a vacuum cleaner and bowling as examples of moderate levels of physical activities. Similar modifications were done when translating the SF-36 in Lebanon and Holland .
The study did not show floor or ceiling effects. We did not change the number of items and response modalities.
Assessment of metric proprieties was the second step of our study.
Reliability, studied on 40 healthy subjects, was judged excellent. It is unlikely due to the short interval between test and retest. Subjects had to answer questions at first visit, they were then asked several other questions about their familial, social and professional status. Retest was done 6 to 8 days later, patients might remember some questions but would be unlikely able to remember their previous answers.
Test-retest reliability was confirmed by Bland and Altman method.
Internal consistency of the translated scale was considered high. Cronbach’s alpha coefficients were well above 0.7 (criterion recommended for group comparisons) and in several cases, surpassed 0.9 (criterion recommended for individual comparisons).
Correlation between Arabic SF-36 and VAS QoL was good ( r = 0.71), all correlations with divergent factors were poor.
Correlations between dimensions were poor except between vitality and bodily pain, and between vitality and role emotional. This seems to be logic because when someone suffers from bodily pain, vitality decreases and as known psychology influences activity and vitality.
Factor analysis in principal component with Varimax rotation allowed to extract two components: CM and CP which accounted for 62.3% of total variance. This result’s comparable to Chinese result (56.3%) but lower than the American one (82%) .
GH, PF, RP and BP were correlated to the CP.
SF, RE, MH, and VT were correlated to the CM.
The internal consistency of this two components assessed by the coefficient alpha of Cronbach were good.
All studies showed two components mental and physical however the repartition of the dimension between CM and CP is different . Our distribution is comparable to the original English version and the Italian version of SF-36 scale ( Table 7 ) .
Studies | Original SF-36 | Italian SF-36 | Our study | |||
---|---|---|---|---|---|---|
Dimensions | CP | CM | CP | CM | CP | CM |
PF | 0.85 | 0.12 | 0.84 | 0.22 | 0.753 | –0.184 |
PR | 0.81 | 0.27 | 0.53 | 0.55 | 0.800 | 0.310 |
BP | 0.76 | 0.28 | 0.75 | 0.34 | 0.662 | 0.522 |
GH | 0.69 | 0.37 | 0.83 | 0.29 | 0.723 | 0.185 |
VT | 0.47 | 0.65 | 0.62 | 0.56 | 0.048 | 0.672 |
SF | 0.42 | 0.67 | 0.34 | 0.79 | 0.203 | 0.828 |
RE | 0.17 | 0.78 | 0.17 | 0.86 | –0.285 | 0.728 |
MH | 0.17 | 0.87 | 0.44 | 0.66 | 0.250 | 0.713 |
In conclusion, we translated in Arabic and adapted SF-36 index to suit Tunisian people. The translated questionnaire is reliable and valid. Although the scale was validated in a Tunisian population, it could suit other Arab populations, further studies are needed to confirm such a hypothesis.
Disclosure of interest
The authors declare that they have no conflicts of interest concerning this article.
2
Version française
2.1
Introduction
La qualité de vie (Qdv) est un concept particulièrement complexe qui comprend des indicateurs variés comme la satisfaction, la liberté de choix, le style de vie et le comportement mental (CM) . Son évaluation exige une échelle adaptée et validée. Plusieurs échelles ont déjà été utilisées pour mesurer les différents aspects de la Qdv dans plusieurs pathologies .
Le Short Form-36 Health Survey (SF-36) est l’un des outils génériques de mesure de la Qdv qui peut être utilisé tant dans la pratique clinique que dans les recherches scientifiques afin d’évaluer, de suivre et de surveiller l’état de santé d’une population donnée. En effet, le SF-36 est un questionnaire auto-administré qui génère des scores au travers de huit dimensions de la santé. Il a fait ses preuves dans le suivi de l’état de santé des populations, dans l’estimation de l’impact de morbidité de certaines maladies, dans le suivi des résultats dans la pratique clinique, ainsi que dans l’évaluation des effets de différents traitements.
L’échelle est facile à administrer et le calcul du score est aisé, ce qui permet de déterminer le profil de Qdv d’une personne. Elle est fréquemment utilisée dans les études et enquêtes et ce grâce à sa concision, à sa haute reproductibilité, sa validité et sa grande sensibilité aux changements . Elle fait partie des échelles les plus fréquemment utilisées ; elle a été traduite dans plus de 50 langues ( www.sf-36.org ) ses propriétés métrologiques ont été démontrées pour plusieurs conditions pathologiques et sur différentes populations , dont certaines de cultures non-occidentales, ainsi que pour des minorités ethniques de certains pays , ce qui autorise des comparaisons . En matière d’évaluation de la Qdv, le SF-36 est actuellement considéré comme « gold standard ».
La revue de la littérature a permis de trouver trois études comportant une version en arabe du SF-36 . L’objectif principal de ces études consistait à évaluer la Qdv d’un échantillon de patients ou de sujets sains, aucune échelle n’a été publiée en langue arabe.
Le but de notre étude consiste à traduire en langue arabe proche du dialecte tunisien et à valider le SF-36 auprès d’une population tunisienne. Nous sommes persuadés que cette version traduite et adaptée conviendra également à d’autres populations arabes, dont notamment celles de l’Afrique du Nord (le Maghreb).
2.2
Population et méthodes
2.2.1
L’échelle
Le SF-36 est une échelle générique qui mesure la Qdv. Ce questionnaire simplifié n’est composée que de 36 questions. Il permet d’établir un profil de santé et de bien-être à partir des 36 items répartis en huit dimensions : activité physique (PF), limitations dues à l’état physique (RP), douleurs physiques (BP), santé générale (GH), vitalité (VT), vie et relations avec les autres (SF), limitations dues à l’état psychique (RE) et santé mentale (MH), ainsi qu’un item sur le changement de l’état de santé.
Le SF-36 peut être administré en auto-questionnaire ou à l’aide de l’outil informatique ou encore à l’aide d’un investigateur spécialement formé qui pose les questions lors d’un entretient direct ou par appel téléphonique . Le score s’échelonne de 0 jusqu’à 100, un score élevé indique un niveau élevé d’activité et/ou une bonne santé, un score peu élevé indique un niveau moins élevé d’activité et/ou une mauvaise santé.
2.2.2
Traduction–Adaptation
Nous avons appliqué à l’indice SF-36 original la procédure de traduction/contre-traduction. La traduction a été effectuée par cinq traducteurs professionnels bilingues maîtrisant l’anglais (arabophones de naissance). La traduction a été faite dans le dialecte tunisien le plus proche de l’arabe littéraire. Les traducteurs, qui n’avaient auparavant connu ce type d’outil, étaient incités à conserver le sens des items plutôt que d’effectuer des traductions mot à mot. Un comité d’expert (deux psychologues et un spécialiste de médecine physique et réadaptation s’intéressant à la Qdv) a revu les traductions afin d’effectuer les adaptations culturelles nécessaires. La synthèse des traductions a abouti à l’élaboration d’une version unique. Deux autres traducteurs ont fourni chacun une contre-traduction en anglais de cette version révisée en vue de s’assurer de la conservation du sens exacte des différents items. Cette technique de traduction/contre-traduction a permis de mettre en évidence les difficultés de traduction et les problèmes d’équivalences sémantiques, techniques et conceptuelles .
2.2.3
Le pré-test
Dans le pré-test, un groupe de 22 sujets pris de la population générale a répondu au questionnaire traduit afin d’évaluer la compréhensibilité et l’acceptabilité des questions posées.
2.2.4
Les propriétés métriques de l’échelle
L’évaluation psychométrique du SF-36 traduit a été basée sur les données recueillies auprès d’un groupe de 50 sujets sains et de deux groupes de patients atteints de maladies chroniques (40 patients souffrant de troubles bipolaires et 40 patients souffrant d’insuffisance rénale chronique). Tous les sujets étaient âgés de 16 à 80 ans et avaient consenti à participer à l’étude.
Les caractéristiques démographiques et cliniques étaient recueillies lors de la consultation initiale.
2.2.5
L’analyse item par item
Le questionnaire a été administré par le même investigateur ; celui-ci pouvait répéter les questions mais n’avait pas de droit de modifier les mots. Le choix « jamais fait » a été ajouté aux items 3, 4, 5, 6, 7, 8, 9, 10, 11, 20 et 32, c’est-à-dire les questions concernant les activités quotidiennes, cette réponse ne devant être choisie qu’au cas où l’activité n’était pas effectuée de manière habituelle.
Afin de vérifier la compréhensibilité de chaque item, les patients étaient tenus à apporter leurs appréciations : incompréhensible ; compréhension douteuse ; bonne compréhension.
Les questions incompréhensibles et les questions générant le choix « jamais fait » auprès de plus de 5 % des patients ont été éliminées.
La distribution des réponses a été analysée pour chaque item. Une question a été éliminée si sa distribution a montré un effet plafond ou un effet plancher.
2.2.6
L’étude de reproductibilité
Le questionnaire a été administré à deux reprises par deux investigateurs différents avec un intervalle de six à huit jours auprès de 40 sujets sains. Le choix de cet intervalle a été dicté par la nécessité d’éviter que l’état général des sujets change et, par ailleurs, qu’ils ne se souviennent de leurs réponses précédentes.
Avant d’effectuer la deuxième évaluation, on a demandé aux patients s’ils ressentaient une modification de leur état de santé. Seuls les patients s’estimant cliniquement stables étaient testés à deux reprises.
2.2.7
La validité apparente
L’acceptabilité des différents items a été étudiée. Une analyse point par point a été effectuée afin de détecter les réponses manquantes. Le laps de temps pris pour compléter le questionnaire a été noté.
2.2.8
La validité de construit
La validité de convergence a été évaluée en corrélant l’échelle traduite avec des variables dont on attendait des rapports de convergence. Le critère de convergence sélectionné était la Qdv évaluée en termes d’une échelle visuelle analogique [EVA Qdv] 0–100 mm dans laquelle la limite gauche signale une Qdv mauvaise, alors que la limite droite indique une Qdv excellente. La validité de convergence a été évaluée en analysant la corrélation entre le score global SF-36 et la EVA Qdv.
La validité de divergence a été évaluée en corrélant l’échelle traduite avec des variables dont on sait qu’ils ont peu de rapport, voire aucun rapport avec la Qdv.
Les critères de divergence sélectionnés étaient : âge, sexe, niveau d’études, situation matrimoniale, couverture sociale, poids, taille, salaire, profession et relations amicaux.
Une analyse factorielle en composantes principales suivie d’une rotation orthogonale a permis l’étude de la structure factorielle de l’échelle.
2.2.9
La cohérence interne
Nous avons évalué la cohérence interne de l’échelle traduite, la cohérence interne de chacune de ses dimensions, ainsi que la cohérence de chacune des composantes extraites à l’aide de l’analyse factorielle après rotation Varimax.
2.2.10
L’analyse statistique
Le programme SYSTAT NTS pour Windows a été utilisé pour toute l’analyse statistique. Les variables quantitatives ont été décrites en retenant les moyennes, l’écart type et les limites (maximum et minimum). Les variables qualitatives ont été caractérisées en termes de proportions et de pourcentages.
La reproductibilité a été évaluée en appliquant la méthode de Bland et Altman , ainsi que le calcul du coefficient de corrélation intraclasse (CCI) . Lorsque ce coefficient était moins de 0,65, on considérait que la reproductibilité était insuffisante. Ces deux méthodes ont produit des informations complémentaires.
La cohérence interne a été évaluée en utilisant le coefficient alpha de Cronbach. Un coefficient supérieur à 0,7 signalait une cohérence jugée satisfaisante.
La corrélation entre deux variables quantitatives a été évaluée en se servant du coefficient de corrélation non paramétrique de Spearman, vu qu’une distribution normale des paramètres étudiés ne pouvait être démontrée. Les valeurs du coefficient de Spearman étaient interprétées comme suit : excellente corrélation si r supérieur à 0,91 ; bonne si r entre 0,90 à 0,71 ; modérée si r entre 0,70 à 0,51 ; faible si r entre 0,50 à 0,31 ; mauvaise ou nulle si r inférieur à 0,30 .
L’analyse factorielle a été effectuée en vue d’extraire les facteurs principaux. Les facteurs indépendants étaient déterminés en appliquant la méthode de rotation Varimax. Un facteur n’était estimé pertinent qu’avec une valeur propre s’élevant à supérieure à 1 .
Le seuil de signification retenu pour l’ensemble des tests était : p < 0,05.
2.3
Résultats
2.3.1
La traduction
La première traduction a été effectuée par cinq traducteurs. La synthèse de leurs traductions a abouti à une traduction unique. Les deux contre-traductions de cette version étaient comparables à l’échelle originale.
2.3.2
Le pré-test
Vingt-deux sujets faisant partie de la population générale (dont 12 femmes), d’âge moyen 50 ans (minimum 24, maximum 70), ont participé à cette étape. L’étude pilote n’a donné lieu qu’à des changements linguistiques mineurs ; quelques termes incompréhensibles ont été modifiés. Une version traduite finale a été retenue ( Annexe 1 ).
À cause du niveau élevé d’illettrisme parmi les adultes tunisiens, le mode en auto-questionnaire ne pouvait être appliqué.
2.3.3
Les propriétés métriques de l’échelle
Cent trente sujets, dont 72 femmes, ont répondu au questionnaire entre les mois de janvier et de juillet 2007. L’âge moyen s’élevait à 37 ± 14,61 ans (limites d’âge de 40 à 78 ans), 47 % mariés, 30 % des patients étaient illettrées alors que 45 % avaient un niveau d’études universitaire ; 61,6 % étaient atteints d’une maladie chronique.
2.3.4
La reproductibilité
Quarante sujets sains étaient inclus lors de cette phase de l’enquête.
En termes de reproductibilité, l’échelle traduite présentait un coefficient de CCI égal à 0,98. La Tableau 1 montre le CCI de chacune des huit dimensions étudiées.