gymel  >> Charsets  >> Konkordanzen

Zeichenkonkordanzen

Auch wenn eine Zuordnung von Zeichensätzen zu Unicode vorliegt, ist es oft ziemlich mühsam, zwischen zwei gegebenen Zeichensätzen eine Umsetzungstabelle zu erzeugen. Dies liegt daran, daß diese Zeichensätze normalerweise nicht 1:1 ineinander abbildbar sind und daher unbedingt die Unicode-Information zu kanonischer und Kompatibilitäts- Dekomposition herangezogen werden sollte, um auch »verborgene« Übereinstimmungen zu entdecken. Aber auch dann bleiben noch genügend andere Faktoren, die die Deklaration von »offiziellen« Umsetzungstabellen fragwürdig machen:

Die folgenden Links beziehen sich jeweils auf Tabellen für die Zuordnung eines Quell- in evtl. mehrere Zielzeichensätze, die wie folgt strukturiert sind:

  1. 1:1-Abbildungen
    1. 1:1-Abbildungen von Zeichen an identischer Position
    2. 1:1-Abbildung von Zeichen auf Zeichen an anderer Position, identisch für alle Zielzeichensätze
    3. sonstige 1:1-Abbildungen von Zeichen
  2. andere eindeutige Zuordnungen
    1. weitere Eindeutige Abbildung mittels kanonischer Dekomposition
    2. Eindeutige Abbildunge mittels Kompatibilitätszerlegung
  3. Protypkombinationen im Quellzeichensatz (kein Mapping!)
  4. Kompositionelle Abbildungen
    1. Protypabbildungen (kanonische Zerlegung mit Diakritischen Zeichen im Quellzeichensatz zu Einzelzeichen im Ziel)
    2. Komposition -> Einzelzeichen mit anderen als diakritischen Zeichen
  5. kanonische Dekompositionen im Quellzeichensatz zu Kompatibilitätszerlegungen in den Zielzeichensätzen (kommt vor?)
  6. Partielle Abbildungen von Einzelzeichen
    1. mit kanonischer Dekomposition
    2. mit Kompatibilitätszerlegung
    3. mit weiteren, nicht-Unicode Kompatibilitäten
  7. Benutzte, aber nicht 1:x oder x:1 abgebildete Zeichen
    1. im Quellzeichensatz
    2. im Zielzeichensatz
  8. Für die Konkordanz überhaupt nicht benutzte Zeichen
    1. im Quellzeichensatz (nicht abbildbar)
    2. im Zielzeichensatz (nicht erreichbar)
  9. Unbenutzte Zeichenpositionen
    1. im Quellzeichensatz
    2. im Zielzeichensatz

Von der Vielzahl der bibliothekarischen Zeichensätze (MAB1, MAB2, MAB-Diskette, Pica, ANSEL, Allegro-Ostwest, ...) sind tendenziell alle Mappings untereinander, mit sich selbst (wg. Protyp-Expansionen), von und nach Unicode interessant sowie die Abbildungen von und in diverse gängige Codepages (DOS: CP437, CP850, CP852, mehrere von diesen, Windows: CP1252, CP1250, CP1254, mehrere von diesen) und ISO-Zeichensätze (8859-1, 8859-2, andere) interessant. Dies ergibt einige tausend mögliche Kombinationen, zuviel um sie hier alle vorzuhalten. Ich habe daher hier einige (vielleicht) besonders interessante Kombinationen aufgelegt, bei Bedarf generiere ich gerne noch weitere.

MAB
MAB1 -> MAB2,
MAB1 -> MAB-Diskette,
MAB2 -> MAB-Diskette,
MAB2 -> ANSEL,
ANSEL -> MAB2
nach allegro-Ostwest
von MAB2,
MAB-Diskette, CP852,
ANSEL,
PICA,
CP1252, CP1250,
Ostwest, allegro-Windows,
von Ostwest in einzelne
nach MAB2,
MAB-Diskette,
ANSEL,
ISO 8859-1, ISO 8859-2,
allegro-Windows,
Unicode.
von Ostwest in mehrere (Platzhalter müssen ausgefült werden)
CP850 + CP852 + CP857,
ISO Latin 1, 2, 5, 7,
Windows Latin 1, 2, 5, 7.

Letzte Aktualisierung: 06.06.2001
submit bugs here