::: 델파이 Tip&Trick :::

델파이 Tip&Trick 성격에 맞지 않는 광고,비방,질문의 글은 즉시 삭제하며
내용을 복사하여 사용할 경우 반드시 이곳(http://www.howto.pe.kr)을 출처로 명시하여 주세요


Category

  김영대(2004-09-04 15:03:47, Hit : 5005, Vote : 1123
 http://www.howto.pe.kr
 두 문자열의 유사도 검사하기

unit Unit1;

interface

uses
  Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,
  Dialogs, StdCtrls, Math;

type
  TForm1 = class(TForm)
    Edit1: TEdit;
    Edit2: TEdit;
    Button1: TButton;
    procedure Button1Click(Sender: TObject);
  private
    { Private declarations }
  public
    { Public declarations }
  end;

var
  Form1: TForm1;

implementation

{$R *.dfm}

// Levenshtein matching gives the number of steps (single character replacement or addition)
// needed to transform StringA into String B.
function CompareStrings_Levenshtein(const A, B: String; CaseSensitive: Boolean = False): Integer;
  function Minimum3(x, y, z: Integer): Integer;
  begin
    Result := Min(x, y);
    Result := Min(Result, z);
  end;
  function iff(bool: Boolean; x, y: Integer): Integer;
  begin
    if bool then
      Result := x
    else
      Result := y;
  end;

var
  D: array of array of Integer;
  n, m, i, j, Cost: Integer;
  AI, BJ: char;
  A1, B1: String;
begin
  n := Length(A);
  m := Length(B);
  if (n = 0) then
    Result := m
  else if m = 0 then
    Result := n
  else
  begin
    if CaseSensitive then
      A1 := A
    else
      A1 := UpperCase(A);

    if CaseSensitive then
      B1 := B
    else
      B1 := UpperCase(B);

    Setlength(D, n + 1, m + 1);
    for i := 0 to n do
      D[i, 0] := i;

    for j := 0 to m do
      D[0, j] := j;

    for i := 1 to n do
    begin
      AI := A1[i];

      for j := 1 to m do
      begin
        BJ := B1[j];

        Cost := iff(AI = BJ, 0, 1);
        D[i, j] := Minimum3(D[i - 1][j] + 1,
                            D[i][j - 1] + 1,
                            D[i - 1][j - 1] + Cost);
      end;
    end;
    Result := D[n, m];
  end;
end;

// Ratcliffe matching gives the percentage of possible character matches between StringA and
// StringB, based on the longest matching sequences and subsequences between the two strings
function CompareStrings_Ratcliff(const A, B: String; CaseSensitive: Boolean = False): Double;
var
  A1, B1: String;
  LenA, LenB: Integer;

  function CSR_Sub(StartA, EndA, StartB, EndB: Integer): Integer;
  var
    a, b, i, Matches, NewStartA, NewStartB: Integer;
  begin
    Result := 0;
    NewStartA := 0;
    NewStartB := 0;

    if (StartA > EndA) or (StartB > EndB) or (StartA <= 0) or (StartB <= 0) then
      Exit;

    for a := StartA to EndA do
    begin
      for B := StartB to EndB do
      begin
        Matches := 0;

        i := 0;

        while (a + i <= EndA) and (b + i <= EndB) and (A1[a + i] = B1[b + i]) do
        begin
          Inc(Matches);

          if Matches > Result then
          begin
            NewStartA := a;
            NewStartB := b;
            Result := Matches;
          end;

          Inc(i);
        end;
      end;
    end;

    if Result > 0 then
    begin
      Inc( Result, CSR_Sub(NewStartA + Result, EndA, NewStartB + Result, EndB) );
      Inc( Result, CSR_Sub(StartA, NewStartA - 1, StartB, NewStartB - 1) );
    end;
  end;

begin
  if CaseSensitive then
    A1 := A
  else
    A1 := UpperCase(A);

  if CaseSensitive then
    B1 := B
  else
    B1 := UpperCase(B);

  LenA := Length(A1);
  LenB := Length(B1);

  if A1 = B1 then
    Result := 100
  else if (LenA = 0) or (LenB = 0) then
    Result := 0
  else
    Result := CSR_Sub(1, LenA, 1, LenB) * 200 / (LenA + LenB);
end;

procedure TForm1.Button1Click(Sender: TObject);
begin
  ShowMessage(IntToStr(CompareStrings_Levenshtein(Edit1.Text, Edit2.Text, True))+'개의 틀린 부분이 있습니다');
  ShowMessage(FloatToStr(CompareStrings_Ratcliff(Edit1.Text, Edit2.Text, True))+'% 일치합니다');
end;

end.





891   [COM/OLE] 떠있는 모든 Internet Explorer 를 강제 Refresh 시키기  김영대 2004/09/20 4861 1240
890   [일반/컴포넌트] 개행문자를 인식하여 출력하는 StringGrid 예제  김영대 2004/09/18 5059 1087
889   [알고리즘] String ELF Hash 함수  김영대 2004/09/17 4488 1143
888   [알고리즘] String Hash 함수  김영대 2004/09/17 4375 1150
887   [알고리즘] 32bit CRC (cyclic redundancy check)  김영대 2004/09/17 4699 1149
886   [시스템] 실행중인 모든 프로세스의 "CPU 시간"/시작 시간 구하기  김영대 2004/09/15 5820 1303
885   [시스템] 실행중인 모든 프로세스의 "메모리 사용" 구하기  김영대 2004/09/15 6123 1407
884   [시스템] 프로세스가 사용하는 모듈(DLL) 리스트 구하기  김영대 2004/09/15 5687 1242
883   [일반/컴포넌트] PageControl 에서 미리 이동하려는 Sheet 알아내어 제어하기  김영대 2004/09/13 4723 1189
882   [일반/컴포넌트] 다른 윈도우의 PageControl(TabControl) 상태 알아내기  김영대 2004/09/13 4785 1297
881   [일반/컴포넌트] StringGrid 를 텍스트파일(csv)로 저장하고 불러오기  김영대 2004/09/11 5329 1141
880   [윈도우즈 API] 표준 콤포넌트에 사용자정의 Property 만들기  김영대 2004/09/10 4451 1172
879   [윈도우즈 API] 다른 프로그램에 마우스/키보드 이벤트 발생시키기  김영대 2004/09/07 8172 1302
878   [일반/컴포넌트] TStringGrid 의 모든 행에 행선택 CheckBox 두기  김영대 2004/09/06 5235 1073
877   [시스템] 조합중인 한글 얻기  김영대 2004/09/06 6037 1335
876   [시스템] IME 입력 시스템 정보  김영대 2004/09/06 6066 1671
875   [일반/컴포넌트] 실행시 StringGrid 에 ComboBox 올리기  김영대 2004/09/04 6002 1043
  [알고리즘] 두 문자열의 유사도 검사하기  김영대 2004/09/04 5005 1123
873   [일반/컴포넌트] TRichEdit 를 disable 할 때 배경색과 폰트 바꾸기  김영대 2004/09/02 6905 1772
872   [일반/컴포넌트] 문자가 영문/숫자/영숫자/한글 인지 검사하기  김영대 2004/08/31 6952 1477
871   [알고리즘] 문자열에서 순방향/역방향 단어 찾기  김영대 2004/08/31 3988 1034
870   [일반/컴포넌트] TEdit 의 입력시 소/대문자 강제 변환  김영대 2004/08/30 4476 1095
869   [일반/컴포넌트] TListBox 에 여러개의 컬럼 두기  김영대 2004/08/30 4183 1054
868   [시스템] 윈도우즈 재시작  김영대 2004/08/30 4421 1128
867   [윈도우즈 API] 윈도우즈 시작의 "실행" 화면 띄우기2  김영대 2004/08/30 4252 1183
866   [시스템] 윈도우즈 Registry 변경여부 감시하기  김영대 2004/08/26 5546 1243
865   [윈도우즈 API] 아이콘 변경 화면 띄우기  김영대 2004/08/26 4307 1148
864   [일반/컴포넌트] little/big endian 변환 함수  김영대 2004/08/25 5562 1476
863   [일반/컴포넌트] 파일을 클립보드로 복사하기  김영대 2004/08/25 4157 1010
862   [일반/컴포넌트] 절대경로와 상대경로 결합  김영대 2004/08/25 4912 1383
861   [윈도우즈 API] '알려진 파일 형식의 파일 확장명 숨김' 여부  김영대 2004/08/25 4820 1202
860   [윈도우즈 API] Active Desktop 활성화 여부  김영대 2004/08/25 4469 1164
859   [시스템] NTFS 파일 시스템 사용 여부  김영대 2004/08/25 5049 1321
858   [네트웍/인터넷] 공유기(NAT,마스커레이딩)사용시 Public IP 구하기  김영대 2004/08/18 6166 1236
857   [COM/OLE] 현재 IE 의 HTML 소스 코드 읽어오기  김영대 2004/08/18 5612 1314
856   [네트웍/인터넷] 스팸(spam) IP 인지 검사하기  김영대 2004/08/17 4878 1207
855   [시스템] 프로세스에 할당된 memory page 구하기  김영대 2004/08/17 4733 1261
854   [일반/컴포넌트] 숫자만 입력받는 TEdit 만들기  김영대 2004/08/17 4578 1228
853   [일반/컴포넌트] INI file 에서 section 단위로 읽기  김영대 2004/08/17 4495 1101
852   [일반/컴포넌트] 실행파일에서 잃어버린 DFM 파일 뽑아내기  김영대 2004/08/17 5022 1340

[1][2] 3 [4][5][6][7][8][9][10]..[25] [다음 10개]
 

Copyright 1999-2020 Zeroboard / skin by zero